手机端生成模型爆发在即,芯片迎来巨变?

以生成模型为代表的下一代AI正在席卷科技行业乃至整个人类社会。目前人们对生成模型的关注主要在于以OpenAI、Google为代表的人工智能巨头在云服务器上运行的模型。这些模型需要巨大的计算能力,一般运行在GPU上。但随着技术的发展,我们认为量产模式在手机方面已经到了一个转折点,即将进入大规模部署阶段。

在看具体技术之前,我们不妨先看看用户的生成模型在手机上运行的具体应用场景。这其实很值得我们深思,因为像ChatGPT这样的人工智能对话应用其实并不需要在手机终端上运行——chat GPT完成稿件设计的最佳使用场景还是在连接互联网的电脑上,而不是在手机上运行。

我们认为最适合量产机型在手机终端芯片上运行的首先是拍摄增强,包括超分辨率、去模糊、照片补全等。这些应用程序需要模型在任何时候以低延迟运行,因此它需要在本地执行。

对于用于拍摄增强的生成模型,主要是以扩散模型为代表的图像生成模型。扩散模式在最近一年有了很大的进步,其生成内容的质量足以改变用户的拍摄体验,包括:

1.超分辨率:使用扩散模型,可以将低分辨率图像转换成高质量的高分辨率图像,质量远高于现有的其他模型。

2.图像修补:包括移除/替换图像中不需要的内容(即绘画中)或进一步完成图像内容(即涂色)。

对于基于扩散模型的生成式图像模型,自去年下半年稳定扩散发布以来,受到了业界的极大关注。扩散模型一般比较大,需要运行多步采样过程。虽然之前也有在手机上运行的例子,但由于运行时间过程(10秒左右)的原因,并没有真正大规模应用。但随着今年10月中国清华团队发表研究论文《潜在一致性模型(LCM )》,在手机上运行高性能图像生成模型不再遥不可及。

清华团队发表的论文。

LCM的模型结构与稳定扩散相似,但通过数学优化,LCM可以将稳定扩散50次生成所需的模型执行次数减少到2~4次,相当于端到端运行速度提高了10倍,生成的图像质量接近稳定扩散。

目前,LCM在人工无线城市中得到了广泛的关注和应用。我们相信LCM很快会成为手机上运行图像生成机型的首选,LCM的低延迟可以真正实现一种全新的用户体验:比如高质量的实时超分辨率可以让数码变焦的拍摄质量与光学变焦相近,但同时避免了笨重的镜头;再比如,inpainting/outpainting允许用户快速编辑和分享拍摄的照片,可以达到类似手机上photoshop的效果,这将大大提升用户体验。

对于智能助手的应用,目前还处于探索阶段,整合多模态信息(包括用户的短信、备忘录、日历等)并不容易。),但我们认为最终的模型极有可能是GPT这样的大语言模型,通过海量数据和训练,实现对用户数据的深入理解,并给出相应的帮助。这种智能助手的第一个应用可能是用户消息编辑和改写。例如,用户可以要求智能助理重写短消息来改变音调。这种应用程序预计将于明年推出。

手机生成模型需要什么样的芯片?

首先,我们从用于拍摄增强的图像生成模型(LCM)开始,因为该模型的应用是清楚的。

我们对模型芯片支持的分析可以从算子、计算能力、内存三个方面入手。从算子的角度来看,LCM或者稳定扩散模型中使用的算子主要是卷积和注意力层,在目前手机芯片的人工智能加速器中已经得到了非常好的支持。

在计算能力和内存方面,图像生成模型的复杂度和模型规模比现有运行在手机上的人工智能模型大一两个数量级:LCM的参数达到了10亿以上,而主流手机人工智能模型的参数在1000万左右。我们之前说过,手机需要能够实时执行这样的模型,所以在计算能力上需要满足模型的需求。

计算能力可以从两个方面满足需求。首先是提高人工智能加速器的峰值计算能力,主要方法是增加计算单元的数量。然而,计算单元数量的增加是以更大的芯片面积(即更高的成本)为代价的。为了在成本和性能之间获得更好的折衷,需要使用性价比更好的计算单元。

在服务器的LCM版本中,使用的计算是基于32位或16位浮点数的,但是32位/16位浮点数计算单元在手机上执行时过于昂贵,所以大部分计算必须使用精度较低的,比如8位定点数,或者8位浮点数9甚至4位浮点数。

这就涉及到一个软硬件协同设计的问题,即在使用低精度计算的情况下,如何保证模型输出质量不受太大影响,使用8位浮点数还是8位定点数更划算等等。,所以需要模型设计团队和芯片设计团队的配合才能完成。此外,由于该机型尺寸远大于之前的主流机型,达到了GB的量级,很可能需要升级手机的DRAM容量才能更好地支持。

除了DRAM容量,大量的模型参数也意味着对内存接口更大的压力(否则可能会陷入内存墙问题,使内存访问成为整体模型执行速度的瓶颈)。从这个角度来看,一方面有望加速手机芯片对下一代内存接口(如LPDDR6)的使用,另一方面也将推动SoC使用更多的片内存储器(SRAM)来缓解DRAM访问的压力。

最后,在稳定扩散和LCM模型中广泛使用的U-Net神经网络结构也有更多的激活。为了保证最佳的延迟和能效比,SoC上还需要更多的SRAM来满足需求。

对于大语言模型,其对手机芯片的需求也可以从运营商、计算能力、内存上看出来。同样,算子语言模型中使用的主要算子是注意力,目前已经得到了广泛的支持;主要挑战是大语言模型的参数甚至比扩散模型/LCM大一个数量级,达到百亿亿量级,这将对手机的内存容量和接口速度构成巨大挑战。如果大语言模型真的能在手机中大规模应用,有望极大推动手机芯片内存容量和内存接口的发展。

此外,由于大语言模型的参数过大,很可能需要多级缓存,一次只将一部分模型参数加载到DRAM中,还有一部分会留在非易失性存储器中,因此存储器与非易失性存储器的接口速度也可能得到提升。

生成模式对手机芯片市场的潜在影响

目前我们看到手机系统厂商已经越来越重视生成模型在手机中的应用。在最近的发布会上,知名手机厂商vivo和OPPO都将这种生成模式作为下一代新手机的主要卖点。原因很简单,因为目前来看,生成式模型已经到了可以真正成为核心用户体验的时刻,模型技术已经足够成熟,即将爆发。

手机芯片的格局也可能在这种生成型机型的热潮中发生微妙的变化。生成模型的支撑能力可能会变得和手机镜头的核心硬件卖点一样重要,但生成模型最终的解决方案其实是软硬件设计的结合。这样对于拥有自研芯片能力的手机厂商来说是非常有利的,因为这些手机厂商可以同时掌握机型和硬件设计,从而实现最高效的解决方案;或者换句话说,通过深度协同优化,即使芯片实现工艺和性能相对落后,也有可能实现良好的用户体验。

这对国内的一些手机厂商尤其有利,比如华为,因为他们有人工智能模型开发、手机系统优化、芯片开发的深度能力。通过在自研的第一方应用(比如拍照、浏览照片)中加入自研的模型,运行在自研的芯片上,他们就有机会充分利用端到端优化的机会。

对于为手机系统提供芯片平台的公司,如高通和联发科,需要提供完整的参考设计。在这方面,高通已经把手机端的生成模型放在了核心位置。在最近发布的骁龙8 Gen 3中,高通宣布可以实现延迟小于1秒的稳定扩散图像生成,未来有望进一步提高质量,降低延迟。接下来,这取决于使用高通芯片的手机系统制造商如何利用这种计算能力。

联发科还基于参数上亿的大语言模型的特点,结合公司独有的内存硬件压缩技术NeuroPilot Compression,开发了混合精度INT4量化技术,从而更高效地利用内存带宽,大幅降低大AI模型占用的终端内存,突破端到端运行大AI语言模型的手机内存限制,帮助更大的参数模型在端侧落地。

另一个问题是,目前云一代机型芯片领域的统治者Nvidia如何看待手机一代机型的机会?英伟达在移动端的尝试从十几年前的Tegra系列开始似乎就停滞不前了,但今年年中有消息称,英伟达与联发科合作,联发科的下一代旗舰手机SoC可能会使用英伟达GPU,这说明英伟达还是有机会切入手机生成模型领域的。

英伟达在该领域的优势主要在于机型开发生态,但能否在手机生态(包括第一方应用)继续保持这样的优势,需要与SoC厂商以及使用该SoC的手机系统厂商进行深度合作;这种合作能走多远还有待观察。

您可能还喜欢...