骁龙X2 Elite NPU算力达80 TOPS 遥遥领先AMD/Intel!为何如此之高

抖音秀 热点资讯 6

10月19日消息,最近,高通发布了新一代PC笔记本平台骁龙X2 Elite系列,各方面规格都取得突飞猛进,比如CPU频率最高首次达到5GHz,NPU AI算力高达80 TOPS。

要知道,AMD、Intel新一代平台的NPU最高都只有50 TOPS,这自然让高通鹤立鸡群。

高通技术公司产品管理副总裁Vinesh Sukumar在接受媒体采访时解释说,开始设计骁龙X2 Elite的时候,目标就是让AI算力比第一代骁龙X Elite翻一倍,同时在软件层面还能带来10-15%的提升。

至于为何需要如此之高的NPU算力,一是想要提升大模型的首个Token生成时间,非常依赖算力,而更高的TOPS可以大大降低首个token生成时间的时延。

二是对于内容创作者来说同样如此,无论是图像生成还是视频生成,都对计算要求非常高,PC子系统也需要更强的计算能力,从而降低时延。

最后一点是为了支持音频、视频和文本等多任务并发处理,同样需要更多的TOPS。

随着手机端侧AI应用的发展,大模型的参数量、体积控制,以及内存的挑战,都是迫切需要解决的问题。

Vinesh Sukumar认为,高通和大多数OEM伙伴,包括整个生态系统,都在朝着30-40亿参数的模型发展,不仅包括通义千问系列、微软Phi系列,甚至苹果的基础模型也都在30-50亿参数范围内,可以认为这是在边缘设备上真正推动丰富体验的最佳区间。

当然,可以有多个30亿参数的模型,但这是一个起始线。

针对手机内存问题,目前的解决方案就是模型量化,从16位整数运算转向8位整数运算,再从8位转到4位,现在高通与微软合作推出了全球首个INT2 2-bit模型。

INT2在带宽和内存占用方面具有优势,对比INT4可以节省约50%的带宽和内存占用,可以更好地支持大语言模型(LLM)、大视觉模型(LVM)等的运行。

INT2的落地需要软硬两个层面的支持,其中硬件层面由第五代骁龙8至尊版支持,而软件层面包括编写专门的库、内核和运算符。

高通预计,随着更多数据类型的创新,可以支持更大规模的模型,同时减少内存占用。

比如说,一个70亿参数的模型在16位精度下大约占用14GB内存,使用INT4则是4GB,而INT2精度就只需要2GB。

当然,2-bit下的精度控制非常重要,但并不是每一层数据都是INT2精度,有的是INT2,有的是INT4,有的是INT8,不一而足,也就是通过支持混合精度以保持准确性。

如果这么做仍然有准确率损失,可以使用量化感知训练,重新训练模型,以确保将损失降到最低。

另外,无论AI手机还是AI PC,很多人都在寻找所谓“杀手级应用”,但是在Vinesh Sukumar看来,高通有不同的见解。

当前的AI已深度融入用户的日常应用,在影像、视频、音频等领域中无处不在,甚至在用户毫无察觉的情况下自动工作。

高通始终都在追求用AI解决下一个重大命题,以此作为奋斗目标,但是提高生产力、改善体验的每一小步,都是关键的一步,因为高通相信,只有从小处着手,才能实现稳健的成长。