作者 | 云鹏
编辑 | 漠影
生成式AI,Arm抛出AI软硬件加速全家桶。随着“Gen-AI”时代的到来,AI手机、AI PC等关键核心移动设备都在快速与生成式AI结合,越来越多的AI新功能涌现,深刻影响着我们每个人的生活和工作。需求变得多样化,场景也更加复杂,生成式AI带来新的算力挑战和存储挑战,加速着背后一系列硬件、软件、算法、生态等方面的技术迭代。
作为一切移动计算“根基”提供者的Arm,也在积极开拓新的解决方案,给行业带来新的解题思路。近年来,Arm已不止于提供IP,从架构、硬件、软件到生态,Arm转型为一家计算平台公司,为产业提供完整的计算解决方案。针对云数据中心和汽车应用,Arm相继推出对应的计算子系统(CSS),而就在上周,Arm为终端设备市场发布了首款终端计算子系统(CSS),结合了最新Armv9架构的特性,其中CPU和GPU在AI方面都有大幅性能提升。此外,Arm还为开发人员量身定制了开发工具Kleidi。
今年Arm从全面计算解决方案(TCS)升级到了终端CSS,两者的主要不同之处在于,Arm首次提供了CPU和GPU物理实现,这可以让构建和部署基于Arm架构的解决方案变得更加简单。显然,这样的改变正是为了让生态伙伴可以快速把握AI新机遇,加速产品上市进程。可以说,这无疑是Arm面向AI时代的一次关键发力,Arm这一系列重磅技术和新品都瞄准了端侧AI。此次智东西对话Arm 终端事业部产品管理副总裁James McNiven,对背后的关键突破进行了深入挖掘,对Arm在生成式AI时代的布局和深入思考进行了探讨。我们可以清晰地看到,Arm正在通过横跨架构、硬件、软件、生态的完整解决方案,让合作伙伴的产品快速与AI结合并推向市场,实现落地,为行业打造一个“AI百宝箱”。
01.移动生成式AI浪潮涌起,Arm深入底层从架构到软硬件全家桶赋能
在今天的智能终端产业中,AI手机和AI PC无疑已经成为了产业关注的焦点赛道,生成式AI在这两个领域的融合也最为快速。终端设备能够处理的任务越来越复杂,并且生成式AI在感知、理解、交互等方面都带来了全新的技术挑战,涌现出更多的计算需求。行业需要重新思考:什么才是适合生成式AI时代的计算平台?如今一切移动端生成式AI的运行几乎都离不开Arm的CPU和GPU,据了解,有70%的第三方安卓ML工作负载都是在CPU上运行的,因此CPU仍然是AI时代计算的核心。在这样的背景下,Arm作为底层关键技术提供者,无疑已成为这场AI变革的关键变量。1、AI能力大幅提升背后,Arm的“DNA”与生成式AI相契合为什么如此关键?AI时代带来了诸多挑战,其中最明显的就是,高性能和高能效的重要性被放到了空前高度,而能效恰恰是Arm的DNA。
新的终端CSS基于最新的Armv9构建,计算和图形性能提升幅度超过30%,同时其AI推理速度提高了59%,这些提升对于处理要求更加严苛的安卓实际用例以及AI、ML和计算视觉工作负载都十分重要。采用3nm工艺的新Arm Cortex-X925主频飙至3.8GHz,配合微架构的改进,与2023年旗舰智能手机采用的4nm SoC相比,其单线程性能提高了36%。
在AI性能方面,Cortex-X925的token 首次响应时间提高了41%,这可以提升如大语言模型等端侧生成式AI的响应能力。McNiven透露,为了提升AI算力,Arm采用了迄今为止最宽的解码和矢量的微架构设计,实现了50% TOPS数的增长。GPU方面,新Arm Immortalis-G925 GPU在各类头部手游应用中实现了37%的性能提升,在多个AI和ML网络上实现了34%的性能提升。
值得一提的是,Arm终端CSS还具备基于3nm工艺生产就绪的 CPU 和 GPU 物理实现。据了解,物理实现中包括晶体管的设计和线路,可以显著帮助Arm的合作伙伴节省芯片开发的时间,同时优化芯片的性能和能效。2、给开发者打造一把解锁更强性能的“钥匙”除了架构和硬件设计,在工具和软件库方面,Arm还首次发布了Arm Kleidi,其中包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。
Arm做Kleidi最核心的目的,就是要确保开发者能够快速获得开发生成式AI应用所需的性能、工具和软件库。简单理解,KleidiAI是一套面向AI框架开发者的计算内核,像PyTorch、Tensorflow、MediaPipe这样的热门AI框架都已经集成到KleidiAI中了,这对于加速主流AI大模型是十分重要的。
值得一提的是,在Arm看来,CPU是唯一可以确保运行未来网络的计算引擎,因此对于可以解锁 Arm CPU 最高性能的Kleidi,无疑是开发人员解锁AI应用的最佳利器。总体来看,此次Arm终端CSS出色的架构升级、性能和能效的大幅提升为功能更丰富、性能更强、更智能的终端设备铺路,扩展了移动设备的可能性和能力。同时Arm的软件层面的开发工具和平台则让开发者可以快速地将这些Arm的技术优势落地到应用和产品中,可以说Arm打造了移动端AI落地的“百宝箱”。
02.AI PC火爆加速WoA生态生长移动端AI生态圈Arm挑大梁
正如前文所说,Arm提供的不仅仅是某一单点技术或产品,而是一个完整的解决方案,这背后,基于架构、硬件、软件之上实现的生态优势,也是Arm最硬的底牌之一。在AI手机和AI PC两大移动智能终端设备快速发展的当下,Arm生态迎来一轮新的增长高潮。随着微软等厂商对于移动AI PC的大力推动,Windows与Arm生态的融合加速,我们将有望看到越来越多的PC终端巨头推出基于Arm架构处理器的AI PC。在本周的台北国际电脑展上,Arm首席执行官喊出,五年内Arm架构的PC将抢下50%市场份额。这强大的自信很大一部分是来自 “Arm原生”的爆发式增长。
McNiven特别谈到,对于WoA生态系统来说,今年是成果丰硕的一年。除了Microsoft Office、Dropbox、Zoom、Adobe套件,越来越多的应用正在成为Arm 原生应用,尤其是百度、哔哩哔哩、Chrome 浏览器、爱奇艺、搜狗、腾讯QQ音乐等头部应用。此外还有许多针对创作者的开源工具,例如最近新增的Audacity、Blender和OBS Studio,这些应用整合了大量的开源库和开发者工具。Arm与微软合作,通过资助开源和发布面向Windows的Arm性能库来发展生态系统。据了解,对于大多数用户来说,他们绝大部分时间都在基于Arm CPU的AI PC上运行Arm原生应用。微软CEO萨蒂亚·纳德拉(Satya Nadella)在Build大会上说,现有Arm PC应用程序中有87%都是原生的Arm版本,这一数字还在不断增长。可以预见,随着越来越多Arm原生应用的加入,Arm PC的体验和WoA生态也将更加完善。据了解,如今Arm的技术合作伙伴已经有1000多家,Arm无疑有着芯片领域的“最强朋友圈”,而这个朋友圈,更直观的来看,就是Arm生态——更多的设备基于Arm,更多的应用基于Arm,移动终端AI体验,离不开Arm。生态是Arm最硬的王牌之一,Arm也成为移动智能终端产业的“幕后王者”。今天的Arm,正在提升企业和开发者快速把AI用在产品中,用对、用好,实现落地的能力,真正打造出生成式AI时代的移动芯片百宝箱。
03.结语:从IP到计算子系统Arm成为移动AI生态隐形王者
可以看到,Arm正将前沿的CPU和GPU技术、生产就绪的物理实现和持续的软件优化相结合,终端计算子系统(CSS)与Kleidi软件的结合,也令其成为当下芯片设计领域新AI计算平台的优秀范例。如今,Arm低功耗处理器设计和软件平台已应用于超过2800亿颗芯片,从传感器到智能手机乃至超级计算机。在AI变得无处不在的未来,Arm同样将无处不在。可以说,Arm架构是未来的基石,Arm生态也将继续加速生长。面向生成式AI的未来,移动智能终端产业必然将涌现出更多创新,Arm将如何通过技术创新保持自身的核心竞争力并不断壮大自身的生态,我们拭目以待。