算力受限困局如何突破?华为云CloudMatrix让云化算力实现弯道超车!



By
jonson
08 7 月 24
0
comment

在大模型成为新质生产力代表的今天,传统算力架构局限性日益凸显,成为制约AI潜能释放的关键因素。再加上国外对中国算力供给侧的限制,如何实现我国算力使用的高效与灵活,成为亟待解答的时代命题。

有这么一家全球领先的云服务提供商,正以其创新的CloudMatrix架构,通过全新的设计理念,匹配大规模的算力需求,为这场算力革命绘制出崭新的蓝图。

想必大家好奇,我国的算力获取困境能否靠架构创新打破?CloudMatrix是哪家厂商提出的?能为行业带来哪些价值?该厂商的AI实力如何?今天我们一并揭晓。

01、破解算力获取之困,算力云化大势所趋

随着大模型的兴起,我国人工智能发展进入加速期。根据《2023全球人工智能创新指数报告》指出,我国AI的综合水平保持在全球第二的水平,在人才培养和科研产出、产业发展等方面取得明显进展,高层次人才数量与美国的差距逐渐缩小,顶会顶刊论文、高影响力人工智能开源项目等数量明显上升,人工智能企业数量和风险投资额保持全球第二。

人工智能的发展离不开数据、算法和算力三驾马车,但获取算力却成了“拦路虎”。

其一,大模型推理和训练场景均需要大算力,例如大模型训练往往需要数千张GPU卡,基于TB级别的数据,耗时几个月进行训练;

其二,AI算力对数据中心要求极高,单机柜功耗提升了6-8倍,还需要专用液冷系统散热;

其三,自建数据中心周期长、要求严苛、能耗高,难以满足大模型时代快速训练和迭代的要求。

在此背景下,云化算力应运而生。云化算力具有即开即用、按需使用、灵活部署、集群算力、专业服务、运维安全等六大主要优势,成为大模型训练、推理部署的必要基础设施。根据相关数据显示,AI算力已重度依赖云化部署,2025年算力云化的比例将达到80%。

前段时间,笔者去参加了华为云芜湖数据中心开服仪式。华为轮值董事长徐直军在仪式上指出,智能时代获取算力的最好的方式是云服务,企业不必建设数据中心,可以聚焦自身业务发展。

当前,摆在业界面前的问题是,如何让云化算力获取效率更上一层楼?

在近日举办的2024世界人工智能大会上,华为常务董事、华为云CEO张平安指出,华为正在通过“云网端芯”架构上的协同创新,来构建可持续发展的AI算力基础,包括云基础设施系统架构创新、芯端算力上云、面向AI的网络架构升级三大方面。

以云基础设施为例,随着人工智能、大数据处理、高性能计算等多元化算力需求的急剧攀升,传统以CPU为中心的主从架构面对的挑战越来越大。

首先,传统架构难以高效支持异构算力调度,导致资源利用不充分;其次,传统架构扩展性和灵活性受限,难以快速响应动态变化的计算任务需求;最后,传统架构处理大规模并行计算和实时数据处理能力不足,影响AI模型训练与推理效率。

02、下一代云基础设施CloudMatrix,开启智算新纪元

上述三大挑战如何破解?华为云推出了全新的CloudMatrix架构,以“一切可池化”“一切皆对等”“一切可组合”三大创新设计,从算力规模、扩展模式和使用模式上,匹配超大规模的算力诉求,通过技术创新来解决行业难题,让云化算力成为智能时代最好的选择。

笔者在华为云芜湖数据中心开服仪式中了解到,CloudMatrix架构已在该数据中心率先应用。你是否好奇,新架构CloudMatrix能为破解算力之困带来哪些突破?

突破一:分布式QingTian,从主从架构到对等架构,打造算力形态跃迁。

过去两年大模型发展得如火如荼,大模型参数量增长11.2倍,但现存容量仅增长2倍。为了破解内存瓶颈,业界使用大量算力换取显存容量,但NPU利用率仅有30%,十分低效。

华为云QingTian架构如何解决?QingTian架构把传统的主从式架构升级为对等架构,提出“一切皆池化”的理念。“一切皆池化”也就意味着计算资源、存储资源及网络资源被纳入统一的资源池中,实现灵活管理和动态分配,从而提升资源利用率。

QingTian架构带来的效果也很显著,它使得单节点算力提升50倍,资源碎片率降低至1%,NPU算力有效利用率提升到60%,大模型训练效率提升68%。

突破二:MatrixLink,从Scale Out到Scale UP+Scale Out。

近年来,大模型运算需求呈指数级爆炸,运算量在过去两年内剧增16.8倍,但GPU间的网络互联带宽增长仅提高了1.5倍,网络瓶颈凸显。在矩阵算力的新纪元里,传统基于以太网的VPC网络架构已显得力不从心,难以承载日益复杂的计算任务和数据流动需求。

MatrixLinx网络正是为了突破网络瓶颈而生。MatrixLinx网络实现了算力资源的全面池化与对等互联,还凭借自定义的矩阵拓扑结构和秒级的网络状态感知能力,做到清晰感知资源位置、状态以及网络抖动,将大模型训练集群的线性度提升至95%,网络故障分钟级恢复。

更为关键的是,MatrixLink技术的融入,使得网络扩展模式由单纯的Scale Out(横向扩展)进化到Scale Up+Scale Out相结合。这不仅能让大规模的模型训练运行效率更高,还能灵活适配中小型推理应用,真正做到了“大有可为,小亦精妙”。

突破三:瑶光智慧云脑,从固定算力到可组合算力,打造算力使用模式跃迁。

上述资源池化和高速网络互联两大技术突破,打通了资源的高速通道,同时也对大规模算力调度提出了严峻的挑战,传统服务器粒度的粗放调度已无法满足需求。

基于此,华为云推出了瑶光智慧云脑,它能实现资源的按需组合,通过匹配最优算力组合,实现百亿到万亿级模型训练所需要的资源。同时,通过智能调度,瑶光智慧云脑能充分发挥算力性价比与资产最大价值。

不仅如此,华为还在算法能力上持续创新,通过XPU池化的切分复用,即将CPU、GPU等异构的计算资源精细化分割,让同一XPU能服务于多个计算任务。这一创新将XPU的利用率从40%提升到80%,集群可用性提升至95%,这对于高算力需求场景尤为关键。

CloudMatrix作为智能时代算力领域的标志性实践,已经在三大领域展示出卓越贡献。

首先,在AI应用领域,CloudMatrix凭借灵活的Matrix档位配置,轻松驾驭各类复杂大模型的训练需求,相同硬件基础设施上,能够显著提升训练效率达68%,同时在AI模型推理(AII2AII)过程中,效率增长10倍,为深度学习和机器学习铺设了坚实的算力基石。

其次,在HPC(高性能计算)领域,针对包含400亿单元的仿真案例,CloudMatrix通过优化的CFD(计算流体力学)负载调度,将原本需耗时两个月的仿真时长压缩至仅仅30小时,实现了效率50倍的飞跃,为科学研究与工程模拟开辟了前所未有的高速通道。

最后,在通用计算场景中,CloudMatrix 方案在确保成本不变的前提下,将计算IO的极限性能提升8倍,彰显了其对资源的极致利用,重新定义了云计算的性价比与服务边界。

除了在云基础设施领域的创新CloudMatrix,笔者关注到华为云也在发力面向AI的网络架构升级以及芯端算力上云这两大领域。比如在芯端算力上云方面,张平安介绍,华为云创新的方向是将端侧的AI算力需求,通过光纤和无线网络释放到云上,通过端云协同获得无缝的AI算力,大大释放了对端侧算力和功耗的压力。

落地情况如何?目前,华为云已经在云办公、云设计、云拍照、云手机、云游戏等方面进行端云协同创新,将端侧的AI算力需求通过光纤和无线网络释放到云上,既保持了丰富的功能,又降低了功耗以及对芯片的依赖,充分释放AI价值。

03、华为云AI全栈布局,做厚智能时代黑土地

管中窥豹,透过CloudMatrix架构创新,我们看到的是华为云全栈的AI能力,包含盘古大模型、昇腾AI云服务、分布式QingTian架构、AI-Native Storage和全球存算网等。

“依托华为云构筑的全栈AI能力,通过全球存算网、昇腾AI云服务、盘古大模型等创新技术,我们将为千行万业创新发展注入数智活力,推动中国智能产业蓬勃发展,加速培育具有创新性和竞争力的新质生产力。”张平安表示。

本文将为大家着重介绍,华为云在盘古大模型和昇腾AI云服务方面的能力建树。

其一,华为云盘古大模型,为行业“解难题,做难事”。

坚持只做事,不作诗的华为云,过去几年一直在聚焦行业,加速千行万业的智能升级。截至目前,华为云联合数百家伙伴与客户,共同构筑了30多个行业大模型,以及400多个AI应用场景,已在金融、政务、制造、矿山、汽车、医学、气象等10+行业领域落地。

以钢铁行业为例,目前盘古大模型已上线宝钢的热轧生产线,实现精轧宽展预测精度较传统模型提升了5%以上,每年有望多生产2万吨钢板,增收9000多万元。值得一提的是,基于盘古大模型的钢铁行业AI应用解决方案入围了WAIC 2024的卓越人工智能引领者奖,受到业界高度认可。

此外,近日华为云盘古大模型升级到5.0版本,在“全系列、多模态、强思维”三个方面迎来全新升级,加入了不同参数规格的模型、能够更好更精准地理解物理世界、复杂逻辑推理更强,不仅拓宽了AI技术的应用边界,还提升了跨领域协同作业的能力。

其二,昇腾AI云服务,提供即开即用的6A级澎湃算力。

为了更好使能“百模千态”应用快速落地,华为云在贵安、乌兰察布、芜湖、香港部署了四大AI云算力中心,基于华为AI软硬件技术全栈,打造一站式、全场景、全流程AI应用开发及运行管理平台,对外提供高性价比、即开即用的澎湃AI算力服务——昇腾云服务。

对于企业来说,以后无需自建或改造传统数据中心,无需投资通用的AI技术,也能轻松获取高效AI算力。同时,昇腾云还实现了千卡训练连续30天不中断,任务恢复时长小于30分钟,为大模型和AI应用的开发、运行、运维提供6A级云化算力底座。

目前,华为云已经携手奇瑞、科大讯飞、信义玻璃等企业,打造了领先的“AI+”应用标杆。合作伙伴对华为云如何评价?“中国的产业界非常自豪,华为能够在真正的硬科技算力层面上给世界第二种选择。现在业界能够量产做大模型训练,除了英伟达只有华为一家,在推理上已经做到完全对标英伟达。”科大讯飞董事长刘庆峰表示。

笔者观察:华为云成AI时代领导者

40多年前,系统工程中国学派的创立,是钱学森为人类永续发展找到的“金钥匙”。时至今日,华为云的CloudMatrix架构创新,则为我国AI的发展注入了强大的“算力心脏”。

CloudMatrix不仅重塑了云计算基础设施的格局,以对等架构和一切皆池化的前瞻设计,能够打破我国算力供给的桎梏,并且通过智能调度与极致优化,将算力运用效率推向新高峰。

志之所趋,无远弗届,穷山距海,不能限也。可以预见的是,站在CloudMatrix身后的华为云,将持续深入行业解难题、做难事,重塑千行万业。

发表回复