9月29日,2024中国算力大会落下帷幕,大会期间8个框架协议、9个合作协议、5个战略协议集中签约,总金额231.2亿元。根据大会发布的《中国综合算力指数(2024年)》,截至2024年6月,我国在用算力中心超过830万标准机架,算力总规模246EFLOPS(FP32),位居世界前列。不过,挑战依然存在,包括算力生态仍比较"碎片化",算力的需求与供给之间不能完全精准适配等。按工信部的计划,将从规划设计、创新驱动、应用培育、安全保障4个方面,稳步提升我国算力产业综合实力,持续提升算力的赋能成效。
据中国信息通信研究院测算,截至2023年底,全球算力基础设施总规模达到910EFLOPS(FP32),同比增长40%。美国、中国算力基础设施规模位列前两名,算力占比分别为32%、26%。
我国算力结构不断调整,智算规模增长势头强劲;存力规模持续扩大,先进占比不断提升;运力质量显著提升,网络设施不断升级。以《中国综合算力指数(2024年)》统计的截至2024年6月的数据为例,246EFLOPS(FP32)的总算力规模中,智能算力规模76EFLOPS,智算同比增速超过65%。
国家高性能计算机工程技术研究中心主任历军从产业链的角度介绍,到2025年底,国家超算互联网计划连接全国超过50家顶尖的超算中心和智算中心,提升我国算力应用水平。
站在大模型的视角,中国工程院院士刘韵洁表示,数据要素是人工智能和大模型发展的基础,而网络、算力、数据交换平台和安全构成了数据基础设施的四大支柱。面对AI未来的发展,他认为有三大挑战:大模型对网络的新需求、空间计算的推广和智能体(如人形机器人)的发展。他同时指出,当前网络带宽的增长速度远低于GPU(图形处理器)的增长速度,带宽瓶颈逐渐显现,这对算力传输提出了更高的要求。
解读《中国综合算力指数报告(2024)年》报告时,中国信息通信研究院院长余晓晖也提到了挑战,他认为,我国算力芯片生态比较碎片化,有几十款算力芯片,不同的芯片对应不同的开发框架、软件栈以及算子库等。"有了万卡、10万卡,不一定就能把万卡、10万卡的能力完全发挥出来,卡越多,故障的概率越高,怎么能够打造大的、稳定的算力集群,是一项全球面临的挑战,需要非常多的技术创新。"
10万卡是什么概念?不久前,百度集团执行副总裁、百度智能云事业群总裁沈抖给出一组数据,要部署10万卡集群,在物理层面要占据约10万平方米的空间,相当于14个标准足球场的面积,这些服务器一天要消耗约300千瓦时的电力,相当于北京市东城区一天的居民用电量,他也提到过故障问题,"用1.6万卡训练Llama3时,每3小时就会出一次故障,推演到10万卡,意味着每30分钟就要中断一次"。
针对算力产业发展,余晓晖建议,优化算力布局,加强技术构建算力互联成网,解决需求和供给错位问题,并围绕技术创新和产业生态协同发展。工信部总工程师赵志国表示,工信部将从规划设计、创新驱动、应用培育、安全保障4个方面,稳步提升我国算力产业综合实力,持续提升算力的赋能成效。具体来看,要完善互联互通机制,构建算力互联程序规则、市场规则、质量检测规则,推动形成以算力大市场体系服务统一大市场建设的发展格局。
来源: 北京商报