超智融合,破解算力高质量发展难题

“相比国际顶尖水平,我国在高端AI算力设施性能上仍有一定差距,而抓住超智融合发展机遇,将有助于我们追赶性能目标。”9月28日,2024中国算力大会“超智融合,新质赋能”超算互联网分论坛在河南郑州举行,中国科学院院士陈润生在致辞中说。他提到的超智融合就是本次算力大会上备受关注的话题。

顺应AI时代需要

超智融合理念应运而生

当前,沿着“规模效应”狂飙的大模型,正成为名副其实的“算力黑洞”。据外媒报道,OpenAI与微软正在计划十万乃至百万级GPU卡的算力集群,以满足GPT-6的训练。相形之下,我国大模型训练,面临着巨大算力缺口。

此前,中国工程院院士郑纬民就表示,一些负载不饱和的国家超算系统可以利用空闲资源支持大模型训练,前提是要做好软硬件协同设计,降低超算训练大模型的成本和能耗。

这就是超智融合的由来,即“采用融合架构,集成超算和智算的功能”。在当前大模型训练不断需要大算力支持的时代背景下,超智融合理念落地意义重大。在今年6月发布的2024年全球“最节能超算”榜单(Green500)上,位列榜单前三的超算都采用了超智融合的技术理念。

推进超智融合并不止于有望缓解大模型“算力荒”,其更是顺应智能时代发展的题中应有之义。河南省科学院副院长李明凤表示,超智融合不仅是技术叠加,而是综合超算与智算能力与优点,拓宽科学研究思路,为产业创新开辟更为广阔的新空间。

互联互通才是开始

制定标准是更广阔的开始

为加速超智融合技术发展,分论坛期间还举办了“国家超算互联网与郑庆哈城市算力网互联互通启动仪式”“超算互联网全国标准体系建设启动仪式”等。

郑庆哈城市算力网作为跨区域协作样板,形成了以甘肃庆阳、新疆哈密为“算力供给站”、郑州为“算力中继站”的“三角”数算电融合体系。该体系实现多地算力资源的优化配置与高效共享,为中西部地区的科研创新、产业升级注入强大算力。

而国家超算互联网与郑庆哈城市算力网互联互通正式启动,标志着郑州市打造全国跨区域算力调度中心迈出了坚实一步。

只有统一的标准才能形成算力网络的规模优势。在国家超算互联网平台的建设过程中,标准问题正成为限制发挥产业界多方优势的瓶颈。为进一步推进全国算网一体化建设,国家超算互联网联合体与全国智能计算标准化工作组联合宣布“超算互联网全国标准体系建设”正式启动。这预示着超智融合技术所依托的算力网基础设施发展步入新阶段。

国家技术标准创新基地(智能计算)副秘书长乔波表示,此次启动的超算互联网标准体系建设的内容和举措计划,既是投石问路亦是抛砖引玉。全国智能计算标准化工作组与超算互联网联合体将持续秉持共商、共建、共享、共发展的理念,持续迭代完善超算互联网标准体系框架,不断凝聚产、学、研、用各方智慧,助力超算互联网建设、应用和发展。

核心节点落地

算力之城“郑”在崛起

“在人工智能技术迅猛崛起与应用日益广泛的当下,包括超算中心在内的数字基础设施正逐步展现出算力资源网络化布局、算力供给多元化发展以及应用服务广泛普及的新态势。”在2024中国算力大会主论坛上,国家高性能计算机工程技术研究中心主任历军提出,将不同结构、不同功能的系统通过网络连接起来,统一入口,并配置完备的应用环境,可大幅降低超算应用难度和成本,提高算力资源的应用效率。

国家超算互联网是超智融合理念在网络层面的一个生动实践。近年来在“算力经济”驱使下,全国范围拔地而起了许多大大小小的超算、智算和数据计算中心。在国家超算互联网平台上,分布于全国的超算、智算中心等被连接起来,分散化的算力通过智能调度实现互联互通,并最终转化为社会发展所需的高效、便捷的算力服务。

国家高性能计算机工程技术研究中心副主任曹振南介绍,截至8月底,超算互联网平台已连接超280家服务商,提供超6300个计算商品和超4300套源码,可为上百个行业以及1000多个应用场景提供算力服务,此外超算互联网核心节点也已完成核心系统合同签约,进入建设快车道。

在河南省响应“东数西算”战略部署,积极发展算力产业、推动科研创新和产业升级的背景下,超算互联网核心节点选择落地郑州,并于2023年10月启动建设。

超算互联网郑州核心节点建成后,将成为超智融合的重要基础设施依托,通过整合河南省的异构算力资源,实现超算与智算中心间的无缝对接与高效协同,不仅可助力解决各类大型复杂计算难题,更为郑州竞逐“算力之城”提供支撑,加快河南新型数字基础设施建设。(记者徐勇)

原标题:超智融合,破解算力高质量发展难题