超智融合为突破算力瓶颈提供有效路径

“人工智能大模型是新质生产力的代表,大模型和超级计算融合发展十分重要,我国需认真布局、考虑。”近日,中国科学院院士陈润生在2024中国算力发展专家研讨会上表示。

在这场由中国智能计算产业联盟与全国信标委算力标准工作组共同主办的研讨会上,超智融合技术路线的趋势与发展方向引发专家学者热议。

在数字化、智能化浪潮中,算力正成为经济社会高质量发展的重要驱动力。但千行百业的计算场景纷繁复杂,单一计算架构无法应对。与会专家学者认为,超智融合兼具超算的强大处理能力与智算的算法优化能力,二者融合发展已成大势所趋。

迈出探索性步伐

资料显示,当前流行的预训练大模型具有数十亿乃至上万亿参数,训练时用到数万亿个Token(大模型用来表示自然语言文本的单位),训练的过程就是海量数据处理的过程,这消耗了巨大算力。

据美国开放人工智能研究中心(Open AI)测算,2012年开始,全球大模型训练所用的计算量呈指数级增长,平均每3.43个月便会翻一番。目前,计算量已远超算力增长速度。

“大模型的迅猛发展体现出新质生产力的特质,但目前遇到了算力瓶颈。”中国科学院计算技术研究所研究员张云泉说。

北京应用物理与计算数学研究所研究员袁国兴说:“现在的应用越来越复杂,不同应用需要不同算法,对计算机也有不同要求。”

张云泉认为,中国在超算领域拥有深厚技术积累,超智融合有望化解这些挑战。

国家信息中心信息化和产业发展部主任单志广说,超智融合随着基础算力、智算算力、超算算力等应用多元化发展而诞生。这一技术通过混合型算力资源或融合型算力体系,可同时满足多种不同算力的应用需求。

实际上,超智融合技术正成为近年来全球计算领域热点话题。今年5月,在以“重塑超算”为主题的国际超算大会上,超智融合相关方案遍地开花。

在我国,超智融合技术已被应用于超算互联网建设。今年4月,国家超算互联网平台上线,标志着我国在超智融合领域迈出探索性步伐。平台依托一体化算力调度、数据传输、生态协作体系,实现算力供给、软件开发、数据交易、模型服务等产业链相关各方紧密连接,构建市场化、互联网化、标准化的先进计算服务环境。

数据显示,平台上线以来,已有超200家应用、数据、模型等服务商入驻,并提供超3200款商品。这些商品覆盖科学计算、工业仿真、人工智能模型训练等领域,可满足全社会对先进计算服务的需求。

增强软硬件协同

不过,要更好实现超智融合,仍需大量创新探索。

陈润生认为,发展大模型与智算,不仅要改进应用层面的模型和算法,还要在基础理论层面有所突破。在他看来,随着模型规模扩张,一味“堆芯片”并不可取。根本上还要向人脑学习,把空间复杂度、时间复杂度压缩得更小,以更低能耗实现更高性能。

此外,软硬件协同创新程度有待进一步提升。

中国科学院院士钱德沛认为,在硬件方面,要尽量以最低能耗实现最高性能。未来不一定要做面面俱到的硬件,可重构或柔性或许是主要发展路径。而在软件方面,要从基本大模型理论出发,形成完整支撑人工智能的软件栈。

“我国一些超算中心已能为大模型训练提供支撑,未来还应重点围绕国产算力芯片发展关键软件,进一步实现软硬件协同优化。”中国工程院院士郑纬民说。

中国信通院云计算与大数据研究所所长何宝宏认为,传统超算和智算训练,对底层基础设施的要求各不相同。“这需要判断在什么场景下实现兼容统一,在哪些场景下凸显各自独特性。”何宝宏说。

呈现三阶段演进

在通用性与专用性之间,应如何选择超智融合的技术路线?与会专家学者普遍认为,应保持一定通用性。尤其在技术和方法论持续发展的背景下,应保持芯片、系统与软件的普适性,为研究提供广阔空间,深化底层理论与方法探索。

对此,单志广提醒,未来一体化算力体系的构建,要做好算力资源和业务应用的统筹衔接。须避免有效应用需求不足、缺乏网络服务质量保证、没有成熟调度体系的普遍性算力互联,不能脱离实际应用需求进行异地计算和远地计算算力设施布局,要从算力资源供给侧和业务应用需求侧两个维度进一步深化研究。

未来,超智融合具体将以何种路径演进?钱德沛认为,其将沿着超算支撑人工智能应用、用人工智能技术改进超算、超智实现内生融合这三个阶段清晰演进。

他进一步解释,在第一阶段,对现有计算机系统进行改造与升级。要发展专用硬件,确保可高效支持和执行人工智能任务,为人工智能研究提供坚实基础设施。在第二阶段,用人工智能改造传统计算。一方面要用人工智能的方法求解传统超算问题,另一方面人工智能也将影响传统计算机的结构,这个趋势会逐渐明显。在最终阶段,计算机系统将呈现内在的智能特性。人工智能不再是一种外加能力,而将成为计算机的核心属性和基本组成,可能计算能力或智能化水平会远超今天的超算或智算。(记者崔爽)

原标题:超智融合为突破算力瓶颈提供有效路径