AI+时代,算力将发挥越来越重要的作用,成为产业升级、生产力跃迁的关键驱动力。当前我国算力网络正处于融合统一的攻坚期、泛在智能的跃升期、原创技术的突破期、产业生态的塑造期。为更好服务AI+时代,算网发展需要实现“三个质变”——以“大规模智算集群”为核心,实现基础设施的质变;以“算网大脑智能升级”为核心,实现编排调度的质变;以“融合统一算龙头”为核心,实现服务模式的质变。
如何实现这些目标,让算力网络全面支撑AI+?在2024中国移动算力网络大会上,中国移动给出了自己的最新实践以及规划路径。
构建大集群,打造AI模型训练的超级工厂。中国移动将持续优化算力网络资源总体布局,面向AI+升级,今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练需求。随着大模型训练逐渐转向大规模行业应用,泛在的推理需求持续涌现,中国移动将按需在1500个边缘节点部署推理算力,形成“中心大集群、边缘广分布、中训边推、训推一体”的智算网络。同时,还将持续完善技术体系,推进全栈技术创新。一是突破堵点,加快迈向超万卡集群。面向机间互联,原创提出全调度以太技术体系(GSE),构建无阻塞、高带宽、超低时延的新型智算中心网络,对标国际主流的IB和UEC方案,形成中国自主的技术体系,今年将开展GSE中试,加速GSE关键技术和产业成熟;面向卡间互联,打造标准开放总线级互联架构,提升GPU卡间高带宽、低时延通信能力,实现互联拓扑和协议的全栈级优化,为标准开放的新型智算互联贡献中国方案。二是多元异构,构建融合开放的大算力生态。持续推进一云多芯的多样算力,打破AI芯片生态竖井,今年将升级“芯合”算力原生平台,支持智算应用在更多GPU芯片的快速迁移,同时还支持面向大模型的分布式异构混训,打破当前大模型仅能在单厂家单型号集群训练的局限。中国移动将进一步实现云底座关键技术突破,升级“大云天元”操作系统,商用推广云原生数据库、新一代SDN网络。三是训推一体,打造开箱即用的AI服务。自研智算平台,打造模型训练“自动化生产线”,实现AI模型全生命周期服务,支持全栈、全自主可控、全地域的资源统一管理调度,提供一站式开发工具箱,支持万卡并行训练、千卡15天以上稳定训练、分钟级断点续训,确保大模型训得好、快、稳。
畅通大动脉,构建AI数据流转的信息高速路。面向近期,中国移动充分发挥网络优势,加快打通国家枢纽集群间的400G高速互联链路,开放网络弹性能力,打造大带宽、广覆盖、低时延、智能化的新型运力网,进一步降低业务西迁成本,积极为国家枢纽节点内、节点间公共传输通道贡献力量。面向中长期,将主导形成“高通量、低时延、一体化”的多层次融合网络方案。一是高通量,针对长距离网络传输性能瓶颈,研发新型高吞吐传输协议,今年将与国家天文台、华大基因等开展联合验证,实现长距离、高吞吐、高弹性、广覆盖和高安全的数据快递服务;二是低时延,历时五年,联合产业攻关反谐振空芯光纤技术,设计自主结构,相比传统实芯光纤传输时延降低33%,今年将启动20公里中试验证,明年预计突破100公里,有望改变光通信产业格局;三是一体化,依托中国移动在IETF主导的算力路由技术体系,在路由中引入算力向量,实现联合优化调度,样机验证显示,业务平均时延降低15%,系统容量提升30%,今年将继续推动算力路由原创技术标准化,与视频监控、云渲染等场景结合开展中试验证。
建强大中枢,研发AI任务分发的最强大脑。算网大脑是基于网络的分布式算力任务分发系统,中国移动将在去年试商用的基础上,实现全网调度能力和智能化水平的全面跃升。一是功能跃升,今年将纳管自有智算中心、边缘节点,广泛吸纳三方算力,实现通智边一体调度和全局数据高效流通,开放算网能力超过3000个,多要素能力实现ABCDNETS全覆盖;二是性能跃升,日调度次数从千万次提升到亿次,引入能效等更多维度,攻关解决高维组合优化问题,基于新型的并行算法,加快实现分布式跨集群任务的调度;三是服务能力跃升,融合九天算网大模型,创新AI交互式订购,实现个性化、智能化交互新模式,不断赋能算网新服务,推动属地化、单一式传统产品向全局化、复合式产品升级。
塑造大产业,繁荣AI应用创新的“热带雨林”。一是壮大创新根基,当前已经初步构建了覆盖国际、国内的算力网络标准体系,特别是在IETF成立的算力路由工作组,正在主导算网一体总体架构设计。未来中国移动将进一步健全标准体系,加快推动智算中心网络等标准制定,为全球标准贡献更多中国方案。二是繁茂创新枝叶,加快未来产业、创新联合体打造,深化算力并网、任务式服务模式创新,激发AI+应用创新活力,完善商业模式。同时,中国移动正在加快构建集约高效的数联网,打造数据流通基础设施,让高质量数据“活起来、动起来、用起来”,支撑数据要素全国统一大市场建设。到今年底,中国移动算力并网规模将突破5EFlops,算网服务样板间超过80个,数联网交易节点落地超10个。三是培育创新沃土,将以跨地域、跨主体的全国性算力网络试验科学装置为基础,联合更多产学研合作伙伴,支撑建设全国一体化算力网原型试验场,孵化更多算力网络新技术、新应用。同时,中国移动作为国资央企,将发挥在智算资源、安全、运营等方面的优势,助力全社会方便、快捷地使用智算服务,打造一片AI创新的“热带雨林”。
原标题:AI+,需要什么样的算力网络?