Transformer架构席卷AI领域算力基础设施面临诸多新挑战

日前，OpenAI发布视频生成模型Sora，引起了全球范围内的广泛关注和讨论。从深度学习崭露头角到大模型浪潮席卷科技圈，AI发展的进程中经历了许多里程碑式事件。其中，Transformer架构可以说是大模型领域的“统治者”。对于AI大模型而言，Transformer架构发挥了怎样的作用？如何应对支撑大模型的算力基础设施在计算、存储、互连等方面的挑战？哪种大模型新架构有可能成为Transformer的替代者？近日，针对业界关注的热点问题，记者采访了北京航空航天大学计算机系主任肖利民教授。

四大优势让Transformer架构席卷AI领域

自2017年提出以来，Transformer凭借其卓越的语言理解能力超越递归神经网络（RNN）模型，迅速在自然语言处理（NLP）领域崭露头角，后来又进军图像领域，打破了卷积神经网络（CNN）的统治地位。Transformer强大的表示能力、并行计算能力、跨领域应用能力等为AI大模型的突破性进展奠定了基础。

肖利民解释说，Transformer架构是一种基于自注意力机制的神经网络模型，解决了传统RNN模型在处理长序列数据时存在的计算效率问题和难以并行化等问题。他进一步阐述了Transformer架构在AI大模型中的四个主要作用和优势。

一是Transformer通过自注意力机制来捕捉输入序列中的全局依赖关系，解决了传统神经网络模型在处理长序列数据时存在的问题。这种机制可以让模型动态地关注输入序列中的不同部分，提高了模型对上下文信息的准确处理能力。

二是Transformer通过引入残差连接和层归一化等技术，提高了模型的训练效率和稳定性。相比传统的RNN和CNN模型，Transformer在处理长序列数据时更加高效和稳定。

三是Transformer架构的自注意力和多头注意力机制、层次化结构以及可扩展性使其成为一种易于规模化和并行化的模型，非常适用于大规模分布式计算。

四是Transformer架构在自然语言处理领域得到了广泛应用，如机器翻译、文本分类和生成等。同时，随着对Transformer架构的深入研究和改进，它还逐渐被应用于图像处理、音频处理、推荐系统等其他领域。

大模型“暴力美学”带来的挑战值得关注

算力基础设施是支撑大模型的算力底座，在大算力的加持下，当训练数据量、模型参数规模、训练充分程度达到一定水平时，大模型在某些类型任务上的某些能力得以“智能涌现”，这是AI大模型的“暴力美学”。大模型的参数规模动辄几千亿甚至上万亿，大规模分布式训练复杂度高，对算力基础设施提出了大算力、大内存、高访存带宽、高速互连等新的需求和挑战。

肖利民表示，应重视算力基础设施中的多层次软硬件高效协同。通过分析大模型负载特征与智算系统结构的适配，优化大模型负载切分与并行化策略，并通过模型、框架、智算系统等多层次纵向协同以及计算、存储、互连等软硬件资源横向协同，实现大模型的高效训练和推理。此外，利用多种类型算力芯片实现混合计算也是应对算力稀缺的一种有益尝试，通过聚合不同类型的算力芯片资源，形成多元异构算力资源池，并通过异构编程、即时编译、资源感知、负载切分和动态调度等技术，用于支撑同一模型训练任务，以最大化利用各类算力资源。

同时，肖利民认为，还可重点从计算、存储、互连、软件栈等算力基础设施的各个关键环节探寻提升大模型训练和推理效能的技术途径。

一是在计算方面，算力芯片的研制或选型至关重要，既要考虑大模型主流架构正趋向集中于Transformer的现状，也要考虑未来大模型架构可能的演进，“通用+定制化”的芯片架构不失为一种两者得兼的思路，例如在通用GPU架构中针对Transformer做定制化加速，兼顾大模型对芯片适应性和高能效的需求。此外，也可探索“存算一体”等新型芯片架构，将计算与存储单元融合集成于同一芯片中，大幅降低数据在处理器与存储器间搬运的延迟和能耗。

二是在存储方面，可通过HBM技术提供大容量存储和高带宽访存能力，或通过CXL技术实现大内存池化共享，更好承载大模型的训练样本、权重参数、优化器状态等海量数据，提升大模型训练场景下访存性能和存储利用效率。

三是在互连方面，可通过NVLink、HCCS等片间高速互连机制、GPU节点间RDMA直通互连、GPU Direct RDMA加速显存间数据交换，以及AllReduce、AlltoAll等集合通信函数优化，降低大模型训练的数据交互开销。

四是在软件栈方面，应重点突破大模型负载自动切分与并行化工具、大模型分布式训练的弹性容错机制、模型负载与芯片结构优化适配的算子库、多元异构算力的统一纳管和高效调度系统、跨芯片架构和自适应优化的编程语言和编译工具链等技术，建立全栈软件环境，高效桥接上层大模型应用与底层硬件资源。

探寻Transformer架构的优化之路

当前，几乎所有的AI大模型都是以Transformer架构为基础单元堆叠构成，从BERT、GPT系列、Flan-T5等语言模型到SAM、Stable Diffusion等图像模型，Transformer正以锐不可当之势席卷AI大模型世界。

当然，Transformer也有自身固有的一些不足。肖利民解释道，目前的AI模型已能处理更长的序列和更高维度的表征，从而支持更长的上下文和更高的质量，然而，当前Transformer架构的时间和空间复杂性在序列长度和/或模型维度上呈二次增长模式，这不仅会限制上下文长度，还会增加扩展成本。为解决这些问题，人们正在不断探索优化算法和改进网络结构等手段，以期提高Transformer的性能并打破其局限性。

近期，斯坦福大学和纽约州立大学布法罗分校的研究团队提出了一种新的替代技术：Monarch Mixer，摒弃了Transformer中高成本的注意力和MLP机制，代之以富有表现力且计算复杂度为次二次元的Monarch矩阵。在语言和图像实验中，Monarch Mixer以更低的计算成本取得了更优的表现。

更早之前，斯坦福大学Chris Re实验室在其名为S4的研究中提出了一系列亚二次替代架构，这些架构在特定情境下能够与Transformer架构的性能相媲美，同时可显著降低计算量。

肖利民表示，以Transformer为基础的大模型还存在着一个众所周知的不足——由于训练集不平衡导致的偏见问题。针对这一问题，斯坦福大学另一研究团队提出了一种新型神经网络架构Backpack，通过调控意义向量来干预语言模型的行为，从而引导语言模型输出符合预期的结果。

此外，还有其他多个研究团队出于提高计算效率等目的，提出了若干Transformer替代架构，比如微软的RetNet，腾讯与香港中文大学联合发布的UniRepLKNet，以及OgetherAI的StripedHyena等。

肖利民认为，目前人们正在探索的一些Transformer替代架构，将会为AI大模型发展带来多重潜在的益处。首先是计算复杂度的降低，使得同等目标性能下模型的参数规模更小，进而减少对算力的需求。或者在相同的参数规模和算力支持下能够让模型的性能更优。

值得一提的是，如果替代架构的低参数、高性能特性达到一定程度，亦可降低大模型在低算力设备上的部署门槛，从而进一步拓展大模型的应用范围和场景。此外，有些替代架构还能有效消除模型偏见问题，使得模型更可控和更可解释，使得用户能够通过适当的干预引导模型输出想要的结果。

虽然当前已经出现了不少Transformer的潜在替代架构，未来肯定还会出现更多的Transformer竞争者或最终出现替代者，但预计在较长一个时期内，Transformer依然会是大模型领域的主流架构。（记者吴双）

原标题：Transformer架构席卷AI领域算力基础设施面临诸多新挑战