原生多模态世界模型Emu3发布

10月21日，北京智源人工智能研究院（以下简称“智源研究院”）正式发布原生多模态世界模型Emu3。据悉，该模型实现了视频、图像、文本三种模态的统一理解与生成。Emu3成功验证了基于下一个token（词元）预测的多模态技术范式，释放出大规模训练和推理的潜力。

据了解，下一个token预测被认为是通往人工通用智能（AGI）的可能路径，但这种范式在语言以外的多模态任务中没有被证明。此前，多模态生成任务仍然由扩散模型主导，而多模态理解任务则由组合式方法主导。人工智能要想进入各行各业，必须建设一个“大一统”的多模态模型。

据介绍，Emu3只基于下一个token预测，无须扩散模型或组合式方法，把图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer架构。在图像生成、视觉语言理解、视频生成任务中，Emu3表现出超过其他开源模型的优势。

智源研究院院长王仲远在接受科技日报记者采访时说：“Emu3证明了下一个token预测能在多模态任务中有高性能的表现，这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上，为大规模多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”（记者华凌）

原标题：原生多模态世界模型Emu3发布