10月21日,北京智源人工智能研究院(以下简称“智源研究院”)正式发布原生多模态世界模型Emu3。据悉,该模型实现了视频、图像、文本三种模态的统一理解与生成。Emu3成功验证了基于下一个token(词元)预测的多模态技术范式,释放出大规模训练和推理的潜力。
据了解,下一个token预测被认为是通往人工通用智能(AGI)的可能路径,但这种范式在语言以外的多模态任务中没有被证明。此前,多模态生成任务仍然由扩散模型主导,而多模态理解任务则由组合式方法主导。人工智能要想进入各行各业,必须建设一个“大一统”的多模态模型。
据介绍,Emu3只基于下一个token预测,无须扩散模型或组合式方法,把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer架构。在图像生成、视觉语言理解、视频生成任务中,Emu3表现出超过其他开源模型的优势。
智源研究院院长王仲远在接受科技日报记者采访时说:“Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上,为大规模多模态训练和推理提供基础,这一简单的架构设计将利于产业化。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”(记者华凌)
原标题:原生多模态世界模型Emu3发布