2月16日,OpenAI发布文生视频模型Sora,同时展示了48个视频案例,一开年便甩出继ChatGPT之后的又一张“王炸牌”。
雨夜中行走的女人、热闹街道上的舞龙队伍、活泼可爱的萌宠、神秘莫测的海底世界……在Runway、Pika等文生视频工具都还在突破秒间连贯性的时候,Sora已经可以直接生成长达60秒的一镜到底视频,其中既能实现多角度镜头的自然切换,又包含复杂的场景和生动的角色表情,而且还有着流畅的故事逻辑性和连贯性,给所有人带来了“以前不相信是真的,现在不相信是假的”的震撼冲击。正如OpenAI对Sora的理解——世界模拟器。
Sora的问世立刻引发了“百家争鸣”,有人欣喜不已,有人抱以担忧;有人更关注其不足之处,也有人面向“如何迎头赶上”的问题进行了深入思考……无论如何,Sora为虚拟和现实世界建立起的连接,已经让“未来世界到底是怎样”的问题充满了更大的可能性。
百家争鸣:冲击与机会并存
“未来人工智能发展速度会越来越快。”华东政法大学人工智能与大数据指数研究院院长高奇琦认为,通用人工智能大突破的时代可能会大大提前,这是无可阻挡的大趋势。“技术本身是与社会紧密联系在一起的。以ChatGPT、Sora等为代表的通用大模型技术,背后潜藏着的失业、失序和失控效应,可能会对人类社会产生很大冲击。”
中国传媒大学新闻学院教授、媒体融合与传播国家重点实验室大数据中心首席科学家沈浩谈到Sora对视频行业的影响,表达更多的是惊艳:“Gemini1.5Pro、Runway等产品是基于大模型的迭代形成的,无论是在算力还是多模态上,对视频的理解都不像Sora那样具有经验性的颠覆。”
安徽大学新闻与传播学院院长姜红也表示:“Sora文生视频以如此之快的速度到来,而且质量如此之高,的确令人震撼。和大模型生成语言相比,生成视频,说明技术在这个赛道上已经越来越加速对这个世界的‘仿真’了。它的出现,更加让短视频成为今天的通用语言。”姜红认为Sora对影像内容生产和广告行业的影响会比对新闻生产的影响更大,但是目前,还不至于完全取代人类的影像生产。
中央民族大学新闻与传播学院教授、互联网平台企业发展与治理研究中心主任郭全中认为,应采取“协同共生式”治理思路跟踪、研判Sora类产品可能带来的风险,及时采取相应的措施进行治理;要采取“先发展,共生治理”的方式,处理好“发展与安全之间的平衡”;鼓励Sora类技术的发展和应用,处理好价值观对齐难题以解决价值观引导和伦理等问题。同时,要立足发展,对Sora等新技术应用对版权带来的影响进行理论上的研究,构建起有效的治理规则,并提供可借鉴的实操案例。
面对变革:竞技比拼争当“卷王”
据OpenAI介绍,Sora使用的是Transformer架构。西南证券认为,Transformer架构扩展特性与优势凸显。Sora模型具备强大的理解能力,不仅可以理解Prompt的内容,还能理解事物在物理世界中的存在方式,突出的语言理解能力是其能够准确生成视频的前提;具备优秀的生成能力,可生成60秒视频,生成同一角色的多个镜头,并保持在角度移动和切换的情况下,人物和场景元素在三维空间中的位置关系依然保持一致的运动。甚至在某一Prompt基础上只改动一个关键词,也仍能生成优质的视频,具备较好的可控性。
360集团董事长周鸿祎表示,Sora给了中国互联网和人工智能行业一个提醒——承认差距并不丢人,知道差距在哪儿,我们迎头赶上。“中美在AI上的差距主要在于‘确定技术方向’上,一旦方向确定,中国的优势是学习能力很快,中美在AI上的差距应该能在一两年内追上。”周鸿祎表示,2024年或将成为中国在AI领域的“应用之年”,相信今年大模型将在许多企业的垂直领域大有可为。中国现在要做出一个超过GPT4的通用大模型可能比较难,但在一些垂直领域超过GPT4,是完全有可能的。
中国信息界发展研究院院长尚进认为,从产业和就业方面来看,以Sora为代表的视频生成模型的发展,肯定会对我国影视制作、广告传媒等行业带来一定冲击,但也不必过于紧张,因为挑战和机遇向来都是并存的,产业的变革一直都在发生,要以积极的心态来面对变革。
商业价值:待进一步验证
Sora的横空出世掀起一波热潮,在资本市场也激起层层浪花。Sora概念股连续多日涨停。数据显示,同花顺iFinD的Sora概念自2月19日以来连续收涨,至2月27日涨幅已超过34%。算力基础设施、算力连接、算力供给、算力云、算力可视化及运维、算力液冷、算力服务、卫星互联网等领域的投资标的受到市场广泛关注。
华泰证券在一份研报中提到,Sora对传媒应用影响有三,即放大影视IP价值,降低广告成本,生成游戏场景。具体表现有三点:一是Sora+影视,预计能明显降低制作门槛及成本,且可以极大程度丰富影视作品的创造性及风格。拥有核心导演或创意人才以及IP资源的公司或将更受益。二是Sora+营销,Sora或将提升广告相关视频的创造效率,能为其提供灵感、增强广告吸引力,有望部分替代低创造性、可复制的视频内容,同时也能以较低成本完成定制化需求,大批量快速生成定制化的视频内容,提升客户转化及留存率。三是Sora+游戏,Sora对于物理世界的理解和模拟能力与游戏场景开发高度适配,可以帮助降低开发成本。
有外媒认为,Sora的确令人印象深刻,但它尚未准备好迎接未来的黄金时段。Sora模型目前也有不足之处,难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系,还可能混淆提示词的空间细节。OpenAI自己也在技术报告中承认,Sora对身体部位的杂散问题和对物理学的混合理解仍有很大的进步空间。
短期来看,视频生成模型或将更多地作为创作工具对相关行业进行赋能。周鸿祎也表示,Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,“未来AGI比的就是算力和对世界的理解。AI不会淘汰任何行业和任何人,但它能激发更多人的创作力。你只会被那些真正懂AI的人淘汰掉”。
面对新浪潮,我国如何布局?
面对Sora激起的文生视频新浪潮,以及对现代社会生活可能产生的颠覆性影响,我国有哪些布局以应对挑战?
从政策端看,我国政府始终对前沿AI技术保持高度重视,并给予大力支持。中央经济工作会议提出,要大力推进新型工业化,发展数字经济,加快推动人工智能发展。人工智能是引领这一轮科技革命和产业变革的战略性技术,具有很强的溢出带动性。《新一代人工智能发展规划》《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》等文件相继出台,为我国人工智能产业发展提供了政策支持。工信部表示,人工智能已在研发设计、生产制造等领域崭露头角,成为新型工业化的重要推动力,大模型技术的一个侧重点是在生产领域的应用,要以人工智能和制造业深度融合为主线、智能制造为主攻方向、场景应用为牵引,统筹布局通用大模型和垂直领域专用模型,从供需两端发力,营造创新生态,高水平赋能新型工业化。此番表态传递出我国高度重视人工智能发展应用的强烈信号。
作为国民经济的骨干和中坚力量,中央企业积极响应国家战略,发力布局AI赋能。近日,国务院国资委召开了“AI赋能 产业焕新”中央企业人工智能专题推进会,强调中央企业要把发展人工智能放在全局工作中统筹谋划,深入推进产业焕新,加快布局和发展人工智能产业。开展AI+专项行动,强化需求牵引,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。会上,10家中央企业签订倡议书,表示将主动向社会开放人工智能应用场景。会议释放出中央企业正将人工智能作为重要的战略发展方向的重磅信号。通过拥抱人工智能这一技术革命,中央企业正在打造智能经济新引擎,推动经济高质量发展。
在人工智能领域实现更大突破,为传统产业的转型升级提供有力支撑,还需要人工智能头部企业、高校和研究机构等开展深入合作,共同推动人工智能技术的研发和应用。一系列事实证明,AIGC在底层原理方面已逐渐具有确定性,更重要的是如何用好我国在应用场景丰富性和复杂度上的优势。
Sora发布后不久,全国政协委员、360集团创始人周鸿祎表示:“这都是大模型的功劳,OpenAI训练这个模型应该会阅读大量视频,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI(通用人工智能)不远了,可能一两年就可以实现。”他表示,Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。这也预示了未来的科技方向:以强劲的大模型做底子,在对人类语言、对人类知识和世界模型了解的基础上,叠加很多其他的技术,就可以创造各个领域的超级工具。他预测,Sora至少将对机器人具身智能和自动驾驶带来巨大影响。
相较于在典型数据集上的刷榜成绩,Sora用直观可见的视频效果向世界指出了AIGC可以加速落地的方向之一。“中美在AI上的差距主要在于‘确定技术方向’上,中国现在要做出一个超过GPT4的通用大模型可能比较难,但在一些垂直领域超过GPT4,是完全有可能的。”周鸿祎表示,“如果方向确定,2024年或将成为中国在AI领域的‘应用之年’,大模型将在许多企业的垂直领域大有作为。”
从模拟物体运动轨迹到刻画细微的皮肤瑕疵、手部动作,Sora的表现令人惊叹,同时生成视频的分辨率、时长已足以满足短视频行业的需求。文生图、文生视频等方向也是百度、字节跳动等国内AI头部企业保持追踪的。在这场全球技术竞赛中,中国将迎头赶上并努力超越。(记者吴皓琨 李跇 李晓东)
原标题:Sora问世,虚实世界大门打开