在未受关注领域开展研究才有更多可能——国际学术会议CIKM“最佳时间检验奖”获得者谈AI基础模型创新

不久前,因收到的邮件标注着红色字体“外部邮件、注意安全”,京东集团副总裁、京东探索研究院院长何晓冬博士并没打开来看。几天后他才得知,这是国际学术会议CIKM(国际信息和知识管理会议)通知他因十几年前DSSM模型(双塔模型)相关成果获得“最佳时间检验奖”。

一篇论文,为什么10年后仍能被学术界记起并授予殊荣?它凭什么在获得学术界超5000次引用的同时,成为产业界搜索推荐和人工智能领域的“基础设施”?

人工智能已成为驱动新质生产力的重要引擎,但我国一直被认为应用发展快速,原创模型成果不足。科技日报记者10月31日采访了何晓冬,请他就我国如何以基础模型推动新质生产力可持续发展谈谈看法。

从“不被关注”中找到AI基础架构

尽管2024年诺贝尔物理学奖颁给了人工神经网络的研究,但如果把时间倒回十几年,人工神经网络甚至还没跻身主流算法行列。

彼时,圈内主流模型比如拓扑模型等已被研究得十分充分,但在赋予机器学习能力、揣度人类意图上仍未解决算法复杂、效率不够高的问题。人工神经网络架构刚刚进入业内,却因实验规模小、难以体现优势而未受到关注。

当时还在微软研究院的何晓冬第一时间对新架构产生了极大兴趣。他说:“相比一个充分研究过的领域,在新领域探索意味着会有更多机会。如果能在微软广告这种大规模的应用上检验人工神经网络奏不奏效,将为整个人工智能行业给出证明,甚至明确发展路径。”

“利用传统模型,‘苹果手机’和‘苹果’的意思对于机器来说非常接近,而‘iPhone Pro’又与‘苹果手机’相去甚远。”何晓冬解释,为了让机器精准揣度人类意图,要改变模型“度量”语义的方式,不着力于绝对含义而是度量含义的“相对距离”。

如何做到呢?DSSM模型(双塔模型)研究人员最早进行语义向量化研究,用这种模型描述语义向量的距离相对值。这是整个互联网搜索推荐技术发展脉络的起点,也是大模型发展的重要基础之一。

由于解决了语义相似度计算问题,DSSM模型成为深度语义学习方向最基础的模型结构。图灵奖得主等行业大咖2016年共同编撰的深度学习领域奠基性教材《Deep Learning(深度学习)》将DSSM模型列为推荐使用的基础架构之一。

基础研究被广泛应用也需“流量密码”

“和其他学者一样,让成果在长时间跨度中推动行业进步,经受住时间检验是我的研究目标。”何晓冬说,要让基础研究“固化”为基础设施的“流量密码”,首先应“大道至简”,简单的架构往往更友好,更易被理解、接纳和发扬。其次,它还必须具备可以无限放大的包容性。

例如DSSM模型用简单的“双塔”设计分离了原本交织的计算,为用户和物品匹配了独立子网络(“塔”),计算出结果后再匹配,解决计算复杂性问题。

好用的模型要具有反映复杂世界的能力,基本计算单元的设计是关键,例如生命的单元是细胞、神经网络的单元是神经元。设计广泛适用的基本单元,匹配“万能”函数,即可高效执行大规模计算。何晓冬介绍,基于此,他们团队在2013年用一台八卡服务器,实现了千万数量级语料的深度学习训练。

强大的分析能力、更高的计算效率,使得这一模型在过去10余年被头部搜索引擎、电商平台等大量采用,产生了百亿元量级的经济价值。

何晓冬告诉记者,做基础研究很像在林子里打猎,很难说在哪里一定能打到,但如果猎人有驱动力、持续探索,打到的机会就能更多。计算机领域有着基础研究也要推动快速应用的传统,比如密码学这类纯数学的科学也会发展出“电子签名”等应用。因此,产业界的压力和驱动将带来更多基础研究突破。

近年来,人工智能领军企业对于基础研究的重视程度不断增加,京东、腾讯、阿里等均为科研人员创造开展原创性基础研究的条件,且不以论文发表为考核标准。

“我进入京东后愈加意识到,技术在不同场景可产生不同价值。从产业角度看,搜索推荐、智能客服、数字人等技术都在产业界产生了以产品驱动的人工智能基础设施的飞快突破。”何晓冬表示,基础模型研发和基础理论创新是新质生产力发展的长效“引擎”之一,将在丰富的场景土壤和产业需求中取得更多突破。(记者张佳星)

原标题:在未受关注领域开展研究才有更多可能——国际学术会议CIKM“最佳时间检验奖”获得者谈AI基础模型创新