探秘情感机器人 – 我的知识库

新一届世界人工智能大会刚刚过去，在人工智能最前沿技术、产品、应用和理念的展示之下，超级智能时代何时才会到来的问题始终萦绕在人们的心里。

从解决问题能力的提升，到会“思考”，直至有“情感”，AI一路进化，能否真的配得上人们对未来的期待？

2016年，具有微表情的仿人外形机器人“佳佳”诞生在中国科学技术大学。随着技术迭代，她被赋予了更多类人的情感，能读懂人类的喜怒哀乐，以至于人们在和她进行深入互动的过程中还能产生微妙的“化学反应”。

基于情感交互的服务机器人，未来无论是面对空巢群体、单身群体，还是新生代文化群体、需要心理干预的群体、接受教育娱乐的少年儿童，都更能满足他们内心的需要。

中国科学技术大学计算机学院教授、机器人实验室主任陈小平在2012年开始进行情绪智能的研究。

最近，他在中国人民大学哲学与认知科学明德讲坛，分享了人工智能（AI）中的情绪研究方法和挑战。

他特别提到，在相关基础研究尚未突破之前，情感机器人这种非人非物的第三类存在，可能已对人类社会产生了震撼性冲击和深远影响。

情绪智能研究关注什么

陈小平介绍，在AI领域，情绪研究起步相对较晚，至今不过三四十年时间。

当前AI情绪研究的两个主要内容，首先是对主体的情绪表达加以识别，主要包括人的表情、言语、姿态的基本情绪类型。

说到情绪，人们最容易联想到的就是表情，要想让AI认识人类的情绪，首先需要采集表情数据，如一段视频，然后进行人工标注，比如“高兴”“愤怒”“悲伤”等等。

只不过，目前这些表情种类还比较有限，大概只有十几个。

有了大量的表情数据，再通过深度学习和强化学习的方法训练AI，当它再看到其他视频时，就能够识别出视频中的用户表情了。这就是现在的AI科学家常用的方法。

“表情只是情绪的一种外在表现，那么，这种情绪表现对应的真实的心理活动究竟是什么，AI并不清楚。” 陈小平说。

人类知道“笑”这种表情可以解读出多种不同的心理活动，它可以代表快乐，也可以代表苦涩或者无奈。但AI距离这样的解读还有十万八千里。

AI情绪研究的另一个重点是情绪反应。我们关注一个情绪主体，主要看他对外界的刺激到底会产生怎样的情绪反应。

陈小平认为，在情绪反应方面，AI最需要的是一个情绪反应模型，以便让AI根据主体的情绪反应模型对他的情绪反应进行预测和推理，从而支撑人机情绪交互，这也是情绪研究的第三层内容。

预测和推理越准确，在与人互动时，AI就越知道如何满足用户的情绪需求。

关于情绪交互，他解释，就是机器人和人之间的情绪互动。

简单说，就是机器人要识别人的情绪，并给予适当的响应。

情绪交互的实现涉及情绪识别，基于情绪反应模型，做出情感预测和推理，知道如果机器人做什么动作、表情，用户的情绪反应可能是什么、是否符合情感交互的需要，最后生成自己要做出的表情。

“在这样一系列情绪智能化研究中，还存在瓶颈和短板。”陈小平坦言。

受限于封闭性

情绪智能化到底面临怎样的挑战？

陈小平认为，研究情绪智能化首先需要回答几个基本问题：我们如何定义情绪智能化，它的内涵是什么；实证标准是什么；应用目标又是什么。

然而，这些问题都没有确切的答案。

“基于我们的观察，在当前的AI研究中，所谓的‘理性思维智能化’一般是以‘战胜人’为实证标准的，AlphaGo的成功即是如此。但这很难成为情绪智能化的实证标准，它的实证标准很可能是被人接受，受到人的认可。”

他表示，这两种标准差距极大，由此可以看出，它们的科学内涵也截然不同。

在谈到技术层面的困难时，陈小平回答，在情绪研究中，情绪反应对科学家来说是最难的，它需要建立一个模型用于预测，在这一模型中有主体表示、环境表示、事件表示。

这些表示是作为情绪反应机制的输入，最后还需要有输出，就是对某个对象的表示，主体会对该对象有一个情绪反应。

“我们把情绪反应模型看作是一种符号模型。AI理想化观点下的符号模型是白箱，该模型对预期应用场景的所有预测都成立。”

陈小平强调，只有当一个应用场景是封闭的，现有AI技术在该场景中才是有效的，否则不保证应用成功。

他解释，所谓封闭性是指，该问题存在一个有限、确定的模型，而且该模型与实际问题的对应也是有限、确定的；或者，该问题存在一个有限、确定的元模型，并且该问题的代表性数据集也是有限、确定的。

“可是，人类的情感机制必然是在非封闭性场景中运行的，因此，情绪智能模型也应该是非封闭的。”

在他看来，情绪反应模型的所有元素都是复合的，通常不能完全确定它们的所指。

也就是说，模型中的所有元素包括主体表示、环境表示、事件表示、对象表示和情绪反应机制，都是黑箱或者灰箱。

因此，只能适应封闭场景的现有AI技术对情绪智能化就产生了很大的限制。

AI在情绪智能化领域遭遇的挑战，其实是源于AI系统与人的本质不同。陈小平认为，这种本质不同从根本上说，来源于AI系统的“思维”目前就是AI经典思维，是不能有效应对不确定性的，而人的思维可以。

“未来，AI要想实现从经典思维到复杂场景化的转变，局限于传统技术路线恐怕很难在二三十年内有突破的希望。”

差距之下，陈小平希望探索一些新的办法、新的技术路线，也期盼与神经科学、认知科学、心理学、哲学等邻近学科的合作。

“第三类”存在物

在邻近学科，学者们如何看待机器的情绪和人类情绪之间的距离？

厦门大学人文学院哲学系教授朱菁指出，人类的情绪和神经系统、生物化学系统及身体具有密不可分的关联，智能机器的本质和生物体完全不同，那么智能机器产生的情绪情感不可能和人类等同。

它只是在某一个功能层面、计算层面模拟人类的情绪反应模式，但它并不具有真正的情绪。

“这就好比我们可以在计算机系统里模拟地震、洪水、暴风雨，但是它们并不真的存在于计算机中，真正的地质、气象灾害只会在自然界中产生。”

因此，朱菁认为，心理学家、神经科学家普遍认为，要赋予机器真正的情绪情感，可能是一个无法实现的任务。

对此，陈小平表示认同。“用传统AI的观点来看，人类情绪无法脱离生物学基础，而机器人没有人的肉身，因此尽管我们希望实现的是AI，可实际上我们做的还只是人造智能。”

不过，随着能表达丰富的情感，还能精确捕捉人类的开心、惊讶、生气、悲伤等情绪的佳佳机器人面世，陈小平团队有了一个“另类”的想法。

他说，中科大在佳佳机器人上的广泛试验揭示出一种新的人类经验：用户明确感觉到佳佳既不是人也不是物，这与早期部分用户将AI与人相混淆是有本质上的不同的，那时仍处于人、物的二分法之中，而现在出现了非人、非物的第三种存在物的可能性。

“因此，在情绪智能化基础研究取得实质性突破之前，它的应用有可能在10年之内或者最多15年取得重大进展，而这些进展甚至可能对人类社会产生震撼性的冲击和深远的影响——那就是出现第三类存在物——人-物。”

基于这种观察，陈小平意识到，人们其实并不在乎两类情绪在内涵上究竟有何不同，它们之间的界限是模糊的。

“由此，我们需要更加注重从接受的观点去思考和这些情绪机器人交互的人。如果现有情绪智能技术路线走通了，那么在商业上会满足极为广泛的需求，它们会对这个社会产生广泛深刻的影响。”

陈小平开始思考，尽管从科学角度我们认为它不是“真正的AI”，但如果社会大众都接受了该怎么办；当它已经成为一个新的社会现象，我们的科学研究是否需要关注这种现象；这是否意味着，除了技术视角，还要从社会学视角出发，我们所开发的情感机器人未必一定要有和人一样的情感，重要的是怎样让人们能够实实在在地接受它……

朱菁也表示，这是一个很有启发性的问题。他注意到，在AI产品出现时，人们就存在一种心理倾向，我们把它称之为公众对于AI的过度拟人化。

“当机器客观上还不具备一些能力、功能时，人们就对它进行了拟人化的想象，这对于从事AI研究的专家来说是不存在的。未来，对于这种心理倾向我们到底应该接受、允许，还是纠正它。”

AI科学家是应该告诉人们“你们错了，机器的情感不同于人类情感，它们只是物”，还是坦然接受这一现实，然后以此为出发点，面向人类未知的领域，应对可能面临的来自伦理、道德、社会等方方面面的挑战？

这个答案尚属未知。

能造出像人一样“思考”的机器吗

如今的AI系统已经在不少具体问题的解决能力上超过了人类，那么，我们究竟能否制造出像人一样“思考”的机器？AI会有一天超越人类智能吗？

计算型智能只是人类智能的一种类型

围棋是人类的高级智能活动之一，过去人们认为计算机不可能超越人类的这种智能。

因此，围棋也被视为AI的“圣杯”。

直到DeepMind推出的AI围棋程序AlphaGo战胜了人类。

浙江大学神经管理学实验室创始人、国际欧亚科学院院士马庆国解释，AlphaGo大放异彩，得益于蒙特卡洛树搜索框架，加上深度学习和强化学习。

他说，假设计算机的计算速度“无限”快，计算机就可以用“穷举法”为围棋棋手瞬间找到“最优解（最优落子位置）”。

但事实是，每一步落子的计算量太大了，当前最快的计算机速度也根本无法完成“穷举”这样大的计算量，所以要从当前的可能的落子方案中选一些，交由不同计算机（群）去做并行计算。

如何在当前可能的落子位置选出一组落子点（试算点）交给不同计算机（群）做并行计算？

他表示，除了利用计算机越来越快的存取速度和越来越大的存储容量、从过去“对弈”的成果（不仅仅是“定式”）产生“试算点”之外，还需要借助很多“节省计算但尽可能选优”的技术。

蒙特卡洛树搜索框架、深度学习和强化学习就是其中三种重要的技术（算法）。

马庆国认为，近10余年来，AI最显著的进步之一发生在深度学习的领域（主要是深度神经网络领域）。

基于深度神经网络的深度学习，没有对所研究问题的环境作明确表征，也不探求因果关系（本质上是“黑箱”模型）。

在基于巨量数据、完成了对一个网络的训练后，程序员就用这个训练的结果模型，运行新的数据，选择落子的走法。

AlphaGo的核心技术是强化学习。

强化学习的本质是实现“自动决策”。机器会在没有任何指导、标签的情况下，尝试行为，得到一个结果，再判断是对还是错，由此调整之前的行为，通过不断地调整，算法持续优化。

有人认为，强化学习的本质正在接近人类的学习，但它是否能够实现人类大脑的智能？马庆国的回答是否定的。

“目前，我们还没有制造出能像人一样思维的机器，我们只能在一些狭义领域，制造出比人类某些智能更出色的机器。这并不奇怪，因为这些领域关注的是计算机更擅长的事——基于数学的逻辑的算法和对以往事实的快速存取。”

在马庆国看来，计算型的智能只是人类智能的一部分。

在这种类型的智能方面，人造的机器超过了人。

但在“理解”（如理解语言、理解社会）方面，AI与人类智能有质的差异。

马庆国介绍说，英国数学家和物理学家罗杰·彭罗斯曾在他著名的AI科普读物《皇帝新脑——有关电脑、人脑及物理定律》一书中，引用了美国哲学家约翰·西尔勒的思想实验 ——“中文房间”来论证计算机及算法实际上并不是“理解”智能。

“中文房间”实验假设一位只说英语的人身处一个密闭房间。

假设房间里有一本回答所有问题的中文书，以及足够的稿纸、铅笔和橱柜。

写着中文问题的纸片通过小窗口被送入房间中。

房间中的人可以通过比对，在这本书上找到这个问题的中文答案。

然后抄写这个答案从窗口递出去。

虽然他根本不懂中文，但房间外的人却以为他理解了中文问题，并用中文思考。

“计算机就是这样工作的。它无法理解接收到的信息，但它可以运行一个程序，处理信息，然后给出一个正确的回答，好像理解了接收到的信息一样。”

马庆国说，这个思想实验证明，“计算机及其算法”事实上并不像人类一样“理解”其所执行的任务。

人类是如何思考的

AI要想真正实现人类智能，需要具备什么能力？马庆国认为，人类智能的最大特点之一，就是能够创造性地解决从未遇到过的新问题。

他常举的一个例子是：当一个人在过一座独木桥时，突然之间桥断裂了，人依然可以想出很多点子来解决过河的问题，找木头搭建简易桥或者抱着浮木游到河对岸，等等。

“计算机就没有这样的能力，除非人事先给它设定了‘在需要过没有桥的河时，应找木头搭建简易桥’。可是，如果周围没有可以搭建简易桥的木头呢？人类可以想其他办法，计算机就无能为力了。”

在他看来，问题的症结在于，计算机是遵守规则的机器。在现实世界中，规则总是不可能穷尽的。

现在的AI本身并没有创造性，当遇到旧规则不能解决的问题时，它不能像人类一样完全根据面对的问题想出从未有过的解决办法。

人类的理解力从何而来

马庆国说，以语言为例，一个孩子学会理解语言，其实也是来源于对应关系。

当他第一次面对一个全新的词汇时并不能理解，直到一种情景反复出现，并在这个情境中与他人互动，他就可以将这个词汇和情景对应起来。

一个孩子越长大，对于他所知道的关于这个词对应的东西就越多，关于这个词汇的理解也就形成了。

再经过不同个体的互动和交流，关于这个词汇的共同理解也就形成了。

计算机只能做到有限的对应，因为真实环境太过复杂，现在它对语言的“理解”可谓捉襟见肘。

“但这也带来了一个问题：计算机总是在不断进步和发展的，理论上它的对应也会越来越丰富、越来越复杂。那么在哲学上，这一量变是否可能带来质变？计算机也进步到可以理解词汇了？”

马庆国认为，这个问题还没有答案。

不过，他对AI完全实现人类智能的前景并不乐观。

人脑真实的智能和AI最大的区别，可能在于脑的工作方式。

“尽管计算机也叫电脑，但它和人脑的工作方式完全是两回事。”

马庆国说，无论是存储、计算，还是创造，大脑都是靠神经元、树突、轴突以及突触等相互衔接的结构和多种神经介质来实现工作的：从神经元前面来的信号，到这个神经元后面出去成百上千个甚至更多的连接。

不同的连接方式，就可能在工作中形成了不同的意识。

对此，人们又开始对模拟人脑的AI抱有希望。

他表示，这就需要破解哲学上的一个难题：思维是彼岸的，现实存在是此岸的，两者之间是有鸿沟的，哲学上认为这是不能跨越的。

现在，我们希望通过脑神经研究，使彼岸的思维能够用此岸的神经元活动来解释。

“人类的意识本身最终能够在神经元活动的水平上被解读，可能需要上千年的时间。即便解读了，机器能够完全模拟神经元的工作方式吗？”

作为首个提出神经管理学的学者，马庆国坦言，按照AI现有的技术路径是难以实现的，除非未来我们能够创造出一种完全颠覆性的理论技术体系。

从这个角度来看，担忧AI会超越甚至取代人类，根本无从谈起。