从脑科学到人工智能 – 我的知识库

摘要：回顾人工智能（artificial intelligence，AI）的发展历史，我们可以清晰地看到脑科学给AI领域带来的巨大突破，如深度学习。目前，尽管AI及其应用的发展趋势已经超越了人类的预期，但AI与人类智能之间仍然存在着难以逾越的鸿沟。从脑科学到AI、从了解大脑到模拟大脑，在脑科学与AI研究之间建立起一座桥梁已经成为一种迫切需求。为此，我们首先需要通过研究新型脑成像技术来探索脑科学的秘密，建立大脑的动态连接图谱以及将神经科学实验与理论、模型和统计学相结合等。在此基础上，我们将进一步研究新一代AI理论和方法，从而建立起从机器感知和机器学习到机器思维和机器决策的颠覆性模型和工作模式。与此同时，本文还将讨论在脑科学启发新一代AI过程中的一些机遇与挑战。

关键词：人工智能；脑科学

1. 引言

从人工智能（artificial intelligence，AI）发展的历史来看，我们可以清楚地看到脑科学与AI之间的联系，许多AI的先驱科学家也是脑科学家。使用显微镜发现的生物大脑的神经连接启发了人们对人工神经网络^[7]的研究；使用电子探测器发现的卷积特性和多层结构启发了人们对卷积神经网络和深度学习^[10,11]的研究；使用通过正电子发射断层扫描（PET）成像系统发现的注意力机制启发了人们对注意力模块^[15]的研究；使用功能磁共振成像（fMRI）技术发现的工作记忆启发了人们对机器学习模型中记忆模块的研究，并最终发展成为对长短期记忆模型（LSTM）^[25]的研究；使用双光子成像系统发现的学习时期形成的脊柱变化启发了人们对弹性权重巩固（EWC）模型^[31]的研究。虽然目前AI领域和脑科学领域似乎有些脱节，但是脑科学的研究成果揭示了与AI原理相关的一些重要问题，并进一步使AI在理论和技术上取得了重大突破。现在我们处于深度学习时代，而深度学习更是直接受到了脑科学的启发。我们可以看到，越来越多的脑科学研究成果可以激发新的深度学习模型。在不久的将来，AI的下一个突破很可能来自脑科学。

2. 受脑科学启发的AI

AI的研究目标是开展理论研究和开发能够代替生物智能或人类智能来执行任务的计算机系统，并且该系统具有感知、识别、决策和控制等功能^[1] 。相反，脑科学（亦被称为神经科学）的研究目标是研究生物大脑的结构、功能和运行机制，如大脑是如何处理信息、做出决策以及与环境交互的^[2]。显然，AI可以被看作是对人类智能的模拟。因此，研究AI的一种简单的方法是将AI与脑科学及其相关领域（如认知科学和心理学）相结合。事实上，许多AI研究的先驱，如Alan Turing^[3]、Marvin Minsky^[4]、John McCarthy^[5]和Geoffrey Hinton^[6]，都对这两个领域非常感兴趣，并为AI的研究做出了巨大的贡献，这也归功于他们在脑科学方面的扎实背景。

在现代计算机问世之后，AI的研究目标是建立智能“思维”机器。自AI诞生以来，AI与脑科学之间就存在着相互联系。在20世纪初，由于显微镜的发展，研究人员观察到了包括大脑在内的神经系统中神经元之间的联系。受到神经元之间相互联系的启发，计算机科学家开发了人工神经网络，这是AI史上最早、最成功的模型之一。1949年，Hebbian学习算法被提出^[7]，它是最早的学习算法之一。该算法的提出是受到了生物神经系统力学的启发。当突触两侧（输入和输出）的神经元具有高度相关的输出信号时，两个神经元之间的突触会被加强；同样，在Hebbian学习算法中，当输入与输出信号高度相关时，学习算法会增强两个神经元之间的连接权重。之后，人工神经网络受到研究人员的广泛关注。一项具有代表性的研究成果是感知器^[8]，它直接模拟了大脑中的信息存储和组织功能。感知器是一种具有多维输入信号的单层人工神经网络，它为之后的多层网络的发展奠定了基础。

1959年，1981年诺贝尔生理学或医学奖获得者Hubel和Wiesel利用电子信号探测器捕捉到了神经元在视觉系统看到不同图像时的反应^[9]。来自哺乳动物视觉皮层的单细胞记录揭示了视觉输入信号是如何在V1区域的简单和复杂细胞中被过滤和汇集的。这项研究表明，大脑中的视觉处理系统进行了卷积操作，而且该系统具有多层结构。生物系统利用具有非线性计算的连续层级结构将原始视觉输入信号转换为越来越复杂的特征集，从而使视觉系统在识别视觉输入信号时对姿势和比例等变换保持不变。这些发现直接启发了卷积神经网络^[10,11]，卷积神经网络是现阶段深度学习技术的基本模型^[12]。人工神经网络和深度学习的另一个关键组成部分是反向传播算法^[13]，它解决了如何调整人工神经网络中的参数或权重的问题。有趣的是，反向传播算法的基本思想最初是由神经科学家和认知科学家在20世纪80年代提出的^[14]，而不是由计算机科学家或机器学习研究人员提出的。这些科学家观测到，神经系统的微观结构和生物大脑的神经系统是通过一个学习过程逐步被调整的，其目的是最小化误差和最大化输出回报。注意力机制是在19世纪90年代首次被作为心理学概念而引入的，它的设计目的是使智能体可以选择性地集中在一些重要信息上而不是全部信息上，从而改善认知过程^[15]。自20世纪90年代以来，研究者开始使用新的医学成像技术，如PET，去研究大脑的注意力机制。1999年，PET被用于研究大脑的选择性注意力^[16]。之后，研究人员通过运用更多的成像技术，发现了更多关于生物大脑的注意力机制^[17]。受到生物大脑中注意力机制的启发，AI研究人员开始将注意力模块纳入基于时间^[18]或空间^[19]方式的人工神经网络中，分别提高了深度神经网络在自然语言处理和计算机视觉任务中的性能表现。利用注意力模块，人工神经网络能够选择性地关注重要的对象或词语并忽略不相关的部分，从而使训练和推理过程比传统深度网络更高效。

机器学习模型通常会忘记它已经处理的数据中的信息，而生物智能却能够将这种信息记住一段时间，生物大脑有工作记忆功能，它能记住过去的数据。工作记忆的概念最初是在20世纪70年代被引入的，它是通过一些认知实验所总结的^[20,21]。自1990年以来，研究人员就开始使用PET和fMRI来研究生物大脑的工作记忆，并发现大脑的前额叶皮质是关键部分^[22–24]。受到脑科学工作记忆研究的启发，AI研究人员试图将记忆模块纳入机器学习模型。一种典型的方法是LSTM^[25]，该方法为诸多序列处理任务奠定了基础，如自然语言处理、视频理解以及时间序列分析。最近的一项研究表明，工作记忆模块可以使机器学习模型执行复杂的推理和工作任务，如找到特定点之间的最短路径并在随机生成的图形中推断缺失的连接^[26]。通过记忆以往的知识，我们可以进行一次性学习，即只需要标记少量的样本就可以学习一个新的概念^[27]。

连续学习是生物智能的一项基本技能，利用该方法可以在不会忘记以前任务的同时学习到新的任务。生物神经系统是如何实现在不同时间学习多个任务的，这是一个具有挑战性的研究课题。1990年，双光子显微技术^[28]使得在单个突触的空间尺度上观察树突棘在学习期间的体内结构和功能成为可能^[29]。通过这种成像系统，一些研究人员在2010年对大脑中新皮质在连续学习期间的可塑性进行了研究，研究结果揭示了神经系统在学习新任务时是如何通过控制神经元的生长来记住之前的任务的^[30]。受到生物神经系统研究的启发，一种名为EWC的学习算法被提出并被用于深度神经网络的研究。这种算法在学习新任务时控制着网络参数的变化，从而保留了旧的知识，使深度学习中的连续学习成为可能^[31]。

强化学习（RL）是一种被广泛使用的机器学习框架，该框架已被用于许多应用程序，如AlphaGo。它与AI智能体如何采取行动并与环境进行交互相关。事实上，RL也与生物学习过程密切相关^[32]。时间差分学习（TDL）是一种重要的RL方法，也是RL的早期算法之一。TDL通过价值函数的当前估计值的引导来学习，该策略类似于动物系统中二阶调节的概念^[33]。

3. 脑计划

许多国家和地区都开展了大脑研究项目以加速脑科学研究，如表1所示^[34–39]。尽管研究的重点和路线不同，但基于脑科学的发现进行的下一代AI的开发是所有大脑研究项目的共同目标。各国政府和大多数科学家似乎已达成共识，即发展神经成像和控制技术可以帮助我们探索大脑的工作原理，从而使我们能够设计出更好的、包括硬件和软件在内的AI架构。在研究期间，包括生物学、物理学、信息学和化学在内的多个学科之间的相互合作对于实现不同方面的新发现是非常必要的。

在过去五年中，在大脑研究项目的支持下，研究者们取得了重要的成果。光遗传学的发展使我们能够以单细胞分辨率精确地控制神经活动^[40]。利用先进的波束调制方法可以进一步实现大规模控制^[41,42]。与此同时，多种方法已经被研究人员提出，并被用来以3D形式记录大规模神经活动^[43–45]。被记录到的神经元数量在不断增加，从数十个增加到数千个，而且随着大视场高分辨率成像技术的不断发展，近期这一数量可能增加到数百万个^[46–48]。神经光子学领域中显著的技术进步为神经科学中的重要发现提供了技术基础^[49,50]。例如，脑计划（BRAIN Initiative）的关注重点将逐渐转向发现驱动型科学。

BRAIN Initiative旨在通过神经科学革新机器学习，其中一个经典案例是MICrONS（大脑皮质网络的机器智能计划）。通过使用连续切片电子显微镜，研究人员能够以前所未有的分辨率通过3D形式重建复杂的神经结构^[51]。结合多尺度数据的高通量数据分析技术^[52,53]，一些创新性的科学方法可以被开发以探索基本的神经科学问题^[54]。基于这种被改进的理解方式，研究人员提出了用于深度神经网络的创新性架构，并尝试对当前架构的工作原理进行理解^[55,56]。此外，当前的深度学习技术还可以对研究中大量的数据处理进行加速，从而形成良性循环。

受益于近年来的技术发展，我们能够以前所未有的时空分辨率系统地观察神经活动。同时，许多大规模数据分析技术被提出，用于解决此类技术产生的大量数据所带来的挑战。按照这条路线，各种大脑研究项目可以指数形式加快脑科学研究。通过越来越多的研究成果，我们可以更好地了解人类的大脑。毫无疑问，大脑的工作原理将会启发下一代AI的设计，这就像过去对大脑研究的发现启发了今天的AI成就一样。

4. 脑科学和AI之间的桥梁——仪器

利用仪器对大脑进行的观测对AI的出现和发展作出了巨大的贡献。现代神经生物学的发展是从亚细胞到组织水平的微观结构的信息获取开始的，这一过程受益于显微镜的发明以及细胞和组织中物质的偏色。著名的神经解剖学家Santiago Ramón y Cajal是第一个使用Golgi染色法去观察大量神经系统组织标本的人，他提出了神经元和神经信号传导的基本理论。Cajal和Golgi于1906年分享了诺贝尔生理学或医学奖（Nobel Prize in Physiology or Medicine）。Cajal现在被广泛称为“现代神经生物学之父”。

当前，我们对人类大脑日益丰富的理解得益于神经技术所取得的各种进步，包括神经元、神经系统和大脑的控制、处理和信息获取，以及认知和行为学习等。在这些进步中，用于高质量成像采集的新技术和新仪器的研发早已成为焦点，并有望在未来受到更多关注。例如，美国在2013年推出的BRAIN Initiative旨在绘制动态大脑图像，用于展示脑细胞与其周围神经回路之间快速而复杂的相互作用，并揭示神经组织与大脑功能之间的多维交织关系。这类研究成果有望让我们了解大脑记录、处理、应用、存储和检索大量信息的过程。2017年，BRAIN Initiative资助了哈佛大学的一些跨学科科学家，这些科学家致力于对神经环路与行为之间的关系进行研究，他们主要通过使用高质量成像技术来获取和处理各种条件下神经系统的大型数据集。

传统的神经科学研究主要采用电生理学方法，如利用金属电极进行神经刺激和信号采集，这种方法具有灵敏度高、时间分辨率高的优点。然而，电生理学方法是侵入性的，它不适用于长时间的观测。同时，该方法的空间分辨率较低、扩展能力有限，难以在单神经元分辨率下对全局神经活动进行并行观测。相比之下，光学方法是非侵入性的，该方法具有高空间分辨率、高时间分辨率以及高灵敏度。这类方法能够从神经元个体、神经活动及其相互作用中获取动态和静态信息，并能够把对神经系统的分析从亚细胞水平扩展到整个大脑。此外，光学方法还被发展成为一种控制工具，利用该工具通过光遗传学方法可以控制高时空分辨率下的神经活动。

开发具备大视场和高时空分辨率的技术和仪器已迫在眉睫。在空间尺度上，成像必须从几十微米大小的亚微米突触和神经元跨越到几毫米宽的大脑。在时间尺度上，帧获取的速度应高于所使用的荧光蛋白探针的响应速率。然而，由于光学成像的固有衍射极限，其在大视场、高分辨率和大景深之间存在着固有的矛盾。适用于单个神经元甚至更小组织的高分辨成像技术往往无法观测到几毫米以上的大脑组织结构，并且动态成像通常伴随着更高的噪声。然而，用于实时和长时间采集的活体非侵入式成像技术仅限于发生散色光的组织颗粒表层。如何突破上述瓶颈以及实现大视场、高时空分辨率和大景深将成为未来十年微观成像技术发展面临的最大挑战。

最后，对微观结构维度的探索可能会产生一种新型的神经计算单元，而对宏观结构维度进行的实时探索有助于理解跨脑思维的操作，并揭示了大脑在复杂环境下利用多个信息源（听觉、视觉、嗅觉、触觉等）进行综合决策的机制。毫无疑问，整个大脑实时探索微观和宏观结构维度的二元性将促进下一代AI的发展。因此，显微成像仪器的发展目标是实现从像素到体速、从静态到动态的更宽、更高、更快和更深的成像。这种仪器可以在“生物学的宏观认知决策”与“神经网络的结构与功能”之间建立直接联系，为揭示“认知与智能”的计算本质奠定基础，最终促进人类的自我认知，从而弥补AI与人类智能之间的差距。

致谢

本工作得到了中国工程院战略咨询研究项目（2019-XZ-9）、国家自然科学基金委员会重大科研仪器设备研制专项（61327902）、北京市科委项目（Z181100003118014）的资助。

References

[1] Russell SJ，Norvig P. Artificial intelligence: a modern approach. 3rd ed. New York: Pearson Education， 2010.

[2] Miller GA. The cognitive revolution：a historical perspective. Trends Cogn Sci 2003；7（3）：141–4.

[3] Turing A. Computing machinery and intelligence. Mind 1950；236：433–60.

[4] Minsky M，Papert S. Perceptrons：an introduction to computational geometry. Cambridge，MA：MIT Press，1987.

[5] McCarthy J. Defending AI research：a collection of essays and reviews. Stanford：CSLI Publications，1996.

[6] Hinton GE，Rumelhart DE，McClelland JL. Distributed representations. In：Parallel distributed processing：explorations in the microstructure of cognition：foundations. Cambridge, MA: MIT Press；1986. p. 77–109.

[7] Hebb DO. The organization of behavior. Hoboken：John Wiley & Sons，1949.

[8] Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychol Rev 1958；65（6）：386–408.

[9] Hubel DH, Wiesel TN. Receptive fields of single neurones in the cat’s striate cortex. J Physiol 1959；148（3）：574–91.

[10] LeCun Y，Boser B, Denker JS，Henderson D，Howard RE，Hubbard W，et al. Backpropagation applied to handwritten zip code recognition. Neural Comput 1989；1（4）：541–51.

[11] Krizhevsky A，Sutskever I， Hinton G. ImageNet classification with deep convolutional neural networks. In：Pereira F，Burges CJC，Bottou L，and Weinberger KQ， editors. Proceedings of the Neural Information Processing Systems 2012；2012 Dec 3–6；Lake Tahoe，NV，USA；2012. p. 1097–105.

[12] LeCun Y，Bengio Y，Hinton G. Deep learning. Nature 2015；521（7553）：436–44.

[13] Rumelhart DE，McClelland JL. Learning internal representations by error propagation. In：Parallel distributed processing：explorations in the microstructure of cognition: foundations. Cambridge，MA: MIT Press；1986. p. 318–62.

[14] Rumelhart DE，McClelland JL. Parallel distributed processing：explorations in the microstructures of cognition：foundations. Cambridge，MA: MIT Press；1986.

[15] James W，Burkhardt F，Bowers F，Skrupskelis IK. The principles of psychology. New York：Henry Holt；1890.

[16] Raichle ME. Positron emission tomography. In：Wilson RA，Keil LC，editors. The MIT encyclopedia of the cognitive sciences. Cambridge，MA：MIT Press：1999. p. 656–8.

[17] Scolari M，Seidl-Rathkopf KN，Kastner S. Functions of the human frontoparietal attention network：evidence from neuroimaging. Curr Opin Behav Sci 2015；1：32–9.

[18] Bahdanau D，Cho K，Bengio Y. Neural machine translation by jointly learning to align and translate. 2014. arXiv：1409.0473.

[19] Reed S，Zhang Y，Zhang Y，Lee H. Deep visual analogy-making. In：Cortes C，Lawrence ND，Lee DD，Sugiyama M，and Garnett R， editors. Proceedings of the Neural Information Processing Systems 2015：2015 Dec 7–12：Montreal，QC，Canada；2015. p. 1252–60.

[20] Atkinson RC，Shiffrin RM. Human memory：a proposed system and its control processes. In：Spence KW，Spence JT，editors. Psychology of learning and motivation （volume 2）. New York：Academic Press；1968. p. 89–195.

[21] Baddeley AD，Hitch G. Working memory. In：Bower GH，editor. Psychology of learning and motivation （volume 8）. New York：Academic Press；1974. p. 47–89.

[22] Goldman-Rakic PS. Cellular and circuit basis of working memory in prefrontal cortex of nonhuman primates. Prog Brain Res 1990；85：325–35.

[23] McCarthy G，Puce A，Constable RT，Krystal JH，Gore JC，Goldman-Rakic P. Activation of human prefrontal cortex during spatial and nonspatial working memory tasks measured by functional MRI. Cereb Cortex 1996；6（4）：600–11.

[24] Jonides J, Smith EE, Koeppe RA, Awh E, Minoshima S, Mintun MA. Spatial working memory in humans as revealed by PET. Nature 1993；363（6430）：623–5.

[25] Hochreiter S，Schmidhuber J. Long short-term memory. Neural Comput 1997；9（8）：1735–80.

[26] Graves A，Wayne G，Reynolds M，Harley T，Danihelka I，Grabska-Barwińska A， et al. Hybrid computing using a neural network with dynamic external memory. Nature 2016；538（7626）：471–6.

[27] Santoro A，Bartunov S，Botvinick M，Wierstra D，Lillicrap T. One-shot learning with memory-augmented neural networks. 2016. arXiv：1605.06065.

[28] Denk W，Strickler JH，Webb WW. Two-photon laser scanning fluorescence microscopy. Science 1990；248（4951）：73–6.

[29] Nishiyama J，Yasuda R. Biochemical computation for spine structural plasticity. Neuron 2015；87（1）：63–75.

[30] Cichon J，Gan WB. Branch-specific dendritic Ca²+ spikes cause persistent synaptic plasticity. Nature 2015；520（7546）：180–5.

[31] Kirkpatrick J，Pascanu R，Rabinowitz N，Veness J，Desjardins G，Rusu AA，et al. Overcoming catastrophic forgetting in neural networks. Proc Natl Acad Sci USA 2017；114（13）：3521–6.

[32] Sutton R，Barto A. Introduction to reinforcement learning. Cambridge，MA：MIT Press；1998.

[33] Sutton RS，Barto AG. Toward a modern theory of adaptive networks：expectation and prediction. Psychol Rev 1981；88（2）：135–70.

[34] Insel TR，Landis SC，Collins FS. The NIH BRAIN Initiative. Science 2013；340（6133）：687–8.

[35] Jeong S，Lee Y，Jun B，Ryu Y，Sohn J，Kim S，Woo C，et al. Korea Brain Initiative：emerging issues and institutionalization of neuroethics. Neuron 2019；101（3）：390‒3.

[36] Amunts K，Ebell C，Muller J，Telefont M，Knoll A，Lippert T. The human brain project：creating a European research infrastructure to decode the human brain. Neuron 2016；92（3）：574–81.

[37] Okano H，Sasaki E，Yamamori T，Iriki A，Shimogori T，Yamaguchi Y，et al. Brain/MINDS: a Japanese national brain project for marmoset neuroscience. Neuron 2016；92（3）：582–90.

[38] Jabalpurwala I. Brain Canada: one brain one community. Neuron 2016；92（3）：601‒6.

[39] Alliance A. A neuroethics framework for the Australian Brain Initiative. Neuron 2019；101（3）：365‒9.

[40] Deisseroth K. Optogenetics. Nat Methods 2011；8（1）：26–9.

[41] Pégard NC，Mardinly AR，Oldenburg IA，Sridharan S，Waller L，Adesnik H. Three-dimensional scanless holographic optogenetics with temporal focusing（3D-SHOT）. Nat Commun 2017; 8（1）：1228.

[42] Hochbaum DR, Zhao Y, Farhi SL, Klapoetke N, Werley CA, Kapoor V, et al. Alloptical electrophysiology in mammalian neurons using engineered microbial rhodopsins. Nat Methods 2014；11（8）：825–33.

[43] Ji N，Freeman J，Smith SL. Technologies for imaging neural activity in large volumes. Nat Neurosci 2016；19（9）：1154–64.

[44] Weisenburger S，Vaziri A. A guide to emerging technologies for large-scale and whole-brain optical imaging of neuronal activity. Annu Rev Neurosci 2018；41（1）：431–52.

[45] Ahrens MB，Orger MB，Robson DN，Li JM，Keller PJ. Whole-brain functional imaging at cellular resolution using light-sheet microscopy. Nat Methods 2013；10（5）：413–20.

[46] Kim TH，Zhang Y，Lecoq J，Jung JC，Li J，Zeng H，et al. Long-term optical access to an estimated one million neurons in the live mouse cortex. Cell Rep 2016；17（12）：3385–94.

[47]McConnell G，Trägårdh J，Amor R，Dempster J，Reid E，Amos WB. A novel optical microscope for imaging large embryos and tissue volumes with sub cellular resolution throughout. Elife 2016；5：e18659.

[48] Stirman JN，Smith IT，Kudenov MW，Smith SL. Wide field-of-view，multiregion，two-photon imaging of neuronal activity in the mammalian brain. Nat Biotechnol 2016；34（8）：857–62.

[49] Chen JL，Carta S，Soldado-Magraner J，Schneider BL，Helmchen F. Behaviourdependent recruitment of long-range projection neurons in somatosensory cortex. Nature 2013；499：336–40.

[50] Sofroniew NJ，Flickinger D，King J，Svoboda K. A large field of view twophoton mesoscope with subcellular resolution for in vivo imaging. Elife 2016；5：e14472.

[51] Joesch M，Mankus D，Yamagata M，Shahbazi A，Schalek R，Suissa-Peleg A，et al. Reconstruction of genetically identified neurons imaged by serial-section electron microscopy. Elife 2016；5：e15015.

[52] Friedrich J，Yang W, Soudry D，Mu Y，Ahrens MB，Yuste R，et al. Multi-scale approaches for high-speed imaging and analysis of large neural populations. PLoS Comput Biol 2017；13（8）：e1005685.

[53] Berens P，Freeman J，Deneux T，Chenkov N，McColgan T，Speiser A，et al. Community-based benchmarking improves spike rate inference from twophoton calcium imaging data. PLoS Comput Biol 2018；14（5）：e1006157.

[54] Paninski L，Cunningham JP. Neural data science：accelerating the experimentanalysis-theory cycle in large-scale neuroscience. Curr Opin Neurobiol 2018；50：232–41.

[55] Hoffer E，Hubara I，Soudry D. Train longer，generalize better：closing the generalization gap in large batch training of neural networks. In：Guyon I，Luxburg UV，Bengio S，Wallach H，Fergus R，Vishwanathan S，and Garnett R，editors. Proceedings of the Neural Information Processing Systems 2017; 2017 Dec 4–9；Long Beach，CA，USA；2017. p. 1731–41.

[56] Kadmon J，Sompolinsky H. Optimal architectures in a solvable model of deep networks. In：Lee DD，Sugiyama M，Luxburg UV，Guyon I，and Garnett R，editors.Proceedings of the Neural Information Processing Systems 2016；2016 Dec 5–10；Barcelona，Spain；2016. p. 4788–96.