人工有个严重问题：它说不清自己为啥这么牛！

2017-04-18 16:04:55 1910

虽然人工可以解决很多问题，但由于这种技术存在“黑盒子”问题，因此没有一个人能够确切知道它的内部运作方式，因而可能引发严重问题。

虽然人工可以解决很多问题，但由于这种技术存在“黑盒子”问题，因此没有一个人能够确切知道它的内部运作方式，因而可能引发严重问题。

去年，一辆古怪的无人驾驶汽车开上了新泽西州蒙茅斯郡宁静的道路。这辆实验用车是由芯片制造商英伟达开发的，它的外观与其他无人驾驶汽车别无二致，但与谷歌(微博)、特斯拉和通用汽车展示的系统不同，这辆汽车证明了人工的强大能量。

它并没有遵循工程师提供的指令，而是通过观察人类司机的驾驶方式，较多依赖算法自学成才。

让一辆汽车自学成才确实令人惊喜，但也带来了一丝不安，因为我们并不较多清楚它是如何制定决策的。车身传感器收集的信息会直接传输到较的人工神经网络，在那里处理数据，然后生成相应的指令，引导汽车操纵方向盘、刹车和其他系统。

的结果似乎符合你对一个人类驾驶员的预期。但如果它有朝一日做出什么令人意外的举动，比如撞到路边的树木，或在绿灯前停止不动，那该如何是好？

以现在的情况来看，可能很难找出背后的原因。人工系统十分复杂，就连设计它的工程师都难以分辨某个具体行动背后的逻辑。你又不能直接向它询问原因：目前还没有一种明确的方式可以设计出这样的系统，从而解释它每一步行动背后的原因。

这种汽车的思维引出了人工领域的一个若隐若现的问题。这辆汽车的底层采用了名为学习的人工技术，近几年的许多研究都表明，这项技术很擅长解决很多问题，而且已经广泛部署在图像说明、语音识别、语言翻译等诸多领域领域。还有人希望用同样的技术诊断恶性疾病，制定数百亿美元的交易策略，甚至通过数不清的其他方式改变一个又一个的行业。

但除非你找到一种方式，让它的开发者充分理解学习技术，并对用户肩负起应负的责任，否则这翻畅想就无法实现——或者说，不应该实现。如若不然，就很难预测何时出现问题——毕竟，按照目前的设计，这些系统肯定会出现问题。但英伟达之所以仍在测试，却有它自己的原因。

各样的数学模型已经可以帮助人们在假释、放贷和招聘领域制定决策。如果你可以评估这些数学模型，那就有可能理解它们背后的逻辑。但银行、军队和雇主现在都把精力转向了更加复杂的机器学习方法，使得自动化决策流程变得较多无法理解。

作为其中比较常见的一种技术，学习与以往的计算机编程截然不同。“这个问题已经凸显出来，今后还将越来越受重视。”麻省理工学院机器学习应用教授多米·加考拉（Tommi Jaakkola）说，“无论是投资决策、医疗决策还是军事决策，你肯定希望把权力交给一个‘黑盒子’。”

有人认为，向人工系统质问其结论背后的原因是一项合法的基本权利。从2018年夏天开始，欧盟可能就会要求相关企业具备相应的能力，以便向用户解释自动化系统的决策理由。这或许难以实现，即便是对那些表面看来相对简单的系统也同样如此，包括那些使用学习技术投放广告和推荐歌曲的应用和网站。

这些服务所使用的电脑采用了自我编程模式，外界无法理解它们的行为方式。就连负责开发这些应用的工程师也无法解释它们的行为。

这便引发了许多难以置信的问题。随着科技不断进步，我们可能很快就会跳过某个门槛，到那时，须要给予人工的信任才能顺利使用这些系统。诚然，人类很多时候也无法解释我们自己的思维过程——但我们却可以通过各样的方式利用直觉来信任或评价他人。但对于这些思维和决策方式同于人类的机器来说，有没有可能实现这一点呢？

我们之前从未开发过连它的创造者都无法较多理解的机器。我们能否与这些无法预测、无法理解的机器展开顺畅的沟通，保持和睦的关系？带着这些问题，我开始研究谷歌、苹果和很多公司的人工算法，还找到了一位当今时代的哲学家。

医学尝试

2015年，纽约西奈山医院（Mount Sinai Hopital）决定用学习分析该院庞大的病历数据。这个数据集里包含病人的数百个变量，都来自他们的检测结果、医生面诊等环节。由此催生了一个名为Deep Patient的项目，它利用70万病人的数据进行训练，然后对新的病例展开测试：结果显示，它在预测疾病方面表现十分优异。

在没有指导的情况下，Deep Patient挖掘了隐藏在医院数据中的模式，甚至可以借此了解人们何时有可能患上肝癌等疾病。在西奈山医院负责这个项目的乔尔·杜德利（Joel Dudley）表示，有很多方法都很适合通过病例来预测疾病。但他也补充道，“这种方法效果好很多。”

与此同时，Deep Patient也有些令人疑惑。他在预测精神分裂症等精神疾病方面的表现出奇得好，但由于精神内科医生向来很难预测精神分裂，所以杜德利想知道，这套系统究竟是如何做到的。

他至今没有找到答案，这套新系统没有透露出理由。如果想让Deep Patient真正为医生提供帮助，比较理想的情况就是阐述这种预测背后的逻辑，确保整个过程精确且有事实依据——例如，医生给某人开具的处方药物是否发生了某种变化。“我们可以开发这种模型，”杜德利说，“但却并不知道它是如何工作的。”

人工并非总是如此。早期，关于可以理解、可以解释的人工应该是什么样子，出现了两派观点。

很多人认为，比较有意义的机器应该根据规则和逻辑做出判断，这样一来，愿意了解代码的人都可以理解它的内部工作原理。

还有人认为，如果机器从生物学领域获得启发，通过观察和经验来学习，就更容易实现。这就意味着把编程任务交给机器自己来完成。解决问题时，不需要程序员编写命令，而是由程序根据样本数据和渴望的输出结果来自主生成算法。已经成为当今强大人工系统的机器学习技术就遵循了后一条道路：本质上是由机器自主编程。

这种算法起初的实际应用范围比较有限，在1960和1970年代，还仅限于一些边缘领域。之后，很多行业的电脑化普及和大型数据集的涌现重新点燃了人们的兴趣。这也推动了更加强大的机器学习技术的发展，尤其是新一代的人工神经网络。到1990年代末，神经网络已经可以自动对手写字母进行数字化处理。

但直到这个十年初期，经过了一系列聪明的调整和提炼之后，真正大规模——或者真正“”——的神经网络才在自动感知领域实现了重大完善。如今的人工爆发都要归功于学习，它为计算机赋予了的力量，包括实现与人类相似的口语能力，这种技术比较复杂，根本无法通过手动编程来实现。学习还改变了计算机视觉，并大幅完善了机器翻译效果。它现在可以用于引导医疗、金融、生产等各个领域的关键决策。

黑盒效应

与手动编码的系统相比，机器学习技术的工作方式天生就很模糊，即便是对计算机科学家来说也同样如此。这并不意味着未来的工技术都会同样难以理解。但从特性上看，学习的确像是一个“黑盒子”。

你无法通过直接研究神经网络来了解它的工作模式。神经网络得出的推论，嵌入在成千上万个模拟神经元的行为之中，它们组成了数十甚至数百个杂乱相连的不同层次。层的神经元都负责接收输入信息，例如一个图像中某个像素的强度，然后通过计算来输出新的信号。在复杂的网络中，这些输出结果会进一步成为下一层神经元的输入信息，如此往复，直到生成整体输出结果。

另外，还有一个被称作反向传播的过程，可以通过调整个别神经元的计算让神经网络学会生成期望的输出结果。

因为网络有那么多层，所以可以从不同的抽象层面认识事物。例如，在一套专门为了识别狗而打造的系统中，底层神经元可以识别轮廓或颜色等简单的元素，较高层次的神经元则识别皮毛或眼睛等更加复杂的元素，顶层则负责识别狗这个整体。简单来说，同样的方法也可以用于处理其他任务，从而让机器实现自学，包括说话时构成语音的声音，在文本中构成句子的字母和单词，或者开车时转动方向盘的动作。

现在出现了一些具有性的策略，试图捕捉并详细解释这类系统中发生了哪些事情。2015年，谷歌研究人员修改了一套学习图形识别算法，使之不识别照片中的物体，而是生成或修改这样的物体。通过反向运行这种算法，便可了解算法在识别鸟或建筑时使用了哪些特征。

这个名为Deep Dream的项目生成的图片，呈现出动物从云朵和植物中浮现的奇异效果，还有宝塔从森林或山脉中盛开的幻觉效果。这些图片证明学习并非较多不可理解，同时也表明这些算法把注意力集中在熟悉的视觉特征上，包括鸟嘴和羽毛。不过，这些图片也透露出学习与人类知觉的差异，正因如此，人工往往可以利用那些被我们忽略的信息。

谷歌研究人员指出，当算法生成哑铃的图像时，还生成了一个抓着哑铃的人类胳膊。这表明机器已经认定，胳膊也是哑铃的一部分。

进一步的发展是因为借鉴了来自神经科学和认知科学领域的想法。怀俄明大学助理教授杰夫·克鲁尼（Jeff Clune）已经部署了相当于人工的光幻觉来测试神经网络。2015年，克鲁尼的团队展示了如何利用某些图片欺骗神经网络，使之得出错误的结论，原因在于这些图片利用了系统所寻找的底层模式。

作为克鲁尼的合作者，詹森·尤辛斯基（Jason Yosinski）也开发了一个像插入大脑的探针一样的工具。他的工具瞄准了神经网络中的任意一个神经元，然后寻找对其激活程度较高的图片。结果出现了一些抽象的图片（就像印象派画家绘制的火烈鸟或校车），凸显出及其感知能力的神秘特性。

事关重大

但我们需要的不只是一窥人工的思维方式，而且这个问题并不容易解决。神经网络中的运算之间的相互影响才是高层次模式识别和复杂决策过程的核心，但这些运算是一片由数学函数和变量构成的沼泽。

“如果你有一个很小的神经网络，或许可以理解它。”加考拉说，“可一旦规模较，每一层都有数千个单元，或者总共拥有数百个层次，那就较多无法理解。”

加考拉办公室隔壁是雷吉纳·巴兹雷（Regina Barzilay），这位麻省理工学院的教授致力于把机器学习应用于医疗领域。几年前，当时43岁的她被诊断出乳腺癌。诊断本身令人震惊，但更令巴兹雷失望的是，没有人使用的统计学和机器学习技术为肿瘤学研究提供帮助，或者引导病人的治疗。

她还表示，人工拥有很大的潜力改革医疗行业，但她也意识到，这项技术的潜力不仅局限于病例。她还希望使用更多尚未充分利用的数据，包括影响数据、病理学数据以及各样的信息。

在去年结束了癌症治疗后，巴兹雷和她的学生开始与麻省综合医院的医生合作开发一套系统，可以通过挖掘病理学报告来寻找那些具备研究人员感兴趣的临床表现的病人。然而，巴兹雷发现，系统需要解释自己背后的逻辑。所以，她与加考拉和一个学生增加了一个步骤：这套系统会把它认为代表某种模式的文本片段提取出来，并加以强调。

巴兹雷和她的学生还开发了一套能够通过乳房X光片找到早期乳腺癌迹象的学习算法，他们希望让这套系统具备一定的解释能力。“的确需要让机器和人类展开协作。”巴兹雷说。

美国军方也投资数十亿美元，希望使用机器学习来控制汽车和飞机、识别目标、过滤大量情报数据。这一领域甚至比医疗行业更期待透明的算法，所以国防部将可解释性视作一大关键障碍。

美国国防部高等研究项目署（DARPA）的项目经理大卫·冈宁（David Gunning）负责一个名为可解释人工（Explainable Artificial Intelligence）的计划。作为该部门的一位银发老兵，他之前在DARPA负责的项目促成了Siri的诞生。冈宁透露，自动化已经渗透到无数的军事领域。情报分析师正在测试机器算法，希望通过大量的监控数据判断模式。

很多无人驾驶汽车和飞机也在开发和测试过程中。但士兵可能不会喜欢这种无法解释自己行为的机器坦克，而分析师在按照这些没有明确逻辑的信息采取行动的时候，也可能有所迟疑。“从这些机器学习天生就容易发出错误警报，所以情报分析师需要额外的帮助来明白系统为何会给出某条建议。”冈宁说。

今年3月，DARPA从学术和工业界选择了13个资助项目，纳入了冈宁的这个计划。其中一些项目会以华盛顿大学教授卡洛斯·古斯特林（Carlos Guestrin）的成果作为基础。他和他的同事开发了一种方法，可以让机器学习系统阐述其输出结果的基本原理。也就是说，借助这种方法，电脑会从数据集中自动找到一些样本，然后给出简短的解释。

例如，一套用于寻找恐怖分子邮件的系统，可能会在训练和决策过程中使用数以百万的样本信息。但利用华盛顿团队的方法，便可突出显示在信息中找到的特定关键词。古斯特林的团队也针对图形识别系统设计了一些方法，通过标注图片上比较重要的部分来暗示它们的判断逻辑。

保持谨慎

但这类模式的缺点在于，系统提供的解释往往过于简单，因此可能缺失一些关键信息。

“我们尚未真正实现目标，那就是让人工与我们对话，向我们解释。”古斯特林说，“我们距离真正能够解读的人工还有很长距离。”

即便不是在癌症诊断或军事演习这种重要活动中，这一问题也会体现出来。如果想要普及人工技术，使之成为我们日常生活中的一个有益组成部分，了解人工的工作逻辑就显得尤其重要。苹果Siri团队负责人汤姆·克鲁伯（Tom Cruber）表示，可解释性是他的团队尝试让Siri更聪明的过程中的关键考量因素。

克鲁伯不肯透露Siri未来的具体计划，但可以想见的是，如果你收到了Siri推荐的餐馆信息，你肯定希望知道背后的原因。

苹果人工研究总监、卡内基梅隆大学副教授鲁斯兰·萨拉库特迪诺夫（Ruslan Salakhutdinov）认为，可解释性是人类与人工关系发展的核心。“这能带来信任。”他说。

正如很多人类行为无法详细解释一样，人工可能也无法解释它的大部分行为。“即使有人能够针对自己的行为给你一个合理的解释，很可能也不够多方面，人工同样如此。”克鲁尼说，“这或许正是的天然属性，只有一部分可以用理性来解释，有的只是本能或潜意识，根本无法解释。”

倘若如此，我们某些时候可能须盲目相信人工的判断，否则就只能抛弃它。类似地，具体的判断也须考虑社交。正如社会的基础是一套关于预期行为的合约，我们设计人工系统时，也需要尊重和适应社会规范。如果能够创造机器人坦克和其他杀人机器，那就须确保它们的决策过程符合我们的道德判断。

为了理解这些形而上的概念，我找到了塔夫斯大学的丹尼尔·丹尼特（Daniel Dennett），他是一位哲学家和认知科学家，专门研究意识和心灵。在他的新书《From Bacteria to Bach and Back》是一本关于意识的广博论述，其中有一个章节认为的进化本身就是创造一套连创造者也无法理解的系统。

“问题在于，我们拥有哪些条件来聪明地做到这一点——我们要求它们达到什么标准？要求我们自己达到什么标准？”他对我说。

他还针对可解释性的问题提出了警告。

“我认为，如果我们希望使用并依靠这些东西，那就应该尽可能明确地知道它们给出答案的逻辑和原因。”他说。但由于可能并不存在的答案，所以对待人工的解释时，应该像对待其他人类的解释一样保持一份谨慎——无论机器看起来有多么聪明。

“如果机器并不比我们更加擅长解释自己的行为，那就别相信它。”