深醒首席科学家张钹院士深度学习优势与短板中国机遇和挑战

前言

在首届世界智能大会上，深醒科技首席科学家、中国科学院院士张钹发表了题为《基于大数据的人工智能》演讲，分享了中美人工智能差异、深度学习成功的三大法宝、隐患与短板以及中国如何实现人工智能基础研究赶超欧美等话题的见解。

张钹院士简介

清华大学计算机系教授，中国科学院院士，深醒科技首席科学家。1958 年毕业于清华大学自动控制系，2011 年汉堡大学授予自然科学荣誉博士。曾任清华大学学位委员会副主任，参与创建智能技术与系统国家重点实验室。现任微软亚洲研究院技术顾问。参与人工智能、人工神经网络、机器学习等理论研究，将这些理论应用于模式识别、知识工程与机器人等技术研究。曾获国家教委高等学校出版社颁发的优秀学术专著特等奖、 ICL 欧洲人工智能奖等。

人工智能基础研究中美相差甚远

如今，人们经常会向研究人工智能的人提出问题：和国际先进水平相比，中国的人工智能处于什么位置？ 不少人给出的答案：和世界人工智能差距不是很大，这几年，中国在学术研究方面也取得了很多进展，在重要的国际会议、重要的期刊杂志上，中国的（论文）文章也占了相当的比重。中国有数量庞大的网民，在网络数据上占有相当优势的地位，而且中国市场有如此大的需求，所以最后的结论是：中国赶上和超过世界人工智能的最高水平，必须也是可以做到的。

这个答案对不对？今天的报告就是要回答这个问题，我的回答是“不完全对”。 首先，中国的人工智能，研究、开发、产业水平，跟世界相差不大，这句话不完全（对），在基础、算法的研究上，中国和世界（顶尖）水平还相差甚远，这个是不争的事实。人工智能在1956年（诞生）成立的时候，是美国人建立的学科，这61年中，一直是美国在引领人工智能领域的发展。这个当然是成为过去了，问题是，现在还是美国和加拿大等北美的国家在引领这个领域的发展，他们在不断的创新，如果我们不重视（基础/算法理论研究），不在这些领域赶上他们，会非常制约中国的创新能力，特别是原始创新的能力。如果这点不重视，不抓紧，要赶上或超过世界的先进水平是有困难的。

深度学习拓展了AI的技术边界

我的报告题目是《基于大数据的人工智能》，主要是谈人工智能和大数据，我用它作为例子分析一下，中国在人工智能领域如何赶上和超过世界的先进水平。

首先认识一下基于大****数据的深度学习。 深度学习的提出，在人工智能领域中是一个重大突破。以往，人工智能只能用来解决人们对它非常了解，而且能够清楚的将它表达出来的问题，例如医疗诊断，人们大体上能够说清楚一个症状是由什么疾病引起的；例如下象棋，每下一步都能够说明它的理由，等等。但这些（问题领域）非常有限，深度学习拓展了人工智能所能解决问题的边界。

其次，深度学习具有一定的通用性。 比如，人们（用深度学习）做图像识别，不一定要具备非常丰富、专业的图像知识，外行也能做。即使你不是这个领域的专家，也能把深度学习应用到这个领域。所以，深度学习是一种大众化的工具，它把解决问题的领域大大延展了。而且，这个领域即便没有很深度的了解，但是只要拥有充分的数据就能够做（研究）。

正因为如此，对大众而言，这些奇迹引发人们认识到了深度学习的威力。第一，就是在图像识别领域，在某一个图像库里，机器识别准确度略微超过人类，或者机器的误识率低于人类，（展示）这是微软做的工作；百度做的工作是在语音识别（展示），识别错误率略低于人类，在两个领域的识别上机器都超过了人类。

其中，震动最大的还是AlphaGo，为什么会引发大家的震动。机器超过人，在数字计算方面早就已经实现，人们一点不感觉惊讶，因为计算机的本行就是计算，所以在数字计算上超过人类，大家并不觉得奇怪。

现在，在语音、图像识别、下围棋方面，以往都被认为是人类最擅长的，居然也被机器超越了，所以人们觉得惊讶、震动。

深度学习成功的三大法宝

现在要分析两个问题： 一个问题是这些奇迹会不会在今后不断的发生，大家都希望把深度学习的方法用到其他领域可能会产生新的奇迹，这些奇迹会不会发生，在什么样的情况下会发生；第二，如何推动深度学习继续向前发展。

首先，要分析一下，这些奇迹来自何处？为什么机器下围棋能超过人类，为什么在图像识别的某些方面会超过人类，成功的因素是什么？我认为有三大法宝：头一个是数据，第二个是计算资源，第三个是算法。这就是深度学习成功的三大法宝。大家对于前面两个方面比较注意、有体会，很多人还没有体会到算法的重要性。我这里继续用AlphaGo作为例子，具体谈谈它怎么来使用这三个法宝。

AlphaGo战胜人类棋手，跟象棋（人机大战）完全不一样。象棋程序是怎么做的呢，就是把象棋大师的下棋经验编成程序放在机器里，所以做象棋程序的人相当一部分是象棋大师，而且请了好多的象棋大师帮忙，深蓝打败了卡斯帕罗夫，其实不是机器打败的卡斯帕罗夫，而是大师的群体打败了他，也就是说人们利用机器把一群大师群体的智慧和经验总结起来，才打败了个别的大师。但是围棋不同，围棋（程序）里，懂围棋的很少，最高的是围棋业余五段，做出来的东西居然能打败世界冠军，靠的是什么？靠的就是刚才说的三大法宝。

机器用了两个多星期的时间，学了7千万局棋局，这7千万局棋局就是历史以来大师们下过的所有棋局。（机器）自己又跟自己下，跟李世石下之前也下了千万局的棋局。也就是说比所有的棋手多下了几千万局的棋，最后的结果是4比1战胜（李世石）。最好的棋手一生中所下的棋局是百万级，而AlphaGo下过的棋局是几十亿级的，这两项数据非常不对称，（人类）绝对是输的。这里可以看到，一个是数据的力量，第二个是计算资源的力量，大家没有看到背后算法的力量。但AlphaGo能够在两三周里学到几千万个棋局，靠的是什么，其实是靠学习算法，它自己能自己下棋，靠的是什么，靠的是强化学习算法，没有这些，它是做不到的。

满足四个条件机器才能超过人类

是不是所有问题，只要有数据，就能够做到这么好呢？不是！这要受四个条件限制： 头一个条件当然是需要有大量的数据，第二个是完全信息，第三个是确定性，第四个是单领域和单任务。只有这四个限定条件达成后才有可能做到刚才说的，达到或者超过人类的水平。有很多问题（同时）符合这些条件，比如说医疗数据，可以做大数据处理，像某些疾病的医疗诊断，医疗图像的识别，医学图像识别等等，只要（问题领域）符合这四个条件，都可以做，而且经过努力，依靠那三大法宝是可以达到或者超过人类的水平。但是，大量的工作并不符合以上四个条件，不符合中间一条两条或者四条都不符合，如果一旦不符合这四个条件中的任何一个，现在的人工智能技术就有困难。

所以，现在的问题是下一步怎么办。单业务的问题，单领域的问题，下围棋的程序只能下围棋，不能下象棋。但是人类很多棋手象棋和围棋都下的很好，语音识别系统只能识别语音，不能识别文字，这些多任务问题怎么解决？不久前，Google发表了一篇文章，文章的题目也很震动人，一个模型可以学所有的任务，当然这里面有夸大说法（的成分）。

但是，这也就意味着在一个网络里，一个模型里可以学多项任务，它一共学了八项，这八项任务中有五项是属于机器翻译的，有英文翻译成法文，英文翻译成德文，法文翻译成德文等等，有图像识别，图像解释等等，一共八项任务在一个网络下学习。如果这个问题解决了，就能让计算机解决更复杂的问题，因为这不仅涉及到一个领域，还涉及到另外的领域。当然这是个初步工作，但是它有个非常好的苗头。

对此，以往大家是困惑的，语音也在里面学，文字也在里面学，图像也在里面学，会不会互相干扰呢？过去我们怕装不同东西的时候它会乱了，会互相干扰，但Google得出来的结论，不仅不会互相干扰，在一定程度上还略微有帮助。这个帮助领域可能很广，语音的东西帮助机器翻译，机器翻译会帮助图像，这是个非常重大的成果。这就说明人大脑里可以做很多事情，它们互不干扰而且能够互补。（北美）还在引领这些发展，如果中国只低头用深度学习去解决（应用）问题，这个确实需要，但是如果不去研究一个目的背后需要解决的问题，中国要达到引领是不可能的。

目前看，相当一部分问题不符合刚才讲的四个条件。 简单举一个例子就是无人驾驶车。无人驾驶车到现在为止，在特定的条件下可以用它，如果在交通非常繁忙的地方，美国、德国都规定这个时候司机不能下车，无人车上都必须得有司机。为什么会有这个规定呢？这不是坐无人车的人的责任，这是人工智能的问题。

因为这是在一个开放的环境下，大数据解决不了它，大家不要认为大数据可以解决一切。同样，自然语言理解，大数据也不能解决，它是一个开放的领域，因为人类说话的时候各个领域的话都可以说。简单解释下，为什么在复杂的交通环境里司机不能下车，原因很简单，大家看一下这个路况（展示复杂路况图），计算机能搞明白吗，中国式的过马路计算机能搞明白吗，美国式的过马路计算机就能用吗？也不能用，因为突发的事件，新的场景，新的路况是层出不穷的，你不可能把它所有情况都算到。

但是人为什么可以呢，机器为什么不可以呢？理由非常简单，就是人工智能现在做不到举一反三，人工智能现在学习的是举一百反一。 它要训练几千万上亿的样本，你的测试新的样本只有几万，现在多的有几十万，它是学过才能够识别，没学过的识别不了，也就是所谓的举一反三能力，用专业话讲就是推广能力，这是怪人工智能，不怪坐车的人。

所以，这里面有大量的研究工作要做，美国人也在引领这些研究，我们如果不去关心，那么问题就会很大。 我们要解决小样本甚至零样本学习的问题，小样本学习就是用很少的样本学习和训练，然后就可以推广到应用。比如小孩学习一个马或者牛的概念，只要看一下马或牛，甚至看一下马的图片就能认识真正的马，计算机不行，得把所有情况所有背景下的马都得让它看，要看成千上万个它才能识别。

第二，样本少了怎么办？现在有自动产生样本，这点也是美国人提出的方案。两个对抗的深度网络就可以产生各种各样的样本。包括，现在可以逐步地（自动）产生非常复杂的环境和路况，这就可以解决样本不足的问题。因为有大量的问题根本没法取样本。

深度学习并非万能

回头看，深度学习也不是非常完美的。 很多人以为用深度学习去做产业或者应用是不会有问题的，但是这里要强调，深度学习有大量的隐患，这些隐患在很多应用场合下是绝对不允许的。首先，它需要大量的样本，有些问题很难获取很多样本，比如特殊疾病，罕见疾病，根本没有那么多样本。当然推广能力差已经说过了。给它什么（数据训练），它就只能学到这个，最重要的是，不可理解性，现在看到深度学习建立的系统，实际上跟人的思路很不一样。

因此，这句话说它（机器）的识别能力超过了人，这只是在非常特定的环境下这么说，其实很多方面它不如人。比如它识别率比人高，只是说它区别马和牛能力比人高，就是在一定的数据库下它识别能力比人高，但是它根本上不认识马和牛，所以这个不理解性问题很大。将来如果做一个人机系统，决策系统的话，机器做出来的决策人都不知道它怎么做出来的，那怎么用呢？

我们看一下为什么机器学习的效率这么低，还要使用那么多样本，比如用这张图告诉（机器）说这里有一只猫，这个猫在这里面信息流占了多少比重呢？我们有计算过是1.1%，也就是说提供的这个样本只有1%左右有用，99%没有用，因为提供这个照片告诉它这里是一只猫，计算机根本不知道猫在哪儿，所以这就迫使人们必须用大量的样本，告诉它这是猫，在草地的猫，在另外的背景里猫会变成这样，要用各式各样的样本在不同背景下的猫去训练它，它才能认识，只有跟它相近的背景、相近的角度拍下的猫它才认识，如果背景变了，猫拍摄的角度变了它也不认识了，所以这是它的一个根本性的问题，它不理解，但人是看了这个猫就理解这个猫。

第二，鲁棒性差，左边这个图这个猫是熊猫，中间这个图我们加了一点线可它还是熊猫啊，可是计算机把它判断成长臂猿了，这就叫鲁棒性，很容易错，因为它本质上不认识猫。虽然做出来的表面上看起来性能跟人一样，实质上跟人是非常不一样的，所以我们说的能超过人都是在特定意义上说的。

机器把这个环境的猫都学了，我们来了一个新样本也是猫，环境跟它完全不一样，它不认识了，这就叫推广能力，它无法举一反三，至于刚开始说的无人车问题，训练的时候可以这样过马路，换成另外一种形式过马路，你没教它它就不知道怎么弄了。比如说，对人来讲马上能区分出来，一个男的一个女的肯定不是一个人，但是机器里绝对把他看成一个人，因为从各种特征来看很多是一样的，因为它不认识什么是男什么是女，所以，机器做的事和人是不一样的。

所以，现在实际要解决的问题就是人和机器能够合作的问题。 大家都在强调，今后的方向肯定是人和机器合作，要各发挥所长，这里面有一个问题就是机器如何理解人，人如何理解机器。过去的重点是放在机器如何理解人上面，比如说人类的语音命令，用自然语言发的命令它能够听懂，这是所谓自然语言对话。

其实忽视了一个非常重要的另外一个点就是人如何理解机器， 这是由深度学习引起的，因为深度学习出来以后，它做出来的事情人非常不理解，这就给人机共同合作带来了巨大的困难，所以现在很

文章目录

深醒首席科学家张钹院士深度学习优势与短板中国机遇和挑战

See Also

最近文章

福利派送

分类

标签

友情链接

其它