微软芮勇:计算机视觉已经过图灵测试但路还很长

-作者：曾铮 -

2016-08-13

网易科技讯 8月13日音讯，由中国计算机学会（CCF）主办、雷锋网承办的全球人工智能与机器人峰会（GAIR）在深圳召开，在峰会现场，微软研讨院芮勇宣布了名为《计算机视觉：从感知到认知的长征》主题演讲。

芮勇在演讲中表示：计算机视觉是人工智能中十分重要的一个方向，在过来50多年间，计算机视觉经过了对图片的摄取、处置、辨认和了解的进程。

首先是特征提取，关于图像中的像素停止重要性差异提取，然后再对重要的元素停止标注，经过标志成为计算机可以辨认的符号，让计算机可以了解图片的内容，生成一句话对图片停止描绘。这是目前微软研讨院可以做到的，并且成功经过图灵测试。

他引见称，深度学习彻底改动了图像辨认范畴，将来计算机视觉还能完成图片更高层次的辨认，甚至到达视频辨认，关于输入方面，不只可以输入一句话，还能经过给AI发送图片停止聊天，计算机自动辨认图片，并对图片发送者停止逻辑对话。

最初，芮勇称让计算机视觉识图还有很长一段路要走，但随着从感知到认知的技术开展，给计算机一幅图片，让它给你一个故事是可以完成的。（Sherwood）

以下是芮勇的演讲实录：

十分快乐下午有这个时机跟大家聊聊计算机视觉，我的标题叫《计算机视觉从感知到认知的长征》。

我想回忆一下计算机视觉过来50年的开展。往年的2016年也是人工智能这个词被发明出来的第60年，之前其实没有这么一个词，60年中国人叫一个轮回，轮回总是会有大的飞跃，我们看看2016年人工智能有什么大的飞跃？

人工智能从最开端有很多的范畴，我自己花的工夫最多的是计算机视觉，人有各种感官，但人70%的信息是靠人的眼睛来看到的，计算机视觉也是人工智能当中一个十分重要的方向。

最早大家说能不能可以让计算机可以看到，像人类的眼睛可以看到一样。过来的50年的开展，我们可以看到，是从社群四处理到Recognition到了解，就像我们画一幅画一样，从最早的线条，到一定的灰度，到最初的全黑色的，这50年都做了些什么事情？我们可以看一看，我想用这张图片跟大家分享一下。

人看一张图片觉得很复杂，我一看觉得这是一团体、这是一张桌子、椅子，人一下就了解了，计算机看到的很难，由于计算机看到的就两个东西，不是0就是1，让计算机看到图片里包括什么内容十分困难。这50年走过了很多路，从最早的特征提取，比方说这么一幅图，它的特征有线条、有转角，有颜色，之后第二步比这个更行进，叫标注。这幅图比方说是一个户外的场景，外面有人物，比这个更行进一步，叫Annotation。比这个再往前走一步，我们对图片的了解就是Captioning，我假如把这个图片给计算机去看，它能不能生成一段我们人类看得懂听得懂的文字，比方乔治和他的父亲在迪士尼乐园在玩一个游戏，这么一句话，这就更难了。比这个再难一点，我给计算机这个图片，我问计算机几个成绩，比方说这个图片外面坐在后面那团体穿什么颜色的衣服？计算机这时分要晓得什么是人，衣服在哪里，它要答复是白色的衣服，这就更难了。比这个再难一些的就是我们小时分都上过课，叫做看图认字，看图说话，计算机看到一幅图之后，能不能生成一个故事，这就是这50年我们大家孜孜不倦想做的事情。

我们来回忆一下这50年是怎样走的，第一步是特征提取，计算机看到的除了0就是1，当然有些像素愈加重要，哪些象素作为提取这很重要，比方这张图，每一个像素的重要性是不一样的，画圈的中央是我们想把它作为特征的一些中央。再往下看，第二步我们想给一个图片停止标注，停止标注的话，我们就想晓得，比方说图片外面有两团体，他们是在户外的活动，这件事情怎样做？我们来看一下是怎样做的。

这个就是很重要的一个局部，有三个局部，第一个局部是图片的分类，这个时分我们答复的是什么成绩呢？这张图片外面是不是含有一只小狗。第二个就更难一点，计算机还要通知这个小狗在什么地位，把它框出来。第三个更难，每一个象素能不能通知我这个像素是属于这个小狗身上的像素还是电视机上的像素？一个比一个难。过来的这十年，还有很大很大的开展，我们来看。

第一步，图象分类，图象分类在计算机视觉里有一个全球性的竞赛，叫ImageNet，外面有120万个训练样本，有10万测试图像，1000个类别，你让计算机看没有见过的图片，帮你分出来这是1000类里的哪一类。

2012年之前，深度学习没有引入计算机视觉之前，大家看看错误率，靠左边的是2010年的错误率28.2%。2012年的时分，深度学习第一次被用在图象辨认，错误率一下降到16.4%，每年的错误率越来越低。2014年有个斯坦福的博士想应战一下。我假如通知你一千类里有两百来种狗的不同类型你就晓得有多难了，我只看法四五种狗，但要做到上百种狗都能对，十分困难。斯坦福博士关在屋子里训练了几个月，他的错误率是5.1%，去年降到了3.5%，第一次超越了人类的错误率。

2012年深度学习第一次引入计算机视觉，事先有八层，它的错误率降低。再往下走，2014年到了19层，错误率持续降低，到2015年，我研讨院的同事做出了152层的极深网络。大家觉得往下做没什么了不起，其实想做得深很难，在2015年以前，全球没有几个团队能做到超越20层，由于是训练不下去的，所以这是一个十分好的任务。用神经网络，不只是每一层延到下一层，有的之间还可以转跳。

这是图片的分类，处理的成绩是图片外面是不是有只小狗。更难的是这只小狗在什么中央，物体的检测。七八年以前，全球能做到最好的水平也就是这样，明天经过深度学习的方式曾经可以做到这样的程度。你看最右边的女士她只是把胳膊肘显露一点，腿显露一点。再往下看，这个大公共汽车前面的司机我们解释说这是一团体，如今曾经到达这样的程度，跟人类的视觉程度曾经不相上下。

比物体检测愈加难的是在图片的每一个像素，像素是属于小狗还是属于屏幕？我们可以看一看明天用深度学习的方式，也曾经可以把像素级的图像联系做到这样的程度。

（视觉）

芮勇：大家可以想一想，假如能做到这样的程度，今后无论是无人机还是无人驾驶，很多使用都可以做了。

这是我方才提到的第一个成绩，就是对物体的辨认，比这个更难的是我们是不是了解了，计算机是不是了解了某一个图片。我们看一看。Beyond远远超越了计算机视觉。假如只是用最近的方式去做搜索，其实它并没有了解，比方说你的一个输出是靠右边这团体，它就把左边这几个从搜索引擎前往，这个并不是了解，这还算不上了解。真正的了解是什么呢？我给计算机看到有这么一幅图片，它能生成一句话，说本和他的爸爸在迪士尼乐园玩。

我假如让计算机看这么一幅图，上面我想跟大家做一个小的互动，在这个详细的成绩上，我们能不能超越图灵测试，有两句话：第一句话叫做一团体在网球场上手拿着一个网球拍，测试大家的英文是不是还记得。第二句话：有一团体在网球场上打一场竞赛。大家觉得这两句话哪一个是人写出来的？哪一个是机器写出来的。

（举手）

勇：根本上50%50%，我们看看哪个是人写的哪个是机器写的。下面的是机器写的，假如在座的诸位是50%的话，曾经可以经过图灵测试了。

我们再试一题，下面停了一辆自行车，有两句话，一句话是小河边停了一辆自行车，第二句话是水体旁边有一辆自行车停在。哪句是计算机写的？

（举手）

芮勇：如今大不局部人以为上面一句话是计算机写的。我们来看看，上面是人写的。我们又一次经过了图灵测试。

这是给计算机看一个图片，它生成的这么一句话，比那更难一点的是前一阵奥巴马一家带着小孩来拜访，我们假如让计算机看到这么一幅图片，它假如只是通知我有几团体在拍照也没意思，它假如有本领通知我说，Sasha奥巴马、米歇尔奥巴马，彭丽媛，我们大约前50万名人都能认出来是谁，并且我们生成了一句话说，这几团体在故宫后面拍照，曾经可以到达这样的程度。

再往下看，详细算法能够没有那么多工夫去讲。但根本上是从名人到详细的物体，经过各种深度学习的方式能生成出这么一个自然言语的话。

我们再往下看，这就是整个的流程，算法等等就不必花工夫去看了。曾经可以让计算机看到一个图片，讲出一句还挺像样的话，上面还可以往哪里走，我觉得至多四个方向可以走。第一个方向是说在语义的层面上，Go higher，我们能不能想到一些没讲出来，但它能推理出来的意思。第二个我们给它看一段视频是不是也能讲出一段话，Go longer。第三个是它能跟我聊天。第四个我可以问他详细成绩，他能答复。

第一个，Go higher，假如我给计算机看这么一幅图片，明天能做到的程度就是这样，有一群象，后面有一团体，这是我们之前可以做到的程度。明天可以做到的程度，由于有实体，我们可以说一群象在奥巴马的旁边，由于我们可以辨认出这团体是奥巴马。我们希望做到什么程度？它引申的一些含义，我们人来看到这个可以想到很多引申含义，往年正好是美国总统大选年，民主党是驴，奥巴马是民主党，共和党是象，它的意思是说奥巴马被共和党的一些竞选者在追逐，我们今后假如能生成这样一句话，我们对图片的了解真是到了一种认知的程度，但还没有做到。

第二个，Go longer，我们给它看视频，它也能生成一句话，当然这外面有很多的算法，详细算法我就不逐个引见，根本上是用一个深度学习的网络，然后目的函数外面由两种叠加在一同的新的程度。

这是我提的两个方向，第一个把它的隐身含义讲出来，第二个是把视频也可以用文字的方式表达出来。第三个我想提的是，比方说我们明天跟小冰聊天，我们敲一段文字，它也能回一段文字，我们给它上传一张图片，它是不是也能跟我们聊呢？明天它也能了。它明天可以做到的程度是，假如我上传了一张图片，它会说小眼神太犀利了，这就像人在聊天一样，曾经可以做到这样的程度。比方说你想秀秀六块腹肌，它会跟你说大叔真牛。不只仅是文字的聊天，图片也可以聊天，这都是得益于我们对计算机视觉技术的开展和深度学习的开展。

第四个方向，略微花多点工夫讲讲，我觉得这是很有意思的方向，不只对科研、产业界来说都很有意思。叫做Visual Question Answering，我问计算机一个成绩，什么东西在自行车筐里？我们希望它的答案是说狗，但是想做到这一点很难，你首先晓得自行车在哪儿，筐在哪儿，筐里有什么东西，都不容易，但明天我们有技术，可以把这个做到。怎样做到呢？我略微提一下这个算法。

四个局部，两个输出，第一个是你问的成绩是什么，你问的成绩是说自行车的筐外面是什么，这是一句话，这是第一步。第二步是你同时还给计算机看一个图片，有个Image model，我们用深度学习的方式把两种不同的形式做两次之后，就晓得和这个成绩最有关的局部就在亮的这个局部，这就是和成绩发作关系的中央。假如晓得这个区域和这个成绩发作关系就有很大的能够性晓得答案。

还有更多的几个例子要跟大家分享，比方我们让计算机看这幅图片，问：在一片空阔的海滩上，两个蓝色的椅子两头那是什么物体？这是它答案的进程，第二层聚焦到伞，一把太阳伞。还有更多的例子，在一片泥泞的土路上，什么东西在拖着马车？答案是马在拖着马车。左边那个，筐的颜色是什么？答案是白色的。右下角这个女士戴着两只白色牛的角，答案是说白色的，它晓得牛角的颜色是白色的。这些都是我们明天经过计算机视觉的方式到达成绩的答复程度。

方才回忆过来50年计算机视觉开展的历程，从最早的特征提取，有直线转角，直到说这是一个户外的场景，场景外面有人，到说这个图片外面这团体的名字是什么，到生成一句话来描绘这个图片，到最初我方才提到的Visual QA，还有很长的路要走，就是我们看到图能讲出一个故事来，这是我们今后要做的事情。

我明天的标题叫《计算机视觉从感知到认知的长征》，长征大家也晓得，最早是从江西的瑞金开端长征的，很具有里程碑的事情就是遵义会议，最初很成功的走到陕甘边区，明天的计算机视觉也是一个长征，但还没有抵达陕甘边区，明天2016年我们获得了很大的成就，很像遵义会议获得的成就，但今后还有很长的路要走，这就是长征的一局部，怎样样最初抵达陕北，至多三个方向可以想。第一个是计算机学习算法的自身。明天“深度学习”这个词很热。明天由于有了好的算法，深度学习算得很成功。

第一块很重要的能让我们抵达陕北的就是计算机学习算法。第二个就是我们需求一些计算机的迷信家，我们也需求和一些垂直行业的冤家们一同来做这件事情，比方我们是和做金融的冤家们，就像上午杨强讲的，我们能预测股票市场。我们假如和懂医疗的冤家来做，可不可以做出更精准的医疗，假如和植物所的冤家来做这件事情，是不是可以做出一个用手机拍照恣意的花，或许一个树，我就晓得这个花叫什么名字，树叫什么名字，最早从哪里来？等等。我想说这个的目的就是除了机器学习的专家之外，还要和很多垂直行业范畴的专家一同协作这件事情。

第三个，右下角这个圈我觉得也一样重要，我们需求高质量的数据，这三点假如我们都能做到了，机器学习算法自身的提高，我们和行业的专家们的协作和更多的数据的获取，我们就能从瑞金经过遵义抵达陕北。

谢谢大家！

来源：飞机E族，原载地址：http://www.feijizu.com/news/20160813/4165.html欢迎分享本文！