“清醒”的目标：让计算机视觉呈现在你我身边_【清醒视觉Vision】

“清醒”梦想：让计算机视觉“飞入寻常百姓家”...

点击上"清醒视觉"关注我们

随着关注“清醒视觉”公众号粉丝的增多，A 楠觉得有必要想很多新朋友介绍下我们“清醒”成立的时的服务目标：让美丽的魔法——计算机视觉进入大众生活！
迄今为止，影像是容量最大的信息载体。几千年前，人类发明了文字，记录了语音；二百年前，人类制造了相机，保存了图片；直到最近几十年，人类才发明了动态图片，也就是影像、视频。

但是人类要想完全提取、“读懂” 影像中的信息，不是一件容易事。看电影时，你盯着男女主角谈情说爱，注意到背后的房子是什么颜色了吗？我们总是一心二用，看电视时玩手机又会错过多少信息呢？爆炸的信息以影像的形式被储存时，人类还有能力整理、检索这些信息么？
救世主是时候出场了

计算机视觉要做的很简单，让设备拥有“眼睛”和“大脑”，像人一样看懂世界。眼睛好办，有摄像头，可是机器没有大脑，这就麻烦了。上世纪 60 年代，研究人员就开始尝试给机器装“大脑”。有了计算机越来越强大的运算能力做基础，也可以支撑各种先进的深度学习算法了。

计算机视觉一直是人工智能领域里最活跃的部分，指纹识别、掌纹识别、人脸识别都属于其应用。

在一个网页上上传自己的照片，让电脑判断自己照片中看起来的年龄，这款名叫How-old.net的应用在2015年红爆了社交网络，一时间刷爆了各个社交网络平台，在全球风靡，即使是平常对自己外貌再不关心的人也不介意花上一分钟测测自己照片中显示出来的年纪，虽然结果并没有百分之百的准确，但是科技与诙谐结合带来的新鲜感，让众多网友对这个简单的应用爱不释手，也让不少人对计算机视觉技术产生浓厚的兴趣。

这款应用是微软Build 2015开发者大会的衍生品，据说是两个技能爆表而又闲得无聊的工程师用了两天的时间，基于Azure云里的微软认知服务 Face API 等API识别照片中的人脸和特征，实现了整个应用的功能。

事实上，仅用两天时间开发出来的How-old.net，背后有着微软亚洲研究院数十年研究结果的积累与沉淀。近几十年来，计算机视觉技术从研究领域到工业应用领域，已从最初的冷门发展到今天的炙手可热。在微软亚洲研究院建院之初，计算机视觉应用非常少，很冷门，然而微软亚洲研究院成立的第一个研究小组却是视觉计算组，成了这个计算机视觉领域的先行者。

事实上，仅用两天时间开发出来的How-old.net，背后有着微软亚洲研究院数十年研究结果的积累与沉淀。近几十年来，计算机视觉技术从研究领域到工业应用领域，已从最初的冷门发展到今天的炙手可热。在微软亚洲研究院建院之初，计算机视觉应用非常少，很冷门，然而微软亚洲研究院成立的第一个研究小组却是视觉计算组，成了这个计算机视觉领域的先行者。

从获取图像到读懂图像

计算机视觉是从图像和视频中提出数值或符号信息的计算系统，更形象一点说，计算机视觉是让计算机具备像人类一样的眼睛，看到图像，并理解图像。

在计算机起步阶段，就有人觉得计算机应该具备“眼睛”，能够看能够理解。20世纪50年代末，图像增强第一次应用在对太空和航拍图像进行处理方面，人们开始发现计算机视觉真的可以应用。60年代初，模式识别在计算机视觉领域得到广泛的应用，例如字符识别等应用成了模式识别的经典应用。到了60年代末，有个麻省理工的博士生第一次从图像中提取出三维信息，把一个实体的物体从二维图像中提出来。随后，麻省理工学院在70年代成立了机器视觉的研究组，并且开设了相关的课程。

从70年代到现在，40年间计算机视觉得到迅速地发展，许多计算机视觉的应用出现在了生产生活领域，例如对道路交通等自然场景进行数字化分析、OCR应用在邮局分拣信件以及手写体的支票、人脸识别的门禁……期间，多视图几何和图像分割、视觉跟踪和运动分析、大型图像和数据库等研究对计算机视觉起了很大的推进作用。到了2011年，人们才真正发现计算机视觉的巨大商业价值，这一年以Kinect为代表的3D摄像传感器出现在公众的视野内，人们发现计算机不仅能看见，能够理解动作并实时做出反应。

然而，计算机识别的准确性始终是计算机视觉应用的瓶颈，直至2012年，基于深度学习的图像识别技术出现，极大地提高了计算机视觉的识别精确度。这些算法的可靠性促进了工业界的应用，比如车牌识别、游戏中的动作追踪、疾病监测等。

深度学习变革图像识别领域

在2012年深度学习技术出现后，识别的错误率有了突变性的改变，但是错误率降到一定阶段之后，再降下去就非常困难了。而且，计算机难以跟上环境变化的节奏，一旦光线和角度等环境因素发生变化，就会误识。以人脸为例，最初研究者试图将人脸想象成一个模板，用机器学习的方法掌握模板的规律，然而人脸虽然看起来很固定，但角度、光线、打扮不同，样子就有差别，令模板难以匹配所有人脸。人脸识别的核心问题在于，如何让计算机忽略同一个人的不同时刻的差异，又能发现两个人之间的差别。人工神经网络技术的引进是计算机视觉超越模板识别的关键。

微软获得2015ImageNet大规模视觉挑战赛冠军

2006年，有研究者发现多隐层的人工神经网络一方面具备更优异的特征学习能力，另一方面能通过逐层初始化克服机器学习的训练问题。但是，通常神经网络仅能做两三层，深度越深越不稳定，无法算出结果。2012年多伦多大学的研究者在神经网络研究有了一个新突破，将神经网络做到8层。2014年剑桥大学的研究者把深度升级到19层。2015年，微软亚洲研究院的研究员们基于残差学习，将深度提升到152层，凭借深度神经网络带来的准确识别能力，微软在2015的 ImageNet 大规模视觉挑战赛中以绝对优势获得图像分类、图像定位以及图像检测三个主要项目的冠军。

物体检测的新突破