人工智能宏图的皇冠:图像识别对商业的影响

 

Facebook近期的年度开发者大会上,扎克伯格概括了该公司社交网络的人工智能宏图,即“构建比人类认知能力更好的系统。”然后他展示的图像识别技术令人印象深刻,盲人可以用此技术“看到”图片的内容,并可以大声描述出来。...

人工智能学家
作者:Ken Weiner
 翻译:gabrielle   审校:心
Facebook近期的年度开发者大会上,扎克伯格概括了该公司社交网络的人工智能宏图,即“构建比人类认知能力更好的系统。”然后他展示的图像识别技术令人印象深刻,盲人可以用此技术“看到”图片的内容,并可以大声描述出来。

可帮助视力受损者重见天日的程序,汽车中可检测大型生物的安全功能装置,以及从社交媒体上分享的照片中,就可探测商机的自组织无标签照片收集程序,我们都能从中看到图像识别,或者说计算机视觉技术发挥的作用。它们为人类带来的益处才刚刚开始,人们应用此项技术的频度和深度都在不断加大。

即将到来的LDV视觉峰会已经举办了三年了,热闹非凡。这个年度会议致力于一切视觉科技的事物,包括VR,医疗成像的相机,内容分析等技术。“这些年计算机视觉方面的进展,给图片分析领域创造巨大的机遇。它正在以指数级地速度影响着每个商业垂直领域,包括自动化器械,广告,增强现实等。”LDV Captial的Evan Nisselson说,她也是该峰会的组织者。

越来越多的开源领域,深度学习技术,用户友好型的编程工具,更快更优惠的计算性能,让计算机视觉领域,以及AI的其他技术形式,比如语言处理,生物信息科技,游戏等都受益良多。

许多新闻头条都将深度学习和人工智能描述成下一个大事件,但是,这些不同的工具怎样工作,企业怎样利用它们为世界提供图像技术?谷歌的TensorFlow,Facebook的DeepFace和微软的牛津工程是一样的东西吗?这么说不准确。以下解析简易描绘了当下的信息技术工具,以及企业使用工具的方式。

训练材料:开源数据

因为深度学习技术,机器学习技术可以对人脑进行松散模拟,计算机可以更快地精确识别图片内容——然而这些功能都需要大量数据的支撑。

看下ImageNet和Pascal VOC。这项技术已酝酿多年,大批量的免费数据库中有几百万张图片,图片上有关键词作为标签,描述图片中的内容——比如说猫,山,披萨,运动等所有内容。这些开源数据集是机器学习处理图片的基础(计算机精准识别图片中的猫,唯一方式就是已经分析了几百张有着单词“cat”标签的图片,已经对猫的外貌进行了学习)。

ImageNet最著名的就是年度视觉识别挑战赛。2009年,斯坦福和普林斯顿的计算机科学家用80000张带标签的图片启动了ImageNet。现在,标签图片数量已经达到1400万多张,随时随地为机器学习任务服务。

Pascal VOC受到英国多个大学的支持,所含图片少于ImageNet,然而每张图片的注释更加详实。这点提升了机器学习的精准度和广泛度,对某些应用程序来说,也可以加速整体的处理过程,因为可以省略一些繁琐的计算机子任务。

现在,谷歌,Facebook,一些创业公司,大学中,每个人都在用这些开源图片集训练它们的机器学习产品,然而大公司更有优势,因为它们可以从Google Photos或Facebook等APP中获取无数张用户打过标签的图片。你有没有想过,为什么谷歌和Facebook可以让你免费上载那么多张图片?那是因为,这些图片会被它们用来训练更精准的深度学习网络。

构建模块:开源软件库和框架

一旦你有了数据,就需要构建一个可以从数据中学习的系统了。开源软件库可免费获取,在开始构建服务不同类型的计算机视觉功能时,这些框架可以发挥作用。这些功能包括脸部和情感识别,医疗检查,汽车的大障碍物检测等。然后,ImageNet等软件中的图片,专有图片(也就是说Google Photos)或其他资源的图片(如可检索的匿名医疗记录),将会反馈到这些机器学习系统中。

谷歌的TensorFlow在同类库中比较出色,因为其覆盖面较广,去年部分组件进行了开源。TensorFlow某些组件仍然专属于谷歌,并已被用以研发谷歌的很多AI项目,比如自动化汽车,翻译,Google Now,Google Photos等。

但TensorFlow还不算是第一个或者唯一的一个开源框架。伯克利的CAFFE大约从2009年开始运作,因为其可定制性,和大型的创客社区,而一直受到人们欢迎,而且Pinterest和Yahoo!/Flickr也多次使用CAFFE的产品。谷歌有某些项目也找CAFFE合作,比如DeepDream。

Torch建于2002年,因为2015年早期部分模块开源的Facebook AI Research(FAIR)曾用过其服务,因此Torch在业内也非常流行。一些工具被优化了,能够在一个或多个图片处理器,或计算机上运行,以增强性能,加速深度学习过程。同样地,NVIDIA的cnDNN也是一个开源软件库,用来优化计算机图片处理单元(GPU)的性能,以加速机器学习。

这些工具虽然灵活且强大,但仍需要计算机视觉工程师团队的操作,硬件的配合,企业想将计算机视觉作为产品战略的重要组成部分的话,他们就需要这些软件。

可以携带:托管API

不是每个公司都有资源,或者可以对此投资,来组建一个计算机视觉工程师团队。就算你的团队找到了,还是要做大量其他的工作,而这就需要托管API服务。相关解决方案在云中进行,可以提供图像识别服务菜单,这些服务可以很容易地集成在现有app上,也可以用来构建特定功能,或者整个程序。

比如旅行频道需要在网页上为特定路标展示相关图片,那么就需要“路标检测功能”,或者eHarmon想要过滤客户上传的“不安全的资料图片”。这些公司都不想研发深度学习图像识别技术,但仍然可以利用这些技术而受益。

比如Google Cloud Vision提供一系列图像检测服务,从脸部识别,光学字符识别,路标和明确内容识别等,按照片数量收费。Microsoft Cognitive Services(牛津工程)提供一系列事件图像识别API,包括情感,名人,脸部识别等,然后基于千次处理量收费。同时,Clarifal等创业公司也提供计算机视觉API,帮助企业组织内容,过滤不安全的用户合成图片或视频,基于观察图片进行购物推荐等。

用户计算机视觉技术

当然,计算机视觉工程师团队不需要都像谷歌那些巨头那么大,而不想构建自己的AI系统的大小企业也会想要强劲的科技图像识别技术解决方案。如果一个美容或化妆品公司想要找到头发稠密的人的图片,放到洗发露广告上,还是需要有人创建一个定制的算法,找到稠密头发的照片,因为这个功能不是所提供的商业化解决方案可以立即就有的。

Logo,汽车品牌,模型等也是一样。这些东西在开源领域中还属于未被大量涉及的领域。如果不能提供封闭数据集,也没关系,因为社交媒体上分享了很多图片,可以公开使用,如此多的图片可以更好地训练机器学习产品。

对一些公司来说,如果计算机视觉不是他们全部业务的重中之重,如果他们有工程师团队,或者只是用托管API,就可以结合开放数据和开源框架来为他们提供计算机视觉的研发服务。

对于有着很多特定需求的企业来说,可以用定制的解决方案。图像识别功能不是单独存在的功能,如果可以提供更多图片和实时大数据,可以使用特定应用,处理速度更快,图像识别功能会更强大。能够在多方面性能做到极致的企业,才会有最强大的图像识别功能。
人工智能学家    Aitists

人工智能学家是权威的前沿科技媒体和研究机构,2016年2月成立人工智能与互联网进化实验室(AIE Lab),重点研究互联网,人工智能,脑科学,虚拟现实,机器人,移动互联网等领域的未来发展趋势和重大科学问题。


长按上方二维码关注微信号 Aitists

投稿邮箱:post@aitists.com


    关注 人工智能学家


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册