视觉大数据:“看懂”世界的计算机视觉

 

。...



计算机视觉是一门研究如何使机器"看"的科学,即用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

然而,计算机视觉发展多年,却依然存在着一系列难以解决的难题。尤其是在计算机感知、认知这方面。如何去看懂,是计算机视觉一直以来的难题

当然,难题并非无法突破。4月26日,在千家智客与华南理工大学新闻与传播学院联合策划举办的“大数据与智能品牌用户体验研讨会”上,华南理工大学计算机科学与工程学院的全宇晖教授,给大家分享了他们在视觉大数据处理和表征方面的工作。

大数据 视觉大数据



“近年来大数据的出现,对计算机在‘看懂’这一方面有着很好的催生作用。”作为计算机视觉突破瓶颈的助手,全宇晖教授在介绍视觉大数据之前,也对大数据做了简单的解读。
何为大数据?视觉大数据又是被如何定义的呢?全宇晖教授给出了更加详细的解释:





视觉大数据的“大”最主要是表现在数量方面。据早期不完全统计,如果要将YouTube上面已有的视频全部看完,需要花上98年的时间。并且在实际上,不仅是已有的数量很大大,视频的数量每天都还在暴涨。
除了数量,视觉大数据的“大”同时也体现在尺寸方面,如视频的帧数或图像的分辨率。此外,导致视觉大数据“大”的还有一个不容易察觉的原因,即数据本身通道的维度也在变大。维度,特别是深度的发展可以令我们获取到更多更详尽的信息。





视觉大数据的“数”即数字,表现在我们储存的图像对于计算机来说是数字的矩形排列。一张图像,我们可以很容易地获得其视觉内容。但对于计算机来说,这些图象就只是像素值的排列,是一堆死板的数字。
如何令计算机从这些死板的数字里面读取到有意义的视觉线索,是视觉大数据分析里最核心的问题。





视觉大数据的“据”表现在有了视觉线索之后抽取信息,再根据这些信息进行内容分析及学习,通过学习到的规则来进行理解和决策。比如视频监控或是现今很多公司都关注的无人驾驶,都要依靠视觉大数据的这种分析来提供支撑。

视觉大数据处理和表征工作



那么,了解到什么是视觉大数据之后,它的工作方式又是怎样的呢?全宇晖教授将其归纳为三个方面:视觉数据的分析识别,视觉数据质量的评估以及视觉数据质量的提升。

1


视觉数据分析识别



视觉数据分析识别主要有两种,其一是纹理图像识别,也就是让计算机通过图像中的纹理来分辨物体信息。这种纹理图像识别,是计算机视觉中基础的工作,不仅包括静态纹理图像识别,还包括了动态纹理视频识别。

比如说利用物体做出具有较为强烈周期性的运动时所带来的额外信息,来对视频内容进行识别和分类。
第二种是物体的识别。与纹理图像识别不同的是,物体识别通过形状和轮廓的特征来进行识别。全宇晖教授举例说,有些目标,比如卡通,他们基本上没有什么纹理,但是它的形状是比较明显的。

利用形状特征来进行目标识别,可以提高目前已有的目标识别方法的精度

2


视觉数据质量的评估



视觉数据质量的评估就是力求做到让计算机看到图像之后,对其质量做出的的评分,能与我们人眼识别的评分一致。

3


视觉数据质量提升



如果要识别的目标清晰度受到某些因素的影响,比如户外摄像头遇到下雨,或者拍照出现手抖等,而使得图像质量退化并影响到后续的识别工作。这个时候就可以使用视觉数据来对图像进行质量的提升。
另外,视觉数据质量提升工作还可以找回图片丢失的像素点,轻松去掉照片上的划痕和水印。对于模糊的图片,视觉数据质量提升工作也能很好地将其还原至清晰。

“虽然目前这三个核心工作都是分开来做,但最终的蓝图还是要将三者联动结合,相互提升。”全宇晖教授表示:“而要打通这个三个核心,最关键的就是视觉数据表征工作。
4


为什么要视觉表征?



在演讲中,全宇晖教授给我们举了一个例子:把猫跟狗的图像投影到建立好的二维空间中,投影过去就会变成两类点。同一类点聚集的比较密,而不同类点则分得比较开。这时候,后续的识别工作就会变得非常简单便利。这个投影的过程,就是视觉数据表征
视觉表征工作有两个路线。一是物理驱动方法,通过显著结构分析,利用等数学工具进行建模和算法设计。另一种是数据驱动方法,即直接利用大数据的特点,来分析什么才是好的视觉数据表征。

视觉数据表征过程可以分为三个框架。

一个是局部特征提取,也就是在图像的小块上选特征。局部特征可以选取到物体身上比较显著的区域,比如熊猫身上的黑色区域。有了小块特征之后,就可以进入下一个框架,将之整合成全局的、一副图片对应一种向量的特征。最后,在有了很多幅图片对应的全域特征之后,再利用标签等进行提纯,实现高层特征优化。
在这个框架下,还有各种不同以往的建模和算法相辅相成,如辅助更好识别纹理的分形分析,辅助还原信息的非局部小波框架构造,以及基于稀疏表达的图像局部特征学习的表达工具。

说到大数据,就必须必须有学习的过程。但对于大数据的学习,过程是很漫长的。在视觉大数据处理和表征的工作里,全宇晖教授提到了他们所应用的正交张量字典学习方法。相比传统的学习方法,这种方法的耗时更少。

关于未来



对于视觉大数据处理和表征工作的未来,全宇晖教授表示,希望工作的三个方面之间可以建立一个有机的联动框架,并在框架中融入多元多模态数据,如在视频中融入声音,在图像上添加文本描述;以及利用视觉数据本身不同的尺度进行更好的视觉数据分析,挖掘出更高阶的视觉信息。

End


    关注 千家智客


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册