研究问题视觉

【022】CVPR2016论文完成感悟 Vol-4

今天主要来说说我在去年完成CVPR2016论文的一些感受与认识（CVPR是国际计算机视觉与模式识别会议的简写，会议的主要内容是计算机视觉与模式识别技术。CVPR是计算机视觉领域三大国际顶会之一，另外两个是ICCV和ECCV）。...

今天要说的是CVPR2016论文完成感悟的最后一个模块，有关研究方向的一些感悟。其实这一块是我最难下笔的，主要有两点原因：(1)每个人对研究方向的问题都会有不同的看法，这和每个人的研究领域、科研环境、自身情况都有密切的关系。所以这里仅仅说说我个人的看法，也接受各位的批评指正。(2)每个科研人员对自己未来的研究方向应该是动态调整的，是伴随着自身的发展而不断变化的。我今天的理解并不代表我一年之后的观点。所以在这里记录，也是为了将来能够更好地回忆自己的学术经历吧。

我先从前几日在分答上回答的一个问题开始吧。提问的小伙伴大概说了下他现在的研究内容，然后告诉我，他不知道自己应该从什么角度和方向上进行创新，想听听我的意见和建议。我并没有给出了一个明确的建议，因为具体的研究方向受到个人的能力，导师的约束，项目的要求等多个方面的制约，并不是简单说说就能去实施的。但是我给出了我现阶段对研究方向上的整体理解。

就研究方向而言，尤其是对于计算机视觉这样的问题驱动的应用研究领域，我认为基本可以分成三个层次。首先是问题层面的创新，也就是提出新的应用问题，并给出一个基本可行的解决思路。问题驱动的模式（这里的问题特指应用问题），是一个相对成熟的研究领域中，最重要的研究模式之一。这种研究模式和理论阶段的研究模式是存在明显差别的。就拿人工智能领域来说，上世纪50年代，最先对这个领域进行研究的是以图灵、麦卡锡、明斯基等为代表的数学家，他们更多解决的是“人工智能是什么？”，“人工智能应该有怎样的形态？”这样的基础性、理论性问题。而现在大家看看每年CVPR，ICCV上面的论文，能够去做大会报告的基本是提出新颖应用问题的文章。这些文章普遍具有一种引领性的思维，是去讨论“人工智能现有技术可以给我们的生产生活带来怎样的改变？”，诸如此类的问题。

其次是框架层面的创新，也就是运用一套新的理论框架，去解决领域内较为传统的问题。类似的研究往往能带来效果的巨大提升。但是如何寻找老问题与新框架之间的有效契合点往往是这类研究的关键。比如说利用稀疏编码和空间金字塔模型共同去解决较为高层的视觉分类问题，在2009年左右就是一个很大的框架上的颠覆。近几年，深度学习技术又带来了新一轮的颠覆。这种数据驱动的学习框架在2012年的时候把1000类物体的分类正确率提升到了85%以上，较2011年增长了近十个百分点。

最后就是利用具体框架，在具体问题上进行的方法层面的微创新。这个层面的创新基本大家每天都在做。举两个例子，(1)把框架中不同部分替换一下，看看整体效果有没有提升；(2)在研究中发现数据是有偏的，这样会对最终的模型造成比较大的影响，所以就设计一些技术手段让，防止学习过程中的数据有偏。对于这类创新，只要你的洞见是合理的，并设计了有效的方案去弥补现有框架的不足，多数情况下还是会被评审接受的。这类研究还是有其自身价值的，至少从技术积累的层面，它能够告诉我们哪些模块的添加会对问题的解决起到效果。唯有这样工作的不断涌现，才能真正推动一项技术从实验室走向我们的生活。

其实每一个层次上的创新所需要的能力是不同的。就问题层面的创新而言，首先是要有较为丰富的视野和想象力，敢于并且善于提出较为“疯狂的构想”。其次是要能够有效地把握科技发展的脉搏，在恰当的时机提出恰当的“引领性”的工作。最后是要对技术本身有较为深入的理解，这一点是能够提出有效解决思路的必备条件。

在计算机视觉领域我还是很佩服斯坦福大学的Li Feifei教授的研究组，他们组的工作似乎总是能够满足以上三点。以至于在计算机视觉大会上看到他们组的报告已经不足为奇了。例如，在2015年的时候Feifei组提出了用CNN和RNN对图像和自然语言联合学习。当时在我看来，这个想法是很“疯狂的”。如果换做我，我是不敢去选择这样做的。因为我的眼界还集中在计算机视觉的小圈子里，根本预见不到智能大融合时代的到来。再者，就算很多组想做，也未必有较为完善的技术积累，毕竟自然语言处理和计算机视觉所涉及的技术面都是很广的。最后，难道除了Feifei组，就没人研究过类似的问题？当然有！有部分类似工作早在十年前就被提出来了。但是由于当时技术手段与数据量本身的限制，并没有引发持续性的关注。从这个角度看，Feifei组的工作出现的确实恰到好处，对后续工作的影响也将更加深远。

就框架层面的创新和方法层面的微创新而言。其实更多考验的是我们对问题的理解程度，还有对技术本身的熟悉程度。对问题的理解可以更好的帮我们发现现有技术的不足。做好这一点其实也不容易，需要有对事物本质的探求精神，同时也要有对问题细节孜孜不倦的追求。对于前者，我经常可以看到有些前辈会去读以前经典的、探讨视觉本质问题的文章。对于后者，有些同门则是不放过每一张效果不好的图片，认真剖析它们的问题所在。

最后，对于“应该怎么做”这个问题，我来说说自己的看法：

方法很简单，认真去做框架创新与方法微创新的工作，同时不断去训练自己问题创新上的能力。

我觉得上述的过程还是很适合自身缺乏必要学术训练的小伙伴的（我本科升研究生的时候也是这种类型）。我们必要明确一点，学术研究本身是一项工作，研究人员本身是一个职业。只要是职业，首先需要培养起来的应该是基本的职业技能。

对于问题创新的研究，技术实现很可能需要有不同背景知识的人配合，论文撰写也通常是由导师亲自操刀。因而说刚开始学术研究的同学参与这类工作，在技能的训练上，可能并没有什么机会。所以踏实做框架创新与方法微创新的工作，对熟悉整个研究过程，锻炼相应研究技能是很有帮助的。

再者，对于很多研究组来说，并不是每个工作都是问题层面创新的大工作。而自身职业技能的训练是需要有频度和强度的。如果只跟大工作的话，很有可能最终视野得到了提升，但是科研基本功并不是很扎实。

当然，在研究过程中，也要适当训练自己问题创新的能力。多提一些“疯狂”的想法和导师探讨。这个过程会推动你从自己小的研究领域跳出来，以更开放的态度去看大领域的发展。同时也会引导你站在整个科技发展的大潮中去思考问题。

对于前一点，拿我自己来说，以前不怎么喜欢看除了计算机视觉以为的内容，觉得和自己的研究不怎么相关。但这种想法着实封闭。我现在对整个信息领域的技术，甚至是生物、纳米、量子力学的内容都会越来越关注。因为我坚信“连接即创新”，但能够创造有效连接的前提，是我们具备了宽广的视野与敏锐的洞察力。对于后一点，我自身也是在摸索的过程当中，但是我觉得多读科技史的书籍，多从科技整体发展面去看待问题，一定会对我们“眺望”未来有所帮助的。

RamonsVoice

公众号ID: RamonsVoice
微信号: ramonsvoice
不懂文艺的研究员不是科幻迷