斯坦福研发混合光电CNN网络，有望应用于自动驾驶_【青亭网】

可以更快，更高效地对图像进行分类...

Esther｜撰文

消费级无人驾驶汽车的市场涌入了越来越多的竞争者，包括Waymo、特斯拉、苹果、百度等公司，甚至还有公司开发无人驾驶氢气船。特斯拉和奔驰等公司已经开发出了半自动的辅助驾驶技术，另外优步和Waymo的无人驾驶出租车也还没完全做到完全无人驾驶。

完全无人驾驶的汽车系统将使用到激光雷达、声呐传感器、摄像头和AI，覆盖在车身的多个摄像头可以探测到周遭360度的环境，并识别捕捉到的图像，探测周围的交通标志、障碍物和路上的其他无人驾驶汽车等物体。随后，摄像头的图像识别系统会将数据传输给车上的AI电脑进行分析。AI对于无人驾驶汽车是必不可少的，因为其面对不同情况可以快速做出决定，但是AI处理图像识别算法的速度缓慢，且其计算机视觉使用的卷积神经网络计算起来相当耗能。

由斯坦福大学的电子工程师Gordon Wetzstein带领的一个科研团队设计了一款基于AI的摄像系统，这款系统的特点将是体积小（可内置在设备中）、节能，而且分类图像的速度比传统AI系统快得多。

据青亭网了解，这组科研团队使用两种计算机构成了一个基于卷积神经网络（CNN）的混合摄像系统，用他们的话说，用一个带有优化的相位掩模的光学卷积层来分担传统线性、空间不变的成像系统的工作量。简单来讲就是，第一层使用了和数字计算相比耗电低得多的衍射光学计算机，而第二层是传统数字式电子计算机。

光学卷积层构成

a）4f系统：在傅里叶平面上加入了一层相位掩模，可以作为摄像系统中的光学卷积层

b）传统数字卷积层中的元件，包括输入图像、堆叠的卷积核和对应的输出数据

c）与光学卷积层中的等效元件，其中卷积核和输出数据是在2D平面平行摆放的，而不是叠加在一切的。

也就是说，在某种程度上，斯坦福大学的工程师们“将AI的部分计算量分配给了光学计算机”，以此来节省计算成本和时间，提高性能。而且，因为第一层计算机过滤图像的原理是光线直接通过定制的光学元件，所以这一层的输入功耗为零，节省了时间和能源，如果输入数据已经是光学信号，还省去了第二层处理的步骤。因此，工程师们计划未来让第一层计算机进行更多的预处理。

为了测试这套系统的图像分类能力，科研人员设计了两种模拟案例：1，使用卷积层制作一个只有一个卷积层的光相关器，作为匹配图像的模板（光学目标探测和追踪中都有使用）。2，展示如何将实验测试的光学卷积层应用在混合的光电卷积神经网络中，从该卷积层中输出的数据将会流入一个数字全连接层。

混合光电神经网络

a）图解：一层光学卷积层的模型，通过这层传感器图像将得到处理，并流入下一步数字卷积神经层。

b）优化的相位掩模模板和通过显微镜观看的不同缩放比例的模拟相位掩模图像

c）对比模拟和相位掩模实际捕捉的PSF（点分布函数），一张样本输入图，单独的传感器图像，除去了相应的正子图像（上面两排）和负子图像（下面两排）后剩下的假负例子图像。

斯坦福科研人员造出了这套系统的原型产品，然后让其分类CIFAR-10数据集中的灰度图，发现：

单一的数字全连接层的准确性达30%，原型的准确率超过了44%，比前者准确率提高了几乎一半，而耗能几乎差不多。与此相反，传统卷积层如果要提高这么多准确率，需要的耗能可能就要翻一倍了。

据悉，斯坦福科研人员在进行了测试后，发现这款摄像系统可成功识别自然环境中的各种物体和动物。

不过，虽然处理能力快速，这套摄像系统现在还处于原型阶段，体积也相对较大。对此，斯坦福的开发者们表示未来会将这套系统缩小到手持摄影机或者航拍无人机那么小。

这组科研人员在8月17日发表的一篇论文中提到：“我们的目标是站在计算成像的角度开发光学卷积神经网络，通过搭配光学和算法，来结合图像采集和计算。计算相机利用了从定制光学器件传播的光线去编写环境的信息，填补传统2D图像采集技术缺失的部分。我们研发的计算机成像系统，模仿了优化图像分类性能的前馈式卷积神经网络。”

（END）