为了进行手势识别,科研人员打起智能手表的主意

 

前提是手表上有一颗摄像头...





Esther|撰文

对AR/VR头显来讲,手势识别是一项关键技术。如果说电脑最直接的输入方式是键盘鼠标,那么目前AR/VR最直接的输入方式应该是手势操控,它甚至比手柄用起来更方便。



此前,Facebook Reality Labs就曾表示:手势识别将有望降低AR/VR的使用门槛,是一种更加自然的人机交互方式。FRL甚至已经开始探索用手势识别来替代真实键盘的方向,如果未来这种功能登陆Quest等VR或AR头显,或有望为AR/VR带来办公、网页浏览等更多应用场景。

目前,市面上大多数手势识别方案采用摄像头加计算机视觉算法的设计,比如:外接的手势识别模块Leap Motion,或是Quest、Varjo、HoloLens等AR/VR头显集成的摄像头方案等等。这些方案的缺点是,用户的手需要在摄像头视场角范围内才能被识别。

相比之下,利用电脉冲、肌电等生物信号来识别并推断手势的穿戴式方案准确性可能更高,比如去年被Facebook收购的CTRL-Labs就曾开发出可以识别非健全手掌动作意图的技术,可以为残障人士在VR中模拟出动态的健全手掌。但这种手环方案成本较高,而且市面上还未推出成熟的产品。

关于手背姿态识别方案

那么随着机器学习算法的不断进步,能否通过算法来进一步提升成本更低的摄像头手势识别方案呢?近期,东京工业大学的科研人员就研发了一种名为“Back-Hand-Pose”的穿戴式摄像头手势预测技术,其特点是利用摄像头追踪手背图像的变化,来推断动态手势。

也就是说,该方案通过间接数据来推断意图,这与此前康奈尔大学公布的C-Face面部识别方案原理类似,C-Face就是通过两颗位于左右耳机上的摄像头来追踪面部轮廓变化,来实时推断表情意图。C-Face的优势在于可集成在耳机等已有的穿戴式设备中,无需外置摄像头,而且在机器学习算法帮助下,即使面部被口罩等物体遮挡也能识别表情。



同样,Back-Hand-Pose方案也是通过算法来将手背变化转化为手势意图。据悉,佩戴在手背上的摄像头与手背存在一定角度,因此大多数情况难以捕捉到完整的手指。为解决这一问题,科研人员训练了一种名为DorsalNet的双流卷曲神经网络,来处理手背的变形数据。

具体来讲,DorsalNet同时通过手背的空间和时间变化特征(如骨骼、肌肉、腱的变化),来倒推手指关节的角度,并较准确的预测3D动态手势。

在经过一系列实验后,科研人员发现Back-Hand-Pose预测手指关节角度的平均误差仅8.81°(特定用户模型)/9.77°(通用模型),而识别动态手势的准确性比过往方案平均提升20%,识别11种不同的手势类型时准确率高达75%。

未来,为了降低Back-Hand-Pose的延迟、提升手势识别效率,还可以采用刷新率、分辨率更高的摄像头,以适应不同灯光等环境。

关于应用场景

在一些测试中,科研人员证实Back-Hand-Pose可用来控制智能手表等设备,比如通过集成在手表内的摄像头来识别手势操控,甚至可以与AR/VR头显搭配,将手势动作转化为对虚拟鼠标或键盘的控制。



也就是说,或许未来VR头显不需要通过自带的摄像头来追踪手势,而是可以通过搭载摄像头的智能手表来控制,智能手表不仅能追踪普通的手势,还可以对手指的文字输入意图进行推断,在沉浸的VR环境中也能快速输入,无需实体键盘。

而相比于电脉冲手环方案,Back-Hand-Pose成本更低,更容易应用在现有的穿戴设备中,以推动手势识别在消费级市场的规模应用。

关于科研团队

既然讲到Back-Hand-Pose这个有趣的研究,也想带大家了解一下它背后的研发团队Koike实验室。因为手势识别技术并不是该团队研发的唯一方向,他们的研究内容包括基于视觉的人机接口、数字体育、信息可视化、网络安全等等,其中涉及多个通过摄像头来捕捉动作的研究。



比如,在今年UIST会议上Koike实验室还发表了利用单个穿戴式RGB摄像头来识别3D姿态(头部、四肢等等)、通过集成在球上的两颗广角摄像头来捕捉赛场的多角度全景图像两项实验论文。



从Koike实验室的研究可以看出,通过结合计算机视觉算法与摄像头方案,可以为许多以往需要昂贵传感器才能实现的方案提供更低成本的替代选项。就像手机、AR/VR头显自带摄像头那样,或许未来我们的耳机、手表甚至项链也可以配备摄像头,为原本的设备带来更智能的用途。

( END)


推荐阅读



每天五分钟,轻松了解前沿科技。
—— 青亭网


    关注 青亭网


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册