虚拟匹兹堡社交

为了VR社交，Facebook打造出最逼真虚拟头像系统

假到真时真亦假...

Esther｜编辑

去年底，曾传Facebooks将神秘部门Building 8更名为Portal，并将部分研究工作转移到Facebook Reality Labs（FRL）部门。FRL部门的负责人是Facebook首席科学家Michael Abrash，主要研究项目包括脑机接口、可穿戴、柔性体感皮肤等。

Abrash曾多次表达对VR/AR技术的看好，他深深相信这项技术在接下来的50年里，将会成为工作、娱乐和沟通的主要方式，就像是个人电脑和智能手机从45年前到现在一直在改变世界一样。

他表示：我曾描述过AR/VR在未来需要哪些技术来支撑，但从未公开这些技术的开发过程及幕后团队。因此，他宣布在接下来一年里，FRL部门将通过一系列博文向大家展示FRL团队在5年里都进行了哪些研究。

Michael Abrash

Abrash还希望通过这些文章分享他们的信念，让那些对AR/VR抱迟疑态度的人改变观点，并通过交流来了解大众希望如何将AR/VR融入到日常生活中。

据悉，Facebook FRL部门的实验室分布在美国多座城市，包括：雷德蒙德、华盛顿、索萨利托、匹兹堡，每个实验室分别负责不同的研究，但都同样致力于推动AR/VR向下一代计算平台的发展。FRL在沉浸式平台的研究上投入了大量资源，并且聚集了大批优秀人才，这里是VR/AR实践研究的最佳地点之一。

FRL匹兹堡实验室

今天，FRL匹兹堡实验室率先发表了第一篇博客，讲述了他们如何利用两个大型3D动捕工作室制作了逼真的虚拟形象，并计划在未来通过优化的AI来简化制作流程、降低成本。

据悉，FRL匹兹堡实验室汇集了一批语言学、娱乐技术、计算机视觉、人体建模、机器学习等领域的专家，而且因为团队扩张，该实验室将会在今年底搬到更大的场地。

接下来FRL将会分享这些实验室在材料科学、机器学习、光学、显示技术、计算机视觉、音频、图像、体感交互、脑机接口、眼球/手势/面部/身体动作追踪等领域的研究。

”大多数人，包括我自己，在长大后就已离开了成长的家乡。我这辈子没少搬家，每次从一个城市到另一个城市，都意味着远离一些对我来说重要的人。“Facebook Reality Labs研究主任Yaser Sheikh如是说道。

他深深地感受到了地理位置对人际交往带来的限制，因此他希望通过科技来寻找人与人沟通的新方式。这也就是为什么他在FRL部门负责一个名为“Codec Avatars（编码人像）”的实验项目，据悉，该项目希望通过逼真的虚拟人像来缩小人与人之间的距离。

据青亭网了解，这项研究希望通过3D捕捉技术和AI系统，以更快速简便的方法，将VR社交变得与真实社交一样自然。

High Fidelity

虚拟形象在游戏领域中应用多年，而且许多VR社交平台也支持各种不同的自定义虚拟形象，比如：Altspace、Rec Room可让用户选择比较卡通的形象，而尽管High Fidelity可让用户通过扫描自己的3D模型来制作虚拟形象，其效果还称不上逼真。Sheikh认为只有准确度极高的虚拟形象才能颠覆VR/AR社交，苦笑、皱眉等表情都需要在虚拟人上得到体现。

Sheikh表示：Codec Avatars的研究方向不仅在于高清的画质或高级动捕技术，而是更注重为VR用户提供一种自然、简单的交互方式，让远程交流变得更像是面对面。

社交临场感

对于社交场景来讲，“瞬移”后的虚拟形象需要尽可能体现用户的情绪和表情，这样才能实现更顺畅、自然的交流。为了验证虚拟形象是否成功，FRL实验室采用了两种简单的测试：“ego test”（自我测试）和"mother test"（母亲测试），简单来讲就是作为用户的你可以接受这样的虚拟形象，同时你妈妈也能认出你来。

在视频通话刚出现的时候，不需要有人强调这项技术的重要性，你就知道它很有用，因为视频可以让你实现远程面对面交流，甚至在家里也能开会办公。

而利用虚拟形象通话会给基于平面的视频通话带来一层逼真的社交临场感，有点像是在《星际迷航》的全息甲板上通话，用户可以在模拟的场景中实现会面。不过要做到逼真和自然这两点，对于匹兹堡的FRL团队来说是个不小的挑战。

多年来，该科研团队一直致力于研发可用于未来VR/AR头显的虚拟社交技术。Sheikh表示，在未来的社交场景中，距离已经不是限制两个人关系的主要因素，具有临场感的虚拟社交同样也是Facebook核心业务的重要组成部分，Facebook希望利用这种技术发展虚拟社区，拉近人与人之间的关系。

逼真感来源于细节

据悉，FRL匹兹堡实验室号称拥有世界最先进的扫描设备，用这台设备，科研人员扫描了鞋、玩具、干冰、点燃的蜡烛等各种各样的日常物品，目的是优化算法，让未来的沉浸式设备能够轻松渲染复杂的虚拟形象。

而他们研发的虚拟形象最大的不同之处是，它们不是游戏中和你长得很像的自定义角色，而是对你近乎完美的复制。而实现逼真感的关键，在于外形和动作的细节，比如阅读时眼球下转动的动作。FRL研究院Shoou-I Yu表示：制作完整虚拟形象的一大挑战是，人脸的每个微妙表情都需要捕捉到。

逼真的虚拟形象技术在视觉特效行业已经存在多年，但是目前的技术需要艺术家人工制作，时间可能要花上数月，而且他们一般不会涉猎虚拟形象之间的实时交互。

在2016年的F8大会上，Facebook CTO Mike Schroepfer宣布Facebook Spaces VR应用中将用全新的虚拟形象取代之前使用的蓝色头像，这些新形象支持更多面部特征，还能追踪模拟用户的唇部活动。

两年后，他又在F8大会上展示了FRL匹兹堡研发的更优化的虚拟形象，在Demo演示中，FRL两名成员用Oculus Rift演示了逼真虚拟形象的实时交互。

两间动捕工作室

在2016和2018年两年时间里，FRL搭建了Mugsy和Sociopticon3D动捕工作室，并利用它们分别收集了大量人脸和身体的数据，接着用这些数据做出了创建虚拟形象的自动化方案。最近，它们利用机器学习技术，实现了对超逼真虚拟形象的实时生成。

据悉，Mugsy是FRL专门用于拍摄面部表情的工作室，它的外形像呈圆顶状，墙壁和天花板上安装了132颗佳能摄像头和350个光源，它们全部对准工作室中央的一把椅子。在这里拍摄人脸就像是在拍大头照（Mugshot），因此得名Mugsy。

而Sociopticon（由Sheikh在卡内基梅隆大学建立）名字来源于“圆形监狱”（Panopticon），它是专门用于拍摄身体（以及衣服随身体的变化）动作的，占地面积比Mugsy更大。与微软MR动捕工作室相比，Sociopticon采用了更多摄像头（180颗），摄像头最大能拍摄分辨率更高（4K）、刷新率更高（90FPS）的容积视频。

两间动捕工作室采用的摄像头每秒需要拍摄的数据量达1GB，也就是它们分别在每秒最多可拍摄到180GB的数据，FRL用这些数据来训练神经网络从多个角度，去匹配声音、肌肉变化与面部表情、身体动作。拍摄到的数据越多，其面部渲染模型“Deep Appearance”解码/编码的效率越高，才能更适合家用VR/AR头显。

接受面部捕捉的研究员

Yu表示：使用FRL动捕工作室拍摄三秒，笔记本电脑的512GB磁盘空间就不够用了，而我们拍摄一次约15分钟。也就是说，采用这么多摄像头是对存储硬件的一种挑战，不过有了这么大量的数据才能创造出这么逼真的虚拟形象。据悉，这两家动捕工作室中的麦克风数量最多可达1700个，可重建完全沉浸的3D声场。

其实，Codec Avatars并不是FRL部门对逼真虚拟形象进行的唯一研究，其索萨利托的团队正在研究一款基于物理学的虚拟形象，特点是支持与任何虚拟环境的交互。

通过对生物力学、神经科学、动作分析、身体动作模拟等领域进行了基础研究，他们研发的虚拟形象技术依赖与Codec Avatars相似的实时数据捕捉，不过它并没有利用实时传感数据训练神经网络，而是训练了一个模仿人体解剖的物理学模型（年底Facebook将会透露更多细节）。

创建Codec Avatars

Codec在英文中有编解码器的意思，选用这个名字是因为，Codec Avatars是一种利用机器学习去收集、学习和重建人类社会表现的方式，而整个过程中的关键步骤就是数据编码和解码。

人文学家Edward Sapir曾在《The Unconscious Patterning of Behavior in Society》（直译为《社会行为的无意识规律》）中写道：人类会对“不成文的复杂肢体密码产生回应，这些信息并不是约定俗成的，但每个人都能理解。”的确，解码/编码的过程其实就像是人类正常交流的方式。

首先，机器学习模型需要通过大量数据去理解人类交互，然后通过解码/编码将语音、肢体语言、语言提示等大量信息整合成可量化的数据，这些数据将被用来渲染虚拟形象，并通过虚拟形象帮助用户传递信息。

原理是，利用头显上搭载的传感器系统和麦克风捕捉目标任务的动作和周围环境，在捕捉到信息后，编码器会分析收集到的数据并汇编成全新的代码，通过数字来传输制作虚拟形象所需的信息。然后，另一端的解码器会将收到的代码再次编译成语音和视觉信号，组成可以被肉眼观看的虚拟形象和表情。

FRL科研人员Tomas Simons表示：Codec Avatars的基础是信息的量化，逼真的虚拟形象依靠的是准确的测量和数据，因此它的关键是找到测量斜眼、皱鼻子等细微表情的方式。

利用这种方法，用户不需要使用动捕工作室或者捕捉大量数据，只需要拍少量照片/视频就能制作逼真的虚拟形象，而这种方式也更适合批量用于VR/AR头显中。

虚拟人（右）与真人（左）对比

没有两片叶子是相同的，人和人也一样，因此他们扫描了各种外形的人，比如戴耳环、鼻环的、或者发型夸张的、戴脑电图帽子的。不过从视频中来看，目前体验者的爆炸发型在Codec Avatars中就还没得到完全体现，而且她快速移动的舌头看起来也有点模糊。

简化的原型设备

从成本和时间上考虑，利用大型动捕工作室制作虚拟形象还是不太实际。为了能在轻量级头显中实现对虚拟形象的实时渲染，FRL的科研人员决定将追踪捕捉的重点放在人的头和手上（Magic Leap的Avatar Chat也是主要基于面部和手势动作），并利用一系列定制的头戴捕捉系统（HMCs，内部代号为Argent）原型机来捕捉大量面部表情和手势。据悉，这些HMCs上搭载了摄像头、加速针、陀螺仪、磁强计、LED红外灯和麦克风。

据青亭网了解，制作一款HMCs并不容易，因为上面搭载了许多传感器，他们不得不考虑佩戴的舒适性。为了不让打光灯引起用户不适，HMCs才采用肉眼看不到的红外光源。

FRL科研人员Hernan Badino表示：为了让HMCs捕捉面部表情的体验与人与人面对面无异，我们不仅要考虑高质量的传感，还需要确保用户的活动不会因为头显而受限。

关于HMCs头显的软件部分，FRL的科研人员开发了一系列能够设定拍摄区域的软件，这些软件还提供了校准、数据诊断和分析工具。

关于信息安全

考虑到制作逼真虚拟形象需要采集用户的大量外形和声音信息，信息的安全性也是值得关注的问题，对于Facebook来说尤为如此。如果这些信息被盗用，很有可能会被用来欺骗用户的亲朋好友。

对此，FRL表示：Codec Avatars可捕捉到咯咯笑和眨眼等极其细微的面部表情，而且眼球、声音甚至行为习惯都多多少少可以作为生物识别的依据。不过FRL部门目前正在着手将虚拟人像与用户和设备的安全认证和硬件加密等功能结合，防止潜在的安全隐患。

同时，他们也在考虑多种不同的安全机制，比如为虚拟形象绑定认证账号等。尽管距离这种逼真程度的虚拟人像普及还需要几年，他们已经开始测试多种解决方案了。

虚拟形象的前景

通过逼真的虚拟形象，我们可以与地球任何一个角落的人见面，这对于远距离交友等场景都有很大帮助。而这项技术的存在，并不是为了代替人与人真实的社交，而是为了让你在没法亲临现场的时候更好地与对方交流。

当然，Codec Avatars这种新型的交流方式还存在许多需要解决的问题，距离正式推广还需要许多年，这的确超出了Sheikh之前的预期，不过他表示：我们拥有驱动新思路的资源，也有专家和人才，现在我们将加速研发更创新的技术。

此外，Abrash在去年10月也表达了对逼真虚拟形象的积极看法，他表示：四年内也许不会出现能够推广的逼真虚拟形象，但也不能否定其可能性。

接下来，他们还将着手研发基于全身扫描的虚拟形象，这样的技术需要考虑到用户周围的光线、6DoF追踪、周围人干扰（在VR中）等因素。他们还将考虑用AI预测动作，不过这就没办法将意外因素考虑在内，逼真感可能也会因此受到影响。

社交场景很有希望成为VR的杀手级应用，如果Facebook能率先推出基于逼真虚拟形象的社交平台，也许它又能再一次席卷社交媒体市场。

另外也可以想象，将这种技术与影视媒体结合，或许可以制作逼真的交互式VR电影/表演，演员可以采用实时表演的方式，也可以利用AI来替人表演，而这种形式会不会就是一直在寻找的VR叙事语言呢？

（END）