【GAD翻译馆】面对我（三）：迪士尼研究的高端面部研发

发表于2017-09-03

翻译：赵菁菁（轩语轩缘）审校：李笑达（DDBC4747）

简介

在我们之前的文章中，我们专注于那些似乎注定会扩大面部重建应用范围的工作，不一定是只是针对高端的或者vfx市场。当然，也在做一些产生类似面部解决方案的工作，这些解决方案是非常针对于高端的。虽然这样的解决方案无疑会最终用于更广泛的应用，但这些方法的目的是产生高级的高端人脸仿真和动画的直接结果。

在面部捕捉和重建领域，世界上大约有四个主要研究中心，其中一个在苏黎世，围绕迪士尼研究。该团队做出卓越的贡献已经有一段时间了，他们的工作是推动该领域的界限，在像ILM这样的地方向迪士尼管道进军。我们最近介绍了他们关于人眼的工作成果，但这只是他们进入数字人类强劲研究势头的一部分。

迪士尼苏黎世研究中心的工作也对迪士尼集团公司也有重大影响和好处。在之后的文章中，我们将特别关注ILM的人脸管道，这项工作强调了他们Medusa Rig的巨大贡献。除了Medusa外，迪士尼苏黎世研究中心正在做一系列出色的工作，这些工作通常被称为迪士尼魔法背后的科学。我们最近刚刚和两个本领域的重要研究员进行了交谈，他们都是在迪士尼苏黎世研究中心工作，分别是研究科学家Derek Bradley博士，和Thabo Beeler博士，Thabo Beeler是高级研究科学家，也是捕捉和特效的团队领导。这些研究人员和他们的团队成员都很谦虚，他们也很慷慨并且富有创新精神，他们的名字现在经常出现在电影名单中，如：

《星球大战外传:侠盗一号》

《奇异博士》

《奇幻森林》

《星球大战:原力觉醒》

《忍者神龟：变种时代》

《沉睡魔咒》

他们的名字可能也一样频繁地出现在SIGGRAPH论文中，这些论文会推出面部捕捉和模拟的前沿成果。看看他们最近发表的作品，只需要简单地看看去年SIGGRAPH 2015的贡献第一即可。

Siggraph 2015: 单一网络摄像机风格捕捉

2015年八月，迪士尼发表了这篇Siggraph实时高保真性能捕捉论文

这篇论文是一个重大的贡献，因为它的源是mono视频或网络摄像机这种类型，在输出模型中产生了非常高频率的细节。

该团队的核心思想是加强全局实时人脸跟踪器和求解器，它提供了一个低分辨率的人脸网格，带有局部“技巧”，网格中添加了中等规模的细节，如表情皱纹。实际上这种方法解决了脸部然后在局部增加了皱纹。更重要的是，这项工作的重点是处理视频流，而不是只生产单一的静止帧。

该团队注意到皱纹出现在脸上的不同范围和不同位置。比如说，一组眼部周围的皱纹对于整张脸的那一部分来说是非常局部的，而且自我相似（self-similar）。眼睛周围的皱纹恰巧是由于脸部的局部形状造成的，换言之，鱼尾纹只会发生在脸那边的眼睛附近。这意味着团队可以根据高分辨率捕捉数据，训练局部的回归量，在外观方面预测局部几何形状以及什么是解释好的结果。

他们开发了一种自动方法来检测和调整所需的局部补丁，用于训练回归量以及实时运行这些补丁。进行解释意味着，虽然跟踪器不直接跟踪高频的皱纹，但该软件可以利用之前学到的训练数据添加回丢失的皱纹。

该系统是通用的，可以应用到任何实时跟踪器，系统使用了一个全局性的方法，如：混合形状系统。一旦完成训练，他们的2015捕获方法就可以应用到任何新的用户（脸），无需任何额外的训练。最终的高保真面部性能重建将会包含特定人的皱纹细节，这些细节都来自mono视频摄像机，实时地。

2016的新突破

2015的论文假设了一个网络摄像机风格的环境，但该团队还涵盖了非常高端的内容。去年，在加利福尼亚SIGGRAPH，苏黎世的迪士尼研究团队发表了两篇新论文，论文中直接处理高端问题，但两篇论文中的方法都不需要在脸上进行特殊标记。第一篇是在SIGGRAPH 2016发表，第二篇最近被发表在2016年底关于3D立体视觉（3DV）的国际会议上。

SIGGRAPH 2016：来自单目摄像机的全头重建

第一篇2016文章发表于今年年初的SIGGRAPH 2016上。无需任何特殊的面部标记或头部操纵装置，论文中的方法在mono视频上也奏效，但是产生的结果是非常了不起的。任何头部操纵装置都存在的问题都是装置很重，而且物理头盔可能会影响细微的面部细节。在英国有一些研究认为这可能就是额头采样都很糟、导致动画失真的原因。缺乏像额头运动这样微妙的内容似乎微不足道，但考虑到我们的大脑能够如此出色地阅读和处理面部，细微之处是跨越Uncanny Valley的关键。

这一新的方法不仅再次使用了mono视频，而且通过利用头骨和颚骨的运动范围假设，它产生了令人难以置信的细节。

在SIGGRAPH 2016上，该团队提出了一个崭新的、非常高质量的解剖结构约束的人脸建模和拟合方法，用于根据二维运动数据跟踪3D人脸。其中一个关键的部分是引入关键约束，约束基于在只“看”皮肤表面发生了什么的同时，也要看皮肤以下发生了什么。

大多数全局人脸模型使用很多形状混合。这种新方法在人脸各处使用了很多小的局部子空间或“补丁”。这种新模式通常不能正常工作，容易出错，但迪士尼研究小组带来了一个创新。他们增加了带有皮肤厚度的头骨和下巴的假设和约束。这意味着，即使计算机没有从一个单目摄像机处取到深度信息，它也可以将人脸模型约束为合理的解决方案。

【GAD翻译馆】面对我（三）：迪士尼研究的高端面部研发

从跟踪的角度来看，人脸是令人厌烦的，因为没有固定点。观察头骨在哪里唯一直接的视角是人露出门牙的时候。门牙连接着头骨，两者都很坚硬。在正常的表现下，没有足够的依赖。第二个问题是，人脸下半部分深受下巴的影响，但有了迪士尼研究小组添加的依赖，下巴不能随意移动——它有一个有限的运动范围。虽然每一张脸是不同的，我们的下巴都一样依头骨生长，我们也都有相似的面部皮肤厚度。

【GAD翻译馆】面对我（三）：迪士尼研究的高端面部研发

新的伟大方法成功地捕捉到高速风变形

鉴于这种新方法，该团队可以从一个视角以非常高的质量产生一个三维的面部性能重建，远远超出之前的拟合方法。他们的做法是灵活的，而且在可用运动数据有限、甚至只有艺术写生的面部姿势时，也能使用该方法。

【GAD翻译馆】面对我（三）：迪士尼研究的高端面部研发

注意源视角只有一个前视角

通过合并约束，团队可以自动使性能稳定化，而且几乎没有代价。为了证明这个新方法有多好，研究小组拍摄了一个演员被一个空气软管击中，并用慢镜头拍摄。该系统设法重现由一个高速相机的空气引起的极端局部皮肤变形。

【GAD翻译馆】面对我（三）：迪士尼研究的高端面部研发

该系统无论是内部还是在现实世界条件下都很健壮

3DV 2016：单头摄像机跟踪器

第二篇2016年的论文发表在2016年年末的3DV上。此论文论述了单头摄像机的实时面部捕捉。

【GAD翻译馆】面对我（三）：迪士尼研究的高端面部研发

实时面部性能捕获最近在虚拟电影制作中越来越受欢迎。这种捕获形式驱动扫描仪上的FACS操纵装置完成了主要设置，比如说Medusa Rig关于头部操纵装置有大量的问题，自从他们的介绍之后，问题主要是头像集上，这些问题已经慢慢解决。

头部安装操纵装置的关键点是，演员可以自由移动和表演。但这样的运动由于惯性会产生面部运动，它也会紧紧地绑住演员的头，限制面部自由移动，或者更糟的是装置相对于脸有些松动，跟踪信息变模糊，解决方案变混乱。

由于机器学习的进步，根据视频流快速推理面部几何形状成为现实，在操纵装置和求解器方面已经有了巨大的进步。头部操纵装置需要解决头稳定性和跟踪脸上不同的点或功能的问题。正如提到过的，跟踪人的特征或面部点的稀疏数据云（如果有提供）需要被“解决”进入FACS空间，该空间由一组脱机面部扫描构成。这种解决（解决了FACS混合形状的最佳合并方案）绝对是整个人脸管道成功的关键。

各种以计算机学习为基础的方法深受标记的训练数据的质量和数量影响。迪士尼发现，根据真实的图像繁琐地建立训练集可以用以下方法替代：在实际制作中的外景条件下，渲染脸部动画操纵装置。大多数人所说的“AI”或“深度学习”计算机系统都依赖于具有精确训练数据的原则。这一套抽象的训练数据不仅是示例画面，而是“进入”的数据和人类验证的“正确的解决方案”。人们可以把这看做是看教科书学习数学，你需要示例问题和书后的参考答案，来确定你是否做对了数学题。如果你不知道你的答案有多准确，你就很难学会。

迪士尼研究团队不依赖于人类验证的先前的解决方案。他们制作了一个系统，该系统使用了一个人造演员并从中学习，他们是通过一个最先进的面部跟踪方法实现的。人造训练显著降低了捕捉和人类标注的负担，并在理论上允许任意数量的数据的产生。但实际情况，如训练时间和计算资源仍然限制了训练集的大小。通过研究哪些面部图像对于跟踪精度是至关重要的，迪士尼研究院为人脸构建了一个更好的，但较小的训练集。他们从表情、视点和照明的维度观察一切事物，这导致在1到2个数量级的范围内的训练数据的减少，与此同时当跟踪记录片场上演员的连续镜头时，精度也会下降。

从某种意义上说，迪士尼研究团队的工作是算出“数学”书中学什么最有用，以及减少自动训练数据生成器，以产生这类例子。

当训练数据没有讨论尽可能多的结果（甚至是我们在fxguide讨论的结果！），在几分钟或几秒钟内求解的快速求解器可能需要几小时或几天来评估或学习训练数据。如果能更快地训练系统，那么准备时间就会减少，而且计算机也可以自己制作训练数据。这节省了几个小时的生成时间，但它也给出了一致的结果。为了让这些方法生效，视觉特效制作人需要某种一致的质量，可以在生产环境中，在可预测的时间和资源下投入生产。

在苏黎世工作迪士尼的研究团队的情况是如此，这些工具被设计成被广泛采用，他们避免了特殊的修复或攻击，这些修复或攻击不能拥有被转化为各种现实世界环境的普遍性。

未来怎么样？

刚刚是SIGGRAPH 2017的最后期限，但世界不知道什么文章会发表几个月。该团队已经在牙齿重建方面做出了出色的工作，ILM已经研究和探索了，你可以在我们之后关于ILM技术人脸管道的文章中读到。

原文作者未做权利声明，视为共享知识产权进入公共领域，自动获得授权；

如社区发表内容存在侵权行为，您可以点击这里查看侵权投诉指引

标签：

游戏开发动作捕捉摄像头

首页

出海助力

开发者社区

大奖赛

同行

合作案例

关于我们

【GAD翻译馆】面对我（三）：迪士尼研究的高端面部研发