AR、VR中的交互输入（一）——手势识别

发表于2016-01-21

之前我们提到在VR、AR、MR时代，交互的输入可以是手、眼睛、甚至心灵。

我将这几章分开来写，共九章本章是第一章，讲手势交互。

手势识别不应像火影忍者中结印那般复杂，而应像我们在生活中与物体交互那般。越是直接自然的东西，用户学习成本越小，直接拿来便可使用。下意识，是不用学就能学会的，比如被针扎一下人马上缩回手去，下意识、情感这些东西都是原始人至今人类成为万灵之长的根本。

原始人的那套东西，不用动脑筋，无需思考，人们不需学习就可直接使用，它是先天内置在我们大脑中的。而启蒙运动开启的人类理智之光，则需要后天的学习。人机交互从需要输指令的doc，到用鼠标直接拖动的图形界面GUI，再到手指多指触摸的NUI，交互方式越来越不用思考、越来越自然。

从Doc时代我们要学习厚厚几本书的代码，到PC时代我们跟着视频学习软件的使用，到现在每次App更新之后都会有新手引导页，再到VR世界中向我们走来讲述规则和玩法的『导游』，学习成本越来越低。

说到当年iOS6到iOS7的变革，很多人都会说是带宽的提高、内容的增加，人们需要扁平和简洁的UI。但我以为，从视觉的角度来说，因为iOS6和iPhone5的时代，iPhone让移动互联网普及，很多人把此当成了本能，从一种隔着玻璃与平面UI的交互变成了隔着玻璃与内容的交互。比如旋转着唱片的『CD机』，书架界面的iBooks……

但是，00后根本没见过软盘和CD，这时如果再用他们做图标他们会觉得很困惑，说到『储存』对他们来说可能仅仅是iCloud或Google drive之类的云图标。因为电脑也好，磁盘也好，都是我们这一代人接触过学习到的东西。比如开车，它并不是我们生来就会的技能，可是随着我们经常驾车出门，它变得越来越熟练直至成为我们的本能，它像弹钢琴一样，首先要是可学习的、可理解的，自成一个体系，然后随着人们的学习和使用慢慢变成一种习惯。

在VR实验室的模拟驾驶仓开模拟驾驶汽车的时候我在想，如果将来tesla和Google自动驾驶汽车代替了我们，那我们在这里模拟驾驶的意义何在呢？如果我的孩子，在他出生的时候就没有驾驶舱这个东西，只有自动驾驶的汽车，那么如何让他理解驾驶是什么呢？

记得我第一次学影片剪辑的时候一直弄不懂为什么剪断要用刀片符号，直到我了解了几十年前的电影胶卷剪辑用的胶片我才有所了解。

使用场景

手势识别的红外摄像头，我放在桌子上和贴在HDM上两种使用场景完全不同。放在桌子上，作为笔记本电脑的外设，用来代替鼠标控制电脑，这时我的手臂放在桌子上随时都能与之交互。而贴在HDM上作为我在VR世界的一种输入，我需要抬起手臂把手延伸开去，那这时就要考虑手臂的休息和停歇。

汽车的学习和使用就是汽车制造者们多少年的努力和积累定下来的规范，当年钢琴普及的时候，大批心理学家、科学家探讨了一系列钢琴的科学演奏方法，让手臂的重量通过手指安静地放在琴键上，手指只需要做重心的转移，而一旦用户经过几年的钢琴学习养成了这种方法，即使连续弹上半天钢琴，手也非常放松完全感觉不到累。如果去设计一种新的手势交互，应该像弹钢琴一样，放松不费力，而又能避免不必要的紧张。

微妙的手势对应微妙的动作，正如画素描时，大臂挥动刷出大轮廓和形态，手腕和手指则精细地勾勒。弹钢琴时，大臂弹奏和弦的走势，手指的音阶则描绘细节。

用户在什么场景使用你的产品，是每个PM需要考虑的。是他坐在床上把电脑放在膝盖上？还是在书桌前？亦或是站在厨房……用户会面临哪些挑战？限制？会出现哪些机会从而产生哪些新的意想不到的交互方式？

比如我骑自行车的时候眼前有两条岔道我不知道选哪条，而现在不能停车，所以我极速地从口袋里掏出手机放大地图的导航路线，此时另一只手还握着方向盘左拐，这时就很容易翻车=_=……

空间映射

红外摄像头起到了一个映射的作用，把现实的3D空间里你的手映射到2D或者3D的空间里去。

分为两种情况，第一种，将实际空间大小的手映射到一个比它小的空间里，用户会感觉自己能够更加精准和稳定地控制手，但却要花费更大的动作。第二种情况，将实际空间大小的手映射到一个比它大的空间里，用户会感觉更加敏感却失了准确。

不像pad端或桌面端可以在广度上做文章（比如门户网站一层层的表格式堆砌），在给移动端做设计的时候，因为空间的限制，很多设计师只能在深度上做文章，不同类型的选项放在不同的页面里，虽然有时候需要来回切换，但却降低了误操作的几率和学习成本。

在我给iOS做交互设计的时候发现 touch down以后立刻 touch up则算一次tap，touch down 过几秒再touch up 则算long press ，touch down 再move最后才touch up 则算drag+drop，所以这些手势很容易冲突和误操作。手势也一样，定义手势的时候就要求我们定义准确的手势，不能模棱两可。

当我们给传统的产品做交互的时候，思维是二进制的，是touch down了，还是没有touch down，是hover on还是没有hover on？但是在手势跟踪和控制的时候，二进制失效了，两个手势之间可能并没有明显的状态区分，可能是一个转场过渡。

为了减低误操作，最好的方法是给用户定义一个明确的手势。举个栗子，比如让两个用户闭上眼做出开车的动作，因为世界上没有两个人的直觉是相同的，所以他们的动作可能差别很大，但如果事先给他们看方向盘是什么样子，那待会做动作的时候，两个人相似度就会高很多，这样也方便摄像头做判断。

另外就是feedback（反馈）了，它可以是视觉反馈、听觉反馈，甚至触觉反馈。

这张图是leap motion的交互流程图，很多操作其实都有个阴阳的概念，就是能出能入。就好像iOS应用不设退出按钮一样，而是按home键回到主页，从这里进，从这里出。程序之间没有打开和关闭的概念，只有视图的前后左右切换！这一点，玩过Trackpad和iPad的果粉记忆更加深刻。比如我四指向右滑动，此时view向左移动，换了一个应用的窗口，如果我还想再次滑回来，就得四指向左滑动，此时view向右滑动。我五指向里一抓，浮现Launchpad，五指再向外一抓，又回到了刚才的视图。我大拇指和其他三指往外撮，view显示出桌面；这时大拇指和其他三指往里撮，view又回到了刚才的应用程序。阴与阳，进与退，redo和undo……竟在iOS上体现的淋漓尽致。

说到affordance ，最经典的例子是说茶壶的把手，当我们想举着茶壶的时候，不由自主地会握住茶壶的把手。

在平面的界面设计领域，也用一个凸起来的button隐喻这个地方可以按下去，当用户看着一个活塞一样的具有弹性的button会有按下去的冲动。如果在VR的世界里，则可以有3D的button，如果能正常按下去并有所反馈，则说明操作正确，如果不能按下去，则说明操作不对。

Doorknobs 和 push bars ，圆圆的Doorknobs只要你把手掌放上去，不用想都能抓住它转动。

能交互的手指限定为食指，而可交互物体的周围不被触发。然后对周围能够被交互的物体做一个限制，比如

在被定义的轨道上行走，

用手势调整平面空间上的控件。

这个控件叫 Arm HUD Widget，如果你佩戴了可穿戴，那么在VR中就可以唤出这样一个可穿戴延展的界面。这样的好处是，在VR的世界中能把界面隐藏起来。如果像看表看那样抬起手腕，则会看到当前应用的界面；如果把朝

这个被称为 Planetarium，它的视角遥遥地高挂在天空，低手向下，挪动则俯瞰大地，可以用来浏览Google earth，若此时旋转手腕则可以改变时间；翻手向上，则唤出满天星辰，随手翻出一个星座，还可以摘上面的星星。

右手操控火元素，左右操控水元素。手做出投掷动作就可以投掷出火球或者水球，根据手掌投出的方向飞出。合上手则吸收周围的天地元气治愈自己的伤。

最后，赠送一个胡痴儿平时最喜欢使用的手势，赶紧拿去当微信表情发给你鄙视的人吧╰(￣▽￣)╮

如社区发表内容存在侵权行为，您可以点击这里查看侵权投诉指引

标签：

VR&AR 手势识别 touch 游戏视觉 PVP PK

首页

出海助力

开发者社区

大奖赛

同行

合作案例

关于我们

AR、VR中的交互输入（一）——手势识别