VR、AR中的交互输入(二)——眼球跟踪

发表于2016-01-21
评论1 3.1k浏览

眼球追踪在VR游戏中的应用


在视神经科学中,人眼睛从左边转到右边时←_← →_→,大脑会欺骗你让你感觉不到这段时间的存在,因为视线转移时的视觉数据量相当庞大,会产生运动模糊,比如你在HMD中盯着一处然后挪动头部会发现视觉上有卡顿和破裂的画面,就是因为运算更不上。而因为大脑的运算,当我们转动眼球的时候不会感到头晕,而是大脑在欺骗我们,把这段记忆给抹去了。

这个游戏叫 Assassin's Creed Rogue,眼睛凝视的中点被叫做gaze point。gaze point会出现在画面的中心。当你移动屏幕(转动眼睛)的时候,画面会随着你的目光而动,所以你的眼睛永远没法望出屏幕,感觉视觉是无限的。



the Hunter。当你闭上一只眼睛的时候,瞄准器就会出现,此时你就可以瞄准射击了。靠目光的移动来转移视角,和VR的头部追踪相结合那是相当完美。



当你移动目光的时候,则会出现双筒望远镜。



自然的靶击:用视线控制石头,把石头从左推向右边。



转动眼球移动视线:起初,相机的发明就是模仿人的眼睛,而现在用控制眼球的方法,控制相机(你的视角)在一个空间里移动。我相信这样的方式用在数字地球或者街景上一定非常不错。



相比于传统的界面,眼控会更加简洁。像 Head-Up Displays一样,当你不需要的时候它就完全隐藏起来,需要的时候而可以很方便的调用。

运用眼动从菜单中选择,到地图导航比传统的方式快了很多。




在训练领域,理解你的操作习惯,以及如何取得更好的成绩。




在演示的时候展示你的gaze,可以引导听众的视线。




在游戏领域,队友们运用眼动确定共同的目标。


眼球追踪与AR的结合



眼球追踪可配合AR运用在眼镜上,用来滚动和点击。



清晨起床,推开窗外,凝视窗外,此时显示当前的天气。



你看见电影的巨幅海报,聚焦过去,显示电影的具体信息,就能买票了。




眼前出现了岔路,这时你凝视路口,考虑往哪走,导航出现了。






哇,那个女孩身上的衣服真漂亮,(仔细凝视看是什么衣服)


扫描结果出来,这么贵……



对面的那个跑步的那个人好像很眼熟,是不是在哪里见过?凝视……原来是Sergey Brin!




咦,那个奇怪的汉字是什么意思?



图书馆书架上这本书真棒,把它添加到购物车~



广告牌上的啤酒看起来真不错,现在下单买一瓶!



下车了,改转哪辆车呢?




可与眼球交互的VR电影


视线的焦点随着你的眼神移动,视线集中的地方视觉清晰、声音明亮,而后面的物体则变得模糊。



视线的调节


当我们看静态物体的时候,眼睛和被观测物体相对静止,所以只要注视(fixations)即可,但是如果物体是动的,为了保持视觉焦点和对象的相对静止,我们的视觉焦点就会跟着移动,这就是 Vergence。当物体离你的距离越远或者越近时,它就会调节lens,我们的视线从远到近称作集合运动(convergent movements),而从近到远称为发散运动(divergent movements)……这一点近视眼远视眼们深有体会,这两种运动便导致了这两种屈光不正。

以达到平稳地追踪(smooth pursuit),而前庭眼动反射(vestibular ocular reflex )则能在你的头和身体运动时继续保持跟踪。



为了解释这一段,我先上个图



直射(emitted)或反射(reflected)光线依次进入角膜(cornea)、瞳孔(pupil )和 lens(晶状体)。cornea和lens帮助我们聚焦在Retina上。当你观察的物体从前后发生变化的时候,lens就会调节,就像你转动相机调节相机的远近一样,当造物主所造的人类最强大的感官眼睛被人类模仿在了相机上,虽然人造之相机比之造物主造之的人眼有很大差距,但这种差距越来越小,现在计算机视觉的红海可见一斑。

lens 在眼睛里指晶状体,而在相机里指镜头,在眼镜上指镜片。而 pupil 在眼睛里指瞳孔,在相机里指光圈,用来控制进光量。Retina则负责把不同波长的信号转化颜色、对比度、亮度和形状等生物信息。然后通过optic nerve传递给视觉处理区域(visual processing areas)。





当我们睁开双眼的时候,视觉包括水平220度和垂直135度。虽然人眼有这么大的视觉区域,但是成像的质量却取决于落在视网膜的什么位置。

这些都是感光细胞(photosensitive cells)——94%的杆状细胞(rod)和6%的椎状细胞(cone),rods它需要进来的光少,能感知的颜色很少而且很模糊,所以它的准确度非常低,但是却能感知动态变化和差异,比如我们走在路上,身侧窜过一道黑影,这时你的注意力马上转移过去(视线聚焦过去)。



而cone却能清晰地看见很多细节。所以它需要进来很多光。相机也是这样,想要让图像清晰就得进更多的光。反之,如果光线本身不好,那我们就用不了cone只能用rod,所以在暗的地方我们的视线灰色而模糊。

中间彩色的、对比度强的部分就是那6%的cones了,它正是被fovea覆盖的部分。 占用更多的视觉处理资源(visual processing resources)




所以,当你注意力从这里转移到那里的时候,其实就是把fovea也移动到了那里。

扫视(saccades)就是把视觉焦点移动到另一个吸引你感兴趣的点上, 而注视(fixation)则是盯着那你不动,用来获取更多、更详细、更清晰的信息。我以前做交互的时候就把交互控件按对视觉的吸引分为动画、颜色和形状。就是颜色比形状更吸引注意力,而动的东西比不动的东西更吸引注意力。比如一个小孩眼前有正在播放的电视机和玩具,他肯定会盯着电视机看,甚至忘了眨眼,因为电视的动态画面吸引了他的注意力资源。

对UX领域的人来说再熟悉不过的就是在用户研究的时候使用眼动仪,我始终记得我产品老师对我说的那句话:『不要听你用户说了什么,而要看他做了什么』所以我养成了偷窥用户使用产品的习惯,但是因为我这个观测者的存在,影响了用户的操作。所以只能用用户察觉不到的方式偷窥。



而人的视知觉,就是在 fixations 和 saccades 之间来回切换的过程。因为saccades的速度很快,所以在它到 fixations这个过程之前的画面都比较模糊。当saccade的时候,终点就被定了下来。

我们人类大部分信息来自于视觉,我们从现实世界的事件中提取视觉信息,但是却受空间(spatial)和时间(temporal)的限制,所以人需要转眼。




在我们生活的世界中有着无数的视觉信息,我们可能有意识或无意识地瞥过其中的一小部分,这就是我们的注意力。通常来说,视觉就是眼睛从这一个视觉区域移动到另一个视觉区域,我们的目光跟随我们注意力的转移,这叫外显性注意(overt attention),注意力在视觉中心。另一种内隐性注意(covert attention)注意力可以在视觉外围(peripheral vision) 

比如我们现在忽然进入一个VR全景中,我们首先用covert attention模糊地感受周围的景色,看有没有有趣好玩的能吸引我们注意力的东西,然后再用 peripheral vision 去粗略地验证它。这时你转过眼去,用gaze 的 overt attention 获得更多关于它的视觉信息。



在正常光线情况下,我们看到一个画面需要80毫秒,这个过程叫做register images,是图像来到Retina的一个过程。而图像来了之后不会马上消失,还会在Retina上短暂停留,所以,它还需要时间消失在Retina上。

图片来到视网膜的速度和离开视网膜的速度都取决于光照强度(light sensitivity),就像相机的快门一样,在夏至的正午强光下,8000的快门仍然清晰,而在冬至日的黄昏,40都很模糊,越暗就需要越长的曝光时间。就像相机的闪光灯一样,闪光灯虽然只有那一瞬间,却能在人眼的Retina或者相机的CMOS上短暂停留。

当然,用户在光线充足的环境里阅读时视觉上感受到一个字需要50-60ms的时间,而当他们看见一张图片的时候需要150ms。



眼睛是人的器官中最为复杂的而且最发达的,我们每天接收的大量数据信息,其中大部分来自视觉。而现在普及全球的电脑手机平板中大部分信息都是视觉信息。

你的目光凝视在哪?你是怎样移动目光的?这关注着你的注意力,揭示出你的行为甚至想法。



当你执行特定的任务时(比如阅读、看图片、驾驶、操作手机…),你的眼睛看着哪?你的眼睛是什么状态?眼睛是 fixations (固定的)还是 saccades(扫视)。

  • 存在 (presence)

  • 注意(attention)

  • 昏昏欲睡(drowsiness)

  • 意识(consciousness)




节约显卡资源


如果你的眼睛盯着屏幕,它就会变成你想要的亮度,如果你的视线离开,它就会暗淡下来直至待机,从而更加有效地节约资源。同理,如果你的眼睛盯着屏幕没有其他操作,现在的设备会渐渐进入睡眠模式,而tobii不会,只有当你的视线离开它的时候才会暗淡。

这里面有种深刻的现代主义哲学,让我想到了当年学量子力学的时候,老师告诉我们一个人的观测可能影响量子,当你不看它的时候它活动得好好的,而你看见它的时候它就会发生奇怪的变化,因为受到了你观测的影响。宇宙学里有个词叫做『人择原理』,讲的是宇宙的存在是为了被我们观测到。



如社区发表内容存在侵权行为,您可以点击这里查看侵权投诉指引