以下为前 Magic Leap 的 Lead Computer Vision Engineer 张一夫在硅发布第 26 期跨境直播《直播预告/AR 什么时候替代手机》里部分分享。之前张一夫是苹果的 Video Engineer、微软的 Software Developing Engineer。张一夫也自己创过业,为 Virtroid Inc 联合创始人和软件工程师。
为什么只有 AR 能替代手机
我们先看手机满足了什么条件?第一,输入;第二,交互。而这两点,其实都是电脑特性,是电脑的核心。那手机之前为什么能替代电脑?第一,手机能基本替代电脑功能;第二,手机在“用”和“不用”间切换起来比电脑甚至笔记本还要方便。基于以上两点,这几年手机基本上在“非专业”领域(专业领域指比如画图、写作等)已经把电脑替代掉。
现在我们同样道理往下推:什么东西能满足这两个功能特性?同时,什么东西能比手机在“用”和“不用”间切换起来还要方便?
我先用一个反例来说明,就是现在很热的语音交互,比如说为什么亚马逊的 Echo/Alexa 不能满足手机的一切条件。
第一,Alexa 满足不了“输入”,实际上语音交互做不了所有“输入”:1)你不能任何时间地点都用,比如说旁边有人睡觉,或者你在听讲座,你得用“静音”方式处理。语音输入的最大问题就是它要出声,除非你有一个隔音器能把声音完全跟外界隔开,那就无所谓。另外如果周围环境太噪杂,也会影响语音输入效果;2)语音输入是一个最简单方式,但未必最“快”。如果我们从一个比较 High Level 角度去看,语音永远是一个“渠道”的输入输出,在一个时间段里,你听到的声音和信息量永远是那个值,上限不会有太大改变,最大信息量也就是从你这张嘴里说出来。但其它输入如一个键盘、两只手、十个手指,严格意义上我不把人的十个手指看成是一个“渠道”,因为这十个手指是“配合”动作,真说起来打字上限肯定比语音输入上限要高。
第二,Alexa 走不出客厅,现在大家都是把 Echo/Alexa 放在家里。虽然目前有传亚马逊正在研发眼镜,只要把眼镜戴上,我们以后即使出门也能通过眼镜跟Alexa交互。但 Alexa 如果以这种方式走出家里,那这个眼镜就是一个 AR 设备,所以它还是一个 AR,只要它变成“眼镜”跟着我们走到外面,它还是一个 AR 设备(起源不重要,关键是看它最终设计目的是什么,如果你戴眼镜,或者你带手机,或你拿手表。无论你怎么样,如果一旦是连到你屋里 Alexa,那个东西因为它是固定的,它永远和台式机和服务器是一样)。
所以返回来简单讲:相比其它,AR 能更好满足替换手机的两个条件(“输入”和“交互”),但同时,AR 还能在“用”和“不用”之间切换起来比手机还方便。
从结果看,AR 能实现在“真实”和“虚拟”场景间的切换,一方面,它可以完全把“虚拟”去掉,你眼镜看到的就是真实世界;另一方面,它可以把“真实”需求完全虚拟;它也可以在中间有一个“过渡”。换句话说,它可以让你在“用(和虚拟世界交互)”和“不用(不和虚拟世界交互)”之间随意切换,而且还能叠加。
从实用性层面,它可以保证让你一天玩晚都戴着这个设备。比如说你想重度使用,那可以做到现在 AR 眼镜或 VR 眼镜的效果;如果你只是偶尔想用一下,那也没问题,只要去控制一下 AR 设备里的“输入”就可以,平常大部分时候你不输入,也就是不“用”,你就把它当作眼镜那么戴着。
总结就是:它是一个可以跟手机一样去抢占你时间,甚至可以抢到比手机更多的时间的一个设备。因为你在“用它”和“不用它”之间可以切换得更快、更简单,它能抢占到你的时间也就越多。甚至从潜力上讲,它几乎可以占用你全部时间(想用时你就做输入,不用时你就作为眼镜戴着,并随时随地可以摘掉)。而这个东西 VR 不可能做到,目前看 VR,只能是“重度使用”时去用,你不可能一天到晚都戴着。因为 VR 把真的东西都遮住,你看到的东西都是假的,你要去跟真实世界进行相互交互比如说你出门走路,你不可能戴着一个 VR 眼镜,不然走着走着你可能就会被绊倒。因为 VR 眼镜是给你一个“纯虚拟的世界”,AR 则是一个可真假叠加的世界。我们说 AR 实际上是包含了 VR 的一个概念,VR 是 AR 的一个子集。
谷歌眼镜后来没声音的原因
谷歌眼镜做得太早,首先,现在这个技术都不成熟,他们做那么早怎么可能成熟。那是不可能的,因为 AR 是一个非常非常难的技术,它要把真实和虚拟场景交互,让你完全感觉不到“融合”,这比“全真实”和“全假”都要难得多。确实谷歌技术领先,但这个技术谷歌又没特别大优势,同时时间做得太早,这肯定不能成功。
其次,AR 的关键技术有两点:一是光学。它成像质量必须要好,因为它是要把真的和虚拟融合,不像全真或全假(全真全假已经很成熟),成像是一个物理光学问题,其实硅谷一些高科技在这一块也是“零”,然后就微软是最先做的,谷歌肯定当然也没优势,包括 Facebook、苹果这些,它们都没什么优势。
AR 的关键技术,第二个是“定位”。你要把真假融合,这个位置就很敏感,你这个东西一点都不能放错。定位这个技术,其实也是最近才成熟,之前当然能“定”,但离人眼的舒适程度,还差很远。目前业界这块做得最好的是微软的“定位”,它能让假的东西放在真的东西上,几乎没有一些抖动。或者丢失。这种非常难。
目前就已上市产品里面,是微软做得最好。因为微软有一个研究院,一直在做计算机视觉这方面研究,已经研究很久。就我所知,它调一个参数可能都调了有十年。微软在这方面是最领先的。谷歌现在也能做,但目前就“已上市产品里”其他人都没有达到微软水平。
所以不是谷歌眼镜败在找不到“应用”上,是技术不够好,技术原因也就导致了它没有应用,本质上还是技术不成熟。包括我刚才描述的 AR 潜在的那些高级应用它都没法用,比如说不可能在墙上看电视,首先你定位这个墙,你电视不能晃对不?其次,你这个电视的光线得好对吧?这两点谷歌一条都满足不了。
当然谷歌也可能会花大钱大资源去挖人,可能现在已经在挖了?但上面只是说现在这个时间点看到的结果,将来谁都不知道,各公司资源还是可能会被挖走,比如说它技术就超越了微软,然后光学上也超越这些公司等都有可能。
VR 反过来会涵盖 AR?
业界基本都认为 AR/VR 会融合。这里我只说一个比较新颖的事,前一阵我也听说过这样一种论点:有人认为在更远将来 VR 可能反过来代替 AR。
为什么呢?我们刚才说过之前一直有个观点是:VR 是 AR 的一个子集,因为它能把真+假都混在一起,但业内现在也有一些技术人员在讨论:如果这个技术足够足够厉害,这个输入设备足够足够厉害,我能让你在 AR 里的真实世界的东西,也完全用“虚拟”去模拟出来,然后,它背后原理和 AR 不一样地方在:AR 是直接用真实的世界,它不是,它是采集到足够多的外部真实世界的信息,然后把这些信息全部用设备给你打过来,就全由这个 Device 来打,而如果它质量能高到足够好,它会让你看到跟外边真实世界看到一样,这样你能看到的就是:虚拟+更好的真实世界的虚拟(目的是让效果更好)。
比如说我们走在街上,然后那里有个房子,你不可能“砰”撞上去,因为你设备足够好,它能做到一些实时处理比如加上传感器、摄像等,它负责采集你所有的外部信号,然后再投过来,给你综合处理过,你看到的那个大街道是处理过的大街道。
但是为什么会进化成这个样子?就是说为什么人需要这样一个东西?
这剩余 9000 字内容包括:
“输入”在 AR 里应该怎么实现?AR 应用的最高境界美国科技公司 AR 坐标轴AR 眼镜两种技术路线之争VR/AR 融合问题和 VR 反过来会涵盖 AR?
如欲阅读全文,请直接到硅发布微信号“硅发布”(Guifabucom)购买全文阅读
举报/反馈

硅发布

4万获赞 1.1万粉丝
科技商业报道领域优质作者
关注
0
0
收藏
分享