Cointime

扫码下载App
iOS & Android

空间计算的黎明:近距离观察混合现实技术的突破

作者:ANNA-SOFIA LESIV. 编译:Cointime.com QDD

当代计算机界面的起源可以追溯到几十年前。道格拉斯·恩格尔巴特在1960年代设计了鼠标,艾伦·凯在1970年代创建了图形用户界面。自那时以来,为了将计算机更无缝地融入我们的生活,已经提出了无数种替代方案。

例如,麻省理工学院的Hiroshi Ishii想象了“有形用户界面”,通过物理对象让我们操纵数字信息。席派克斯帕克斯(Xerox PARC)计算机科学实验室的前负责人马克·韦泽写过关于构建“消失在背景中”的计算机的文章,并推广了“普适计算”的概念。

与此同时,科幻作家们构想了未来的计算机提供如此沉浸式的体验,以至于实际上产生了新的世界。尼尔·斯蒂芬森(Neal Stephenson)的1992年小说《雪崩》设定在一个人们同时存在于物理世界和元宇宙的替代现实中。这些想法对设计计算机未来的现实技术人员产生了很大影响。实际上,现任Meta的Reality Labs首席科学家迈克尔·阿布拉什在阅读斯蒂芬森的书后受到启发,开始构建这样的数字世界。

尽管多年来提出了许多可能的替代方案,图形用户界面和鼠标仍然是与计算机交互的主要方法。经历了如此长时间的相同范式,最初听到头戴式显示器或增强现实眼镜将取代台式显示器的想法似乎不切实际。即使在最新的混合现实头戴式显示器中,视野范围也不足以舒适地工作,分辨率也不足以轻松阅读或书写文字。2022年10月发布的MetaQuest Pro令人失望,许多用户希望它能用于更多的游戏之外的用途。

2023年6月,以不断推出颠覆性产品而闻名的苹果公司推出了又一款产品——Vision Pro。这是一款混合现实头戴式显示器,为多年来困扰虚拟现实和增强现实行业的许多技术挑战提供了巧妙的解决方案。

混合现实的技术挑战

制造一个功能良好的混合现实头戴式显示器非常困难。为什么呢?要实现逼真的混合现实体验,需要做到两件事:生成看起来真实的图像,并与用户的自然头部、眼睛和身体运动同步显示这些图像。虽然这些概念看起来很简单,但需要多个学科的共同努力才能做到。其中包括光学、电气工程、芯片设计、图形学和显示系统等领域。

图形方面的挑战

我们在现实中与之互动的物体具有深度。虽然我们的眼睛产生了两个不同的二维图像,但我们的大脑通过合并这两个图像来使世界看起来是三维的。

通过头戴式显示器模拟我们的眼睛功能可以通过立体视觉来实现,这是一种将稍微不同的二维图像显示给每只眼睛的技术。虽然这在创造深度感上非常有效,但计算成本非常高。

毕竟,仅仅显示一个高分辨率的三维图像就需要大量计算。生成逼真的计算机图形是计算机编程中最复杂的领域之一。游戏引擎需要高效的物理模拟器才能产生令人信服的图形。

例如,为了展示风中飘动的树叶上光线的闪烁,需要计算每一束光线射到树叶上时将如何折射并射到其他表面上。这些计算必须在每秒钟数千个表面上的数千束光线上进行,这就是为什么高分辨率图形如此难以实现的原因。这也是为什么游戏行业在算法效率方面取得了令人难以置信的进步的原因。

立体视觉的头戴式显示器需要完成这一切两次,因为需要向每只眼睛展示稍微不同的图像。然而,即使软件能够很好地渲染两个高质量图像,显示硬件也需要具有足够高的分辨率,使这些图像看起来逼真。

显示分辨率通常通过用于生成图像的像素总数来定义。一个高质量的4K分辨率电视,大约30英寸宽,可能有800万像素左右。电视最好从远处观看,因为每个像素都有固定的宽度和高度。当你离得太近时,图像质量变得“像素化”,因为你开始看到每个像素本身。

混合现实头戴式显示器的挑战在于,显示器设计为离用户眼睛只有几厘米的位置。在如此小而近的屏幕上实现4K分辨率需要非常小而密集的像素,这是一项具有挑战性的工程壮举!

显示器的特性还决定了视野范围。视野范围可以被认为是用户可以体验虚拟世界的窗口大小。正常视觉情况下,人类的视野范围大约为220度。早期的增强现实和虚拟现实设备由于显示尺寸有限等因素导致视野范围受限,需要用户更多地依靠头部运动而不是眼睛运动——与现实世界相反。

延迟挑战

即使通过成功创建了一台超高功率立体视觉显示器实现了足够宽广的视野,你只赢了一半的战斗。混合现实系统的目标是将用户沉浸在渲染的环境中,这意味着用户所看到的图像必须与用户的身体自然运动相对应。

如果用户的头部移动,图像应该反映出完全相同的视角变化。否则,用户的眼睛告诉他们的信息与他们通过前庭系统感受到的信息不一致,可能导致严重的不适和晕动病。为了确保这种情况不会发生,头戴式显示器需要某种跟踪系统来注册用户的方向。更重要的是,它们必须具有非常低的延迟。通过使用陀螺仪或加速度计来跟踪用户的头部位置是可行的。真正的挑战在于创建一个系统,能够跟踪用户的头部运动,相应地调整图像,并快速地在两个屏幕上显示给用户,以至整个过程对用户来说是无感知的。

使延迟低到足够真实感知的“理想区间”介于1到20毫秒之间。这意味着整个过程,从用户的头部移动到新渲染图像出现在屏幕上的瞬间,应该在这个范围内完成。

为了说明这有多快,考虑现代台式显示器和笔记本电脑的常见刷新率。以60 Hz的帧率为例,你现在可能正在看的屏幕可以以每秒60帧的速度更新,这意味着单个帧持续16.6毫秒。

然而,对于立体视觉,您需要为两个完全不同的视角渲染两倍的像素数量,并考虑用户的头部、身体和眼睛的精确运动。

苹果公司之前的现状

在过去的十年中,优秀混合现实头戴式显示器所需的技术要求与制造商可用的硬件之间存在较大差距。Oculus和Magic Leap等公司试图首次大规模商业化这项技术,不得不在许多权衡之间进行选择。

首款Oculus Rift头戴式显示器选择了单眼显示而不是立体视觉显示,以减少所需的计算。考虑到它是由Palmer Luckey通过Kickstarter筹集的200万美元的募资所制作,这款头戴式显示器令人印象深刻。尽管有些令人信服,用户还是抱怨由于延迟和像素化而引起的不适和晕动病。

然而,事实证明,研发资金并不是创造出优秀混合现实体验的限制因素。Magic Leap的兴衰故事是一个很好的案例。该公司成立于2010年,筹集了20多亿美元的资金,最终在2018年推出了第一款头戴式显示器Magic Leap One —— 八年后。这款产品的图形像素化、高于预期的延迟和狭窄的视野范围让很多人感到失望。到2020年,Magic Leap的估值从64亿美元下降到仅剩4.5亿美元。

这些早期参与者面临的主要劣势是它们依赖现成的硬件。使用外部设计的显示器、芯片和其他组件创建混合现实产品必然意味着他们无法对整个产品具有所需的控制,以确保高质量的用户体验。因此,直到2023年之前的十年中,混合现实行业一直是缓慢、令人沮丧的改进过程,结果温吞的成果。

但一切都因苹果公司在2023年6月推出Vision Pro而发生了变化。

Vision Pro的胜利

苹果公司的Vision Pro头戴式显示器与之前的所有产品最明显的区别在于设备的每个硬件组件都经过精心设计。

在图形方面,Vision Pro配备了一个立体视觉显示器,采用两个1.4英寸的微OLED屏幕。每个屏幕拥有超过1100万个像素,这意味着每个像素宽约为7.5微米,约为人类血细胞直径的大小。这也意味着Vision Pro拥有市场上最高分辨率的显示屏。为了在两个屏幕上显示高质量的图形,苹果使用了自家设计的M2芯片,该芯片也用于最新的MacBook型号(截至2023年)。

视觉Pro在渲染方面还使用了一项非常重要的技术,称为凹凸渲染(foveated rendering)。这利用了人眼看东西时焦点区域相对较小的事实,即我们整个220度视野中约为3度。焦点区域被称为中央凹,它是我们视觉的最高分辨率部分。中央凹完全取决于眼睛注视的位置。视觉Pro跟踪用户的眼睛以确定他们专注于显示的哪个部分,并仅集中在该显示的小部分中以高分辨率渲染图形。这使得视觉Pro能够为用户创造出无缝清晰的体验,并为M2芯片优化计算。

至于延迟,视觉Pro设备能够在用户移动开始到显示变化之间仅用12毫秒的速度完成。在其背后是90Hz的帧率屏幕和R1芯片,苹果专门为处理视觉Pro传感器信息而设计的芯片。值得一提的是,这些传感器包括两个红外线照明器、十二个摄像头和当然,一个激光雷达系统

视觉Pro不仅仅是一个只显示生成图像的虚拟现实头戴式显示器,它还可以进行增强现实,并允许用户在这两种模式之间切换。虽然增强现实是虚拟现实的近亲,并且常常被一起讨论,但许多从事增强现实的人认为它的特定挑战比纯粹的虚拟现实更困难。

增强现实的核心是将用户在周围环境中看到的内容与叠加在其上的数字图像进行混合。已经开发了两种主要设计来实现这种效果:光学增强现实和直通增强现实。光学增强现实是真正令人惊叹的光学技术。它涉及制造可以将图像从玻璃的一个区域折射到用户的眼睛的精密光学透镜,从而创造出用户看到另一个图像叠加在周围世界上的效果。

虽然这项技术令人难以置信,但光学增强现实实现的视野范围也比沉浸式头戴式显示器所能实现的范围显著有限。

另一种增强现实方法称为直通增强现实,这也是苹果选择在视觉Pro中包含的方法。直通增强现实依赖于面向外部的摄像头记录外部世界,并通过数字显示器将其反馈给观看者。直通增强现实的优势在于用户在使用增强现实时可以保留更大的视野,并可以选择切换到更沉浸的虚拟现实模式。由于头戴式显示器前面有所有这些摄像头,这也意味着视觉Pro可以做一些很酷的事情,如记录3D照片和视频。

光学幻觉的简要历史

虚拟和混合现实实际上属于更大范围的光学幻觉家族。自至少柏拉图的《洞穴寓言》以来,人类就一直被幻觉和真实之间的区别所吸引。视觉艺术的历史实际上是对现实如何被模仿和扭曲的逐渐研究。

在文艺复兴时期,伟大的大师们在完善在二维画布上显示比例和深度的技巧的同时,也研究了透视的重要性。汉斯·霍尔拜因(Hans Holbein)的《大使》是一个引人入神的早期作品,它使用投影映射实现了独特的效果。从正面看,绘画描绘了两位庄严大使面前的一个奇怪畸形的头骨。然而,从侧面看,完美比例的头骨展现出来,大使们在背景中被扭曲。

了解人类感知属性的关键是学习光的属性。即使直到最近一百年,我们才对光的本质有了基本的了解,但在此之前的几个世纪,艺术家和工程师已经通过镜子、反射表面、光线和阴影模式获得了大量关于光的几何特性的线索。即使没有普及的电灯照明,19世纪已经有能够投影移动图像的装置。

随着摄影在19世纪的兴起,开始制造模仿三维感知的设备。立体镜成为一种能够增强查看捕捉图像体验的流行设备。通过从略微不同的角度拍摄照片,并通过适当的镜头呈现它们,用户可以获得在3D中查看图像的效果。

类似的技术现在也在3D电影中使用。传统的蓝红3D眼镜称为双色眼镜。正在观看的显示屏由两个重叠的图像组成,每个图像具有不同的颜色。眼镜中的红色镜片只允许红色图像通过,而蓝色镜片只允许蓝色图像通过。通过向每只眼睛呈现略有不同的图像,模拟出深度的幻觉,创造出3D效果!

正如我们所看到的,今天的混合现实技术只是几百年来发展的新一代。

接下来会发生什么?

虽然是游戏行业真正推动了虚拟和混合现实技术的增长,但这些设备的愿景始终是最终达到大众市场。这正是苹果的Vision Pro的明确愿景。它的营销努力试图将Vision Pro与“虚拟”或“增强现实”这样的词汇区分开来,因为这些术语在娱乐领域中已经很常见,它更倾向于使用“空间计算”这个术语。

这是因为Vision Pro等头戴式显示器的最终目标是完全取代笔记本电脑或台式电脑界面。早期设备的高延迟和有限视野使得在混合现实头戴式显示器上进行工作变得不切实际。然而,苹果的Vision Pro似乎已经达到了使其版本的空间计算成为一种可行的工作方式和其他实际任务的必要性能门槛。如果它实现了这一点,多年来无处不在计算的梦想可能现在离现实更近了一步。虽然您仍然需要戴上头戴式显示器来实现这一点,但苹果为Vision Pro用户提供了在物理位置上安排数字文件并通过自然手势与其交互的能力。

值得注意的是,尽管苹果的方法涉及头戴式显示器,但其他公司对“空间计算”的解释可能不同。例如,HumaneDynamicland等公司正在研究能够更接近“无处不在计算”最初意图的技术。Humane主要侧重于使用投影映射和传感器显示信息,而Dynamicland则允许用户通过物理方式操纵数字信息。

这种广泛分发头戴式显示器可能会改变桌面环境的转变,并不仅限于桌面环境。从建筑师到医生等各行各业的专业人员都可能受益于工作场所的增强现实,前者可以更准确地可视化建筑计划,而后者可以通过实践或排练手术来提高技能。

混合现实的最后一个令人兴奋的类别,虽然可能还远未来,是增强自然人类感官的能力。迄今为止,计算机交互一直是非实体化的。我们通过屏幕与计算机互动,计算机主要用于增强我们的理性能力。尽管我们在处理越来越多的信息方面变得更加优秀,但我们的其他感官如视觉、嗅觉、触觉和味觉却从未经历过同样级别的增强。

高功率的移动计算头戴式显示器是改变这一点的第一步。很容易想象,高功率的头戴式显示器有一天可以帮助改善人类视力,使我们能够在不改变仪器的情况下进行显微镜和望远镜观察。跨越电磁光谱的观测也可能很快变为可能,就像在相机应用程序上更改照片滤镜一样简单。

通过增强的视觉,我们可以在夜间看得更清楚,并以我们从未想过的方式审视世界。甚至有人正在使用虚拟现实头戴式显示器增强我们的嗅觉

现在混合现实头戴式显示器的性能已经足够好,我们可以在上面做更多事情。目前几乎没有为混合现实开发的应用程序。然而,现在硬件已经跟上了,软件也只是时间问题。混合现实头戴式显示器承诺以全新的方式感知和与世界互动。经过50多年的二维屏幕、键盘和鼠标,我们将兴奋地见证我们的计算界面可能发生的巨大变化。

评论

所有评论

推荐阅读

  • 拜登禁止中国投资人支持的加密矿企在美国导弹基地附近拥有土地

    美国总统拜登发布命令,禁止一家中国投资人占多数股权的加密货币挖矿公司在怀俄明州的一个空军基地附近拥有土地。根据美国财政部周一发布的一份声明,拜登还要求将该土地出售。

  • Tether CEO :Ripple首席执行官的言论散布了人们对USDT的恐惧

    Tether首席执行官Paolo Ardoino在社交媒体平台上回应了Ripple首席执行官Brad Garlinghouse在最近一次有关稳定币Tether ( USDT ) 的采访中发表的评论。Garlinghouse在采访中表示,美国政府正在追捕 Tether,这对我来说很清楚。 Ardoino表示,据报道,一位不知情的首席执行官领导一家正在接受 SEC 调查的公司推出了具有竞争力的稳定币(cui prodest),散布了人们对USDT的恐惧。Ardoino强调Tether在为新兴和发展中地区无银行账户社区提供金融服务方面发挥着关键作用,而这些地区往往被传统金融机构忽视。他进一步断言,Tether坚持严格的透明度和监管遵守标准,这体现在其遵守OFAC/SDN名单、与Chainalysis的合作以及与国际执法机构的广泛合作以检测和防止非法活动,从而增强其生态系统的安全性。

  • Multisig Exploit黑客相关地址开始活跃并进行洗钱

    据MistTrack监测,Multisig Exploit黑客攻击是ETH历史上的第一次黑客攻击,其中超过15万个ETH被盗,当时价值约3000万美元(早在2017年7月)。今天它的价值接近4.5亿美元,涉及的0xb37647开头地址目前仍然有超过8万枚ETH。该地址总共向7个不同的地址发送了约7万枚ETH,每个地址有1万枚ETH。在过去的几个月里,这些不同的地址一直在慢慢地洗钱。其中一个0x5167052开头地址最近又开始活跃。

  • Web3 AI平台ChainML完成620万美元种子轮扩展融资,Hack VC领投

    Web3 AI 平台 ChainML 宣布完成 620 万美元种子轮扩展融资,Hack VC 领投,Inception Capital、HTX Ventures、Figment Capital、Hypersphere Ventures 和 Alumni Ventures 等参投,该平台还宣布推出其代理基础层 Theoriq。

  • 元宇宙项目 Baby Shark Universe 以 3400 万美元估值完成种子轮融资

    元宇宙项目 Baby Shark Universe 宣布完成种子轮融资,估值为 3400 万美元,投资方包括 Animoca Brands、CREDIT SCEND、Sui Foundation、Comma3 Ventures、Creditcoin、GM Ventures、Neuler、Notch Ventures、X+ 和 Planetarium 等。具体金额暂未披露,所筹集的资金将用于开发和全球营销。

  • 5月13日晚间要闻速递

    1. BTC 突破 63000 美元

  • 香港证券交易所确认加密货币ETF对中国大陆投资者不可用

    据 Coindesk 报道,香港证券交易所确认加密货币ETF对中国大陆投资者不可用,香港的加密货币 ETF 由于其独特的实物赎回模式,将提供绕过中国大陆资本管制的手段。

  • Web3社交基础设施UXLINK ​​​​​​完成500万美元融资

    Web3 社交基础设施 UXLINK 宣布完成新一轮 500 万美元融资,由SevenX Ventures、INCE Capital和HashKey Capital领投,据悉,目前UXLINK 的融资总额已突破 1500 万美元。

  • 中国警方破获价值 2.96 亿美元非法加密货币交易案

    中国警方在吉林省磐石市打击了一个非法加密货币交易团伙,逮捕了六名涉案人员。他们经营的“地下银行”利用加密货币的匿名性和跨境转账特点,为韩元和人民币之间的非法兑换提供服务,涉及金额达21.4亿元人民币(约合2.96亿美元)。被捕人员中包括韩国采购代理商、电商公司和进出口企业。

  • 香港证监会告诫公众提防名为“LENA Network”的可疑拟资产投资产品

    香港证监会告诫公众提防名为“LENA Network”的可疑虚拟资产投资产品,该产品涉及与虚拟资产相关的质押及借贷安排,并声称向投资者提供高回报。该投资产品并未获证监会认可向香港公众发售。证监会注意到,香港公众可透过互联网取览关于该产品的资料及接触该产品。证监会提提切忌尽信那些“好得令人难以置信"的投资机会,及在作出投资决定时保持警惕。