未来AR的深度解读从计算机视觉角度看现在和过去

author
3 minutes, 3 seconds Read
凌海滨是亮风台信息科技的首席科学家,今次将着重聚焦增强现实AR的技术科普和概念介绍。 

兹澄清,本文仅旨在科普和介绍,非严谨学术论文。恳请学术圈的朋友们以往一贯的宽容、友好和畅通正面思路,作出评论,关于AR更为深入严谨的研究,请查阅王涌天老师所著的《增强现实技术导论》。 

探究增强现实AR的应用前景

1、揭秘增强现实AR与虚拟现实VR的历史和区别

增强现实AR和虚拟现实VR这两个概念可谓历史悠久,然而,近年来二者在科技媒体上的频繁出现,却先后引起了人们的广泛关注。本节将简要介绍它们的历史及区别以破解谜团。

 

首先,我们不妨思考一个问题:什么是现实?这是一个哲学性极强的问题。柏拉图这样说过:“眼见为实”,恕我过于深入。回归计算机世界,现实可定义为“看见即为存在”。

2、虚拟现实VR与增强现实AR的区别

现实是以影像的方式呈现给人类视觉系统的对于真实世界的感知信息。但是,有追求的计算机专家们可以通过某些方式生成虚拟影像,只要逼真到一定程度,就能够愚弄人类的视觉系统,这就是虚拟现实(VR)的定义。

 

然而,与虚拟现实不同,增强现实(AR)是指将虚拟世界与现实世界进行融合,打破了现实和虚拟之间的壁垒,形成了一种全新的“增强现实”体验。AR技术能够将虚拟元素与真实场景进行融合,呈现更加逼真的感官体验,用户无需进入虚拟空间,只需要通过AR设备就能在真实世界中享受更多趣味和便利。与VR不同的是,AR更注重的是对于真实世界的扩充和提升,而不是替代或虚构一个新的世界。

(图1虚拟现实3D个人影院Sensorama)

3、增强现实AR的定义和应用

 

那么,增强现实AR又是什么呢?

经常会有人称赞我们公司做的VR技术很棒,虽然我们很高兴但也有些尴尬。实际上,我们所做的是AR,是AAAAA R!那么,什么是增强现实AR呢?维基百科的定义如下:

增强现实(AR)是指通过在现实世界中叠加虚拟世界,创造出一种增强现实体验的技术。AR技术能够将虚拟元素与现实场景进行实时融合,并在用户的视野范围内呈现,从而增强现实的感观体验。用户可以通过相关的AR设备,如AR眼镜等,看到不同于真实世界的、具有交互性的全新信息,从而实现触手可及的虚实切换。 

增强现实AR技术的应用领域十分广阔,例如教育、医疗、娱乐、军事等领域,AR技术能够创造出更加逼真的虚拟世界,带给人们全新的感官体验并改变了我们的生活方式。未来,随着AR设备等硬件设施的普及和技术的不断提升,AR技术在各行各业中的应用前景不可限量。

 

3、增强现实AR的应用范围

增强现实(AR)技术使用电脑生成的声音、视频、图形或GPS数据等方式对现实世界的元素进行补充(或增强),以此来拓展现有的感知能力和现实感受。因此,AR技术的功能在于增强用户对现实的感知。

 

AR技术中的R,即真实世界环境,与VR技术中的R相比,更接近真实。而在AR技术中,增强的A的概念非常广泛:一般地,任何能为R提供附加信息的技术都可以算作AR技术的领域。除了像HoloLens中那样结合实时影像的各种花哨效果,像ADAS(高级辅助驾驶系统)中实时显示的车辆信息也属于AR技术的应用范围。 

增强现实AR技术的应用领域日渐广泛,可以应用于游戏、教育、旅游等方面。例如,商家可以用AR技术对产品进行展示和营销,学生可以通过AR技术更加直观地学习地球科学和生物学等学科,而游客也可以通过AR技术深入了解旅游景点的历史和文化背景等。因此,AR技术的应用范围更多样化,创造出更加精彩的用户体验,大大提升了人们的信息获取和沟通方式。

 

4、AR技术中信息的叠加和AV技术介绍

AR技术中可以叠加任何能为真实场景提供额外信息的技术,例如,导航系统中显示的实时路线、辅助生产系统中显示的指示箭头等都可以算作AR技术。需要重申的是,AR技术中的信息是叠加在真实场景中,而不是像VR技术中一样叠加在虚拟场景中。

 

除此之外,还有一个小众研究方向,即将一部分真实场景中的内容叠加到虚拟场景中,学名“增强虚拟化”(Augmented Virtualization,简称AV)。

   图2中的例子能更好地反映AR和VR的区别。上方展示的是典型的VR设备和人眼所接收到的虚拟影像,而下方则是AR设备和实时的AR影像。通过比较这一组例子,我们可以看到AR技术中的信息是叠加在真实场景之上,能够为用户创造出更加立体和真实的感官体验。

5、AR与VR的交互方式以及市场前景

与VR技术将人和真实世界隔离完全不同的是,AR技术与现实世界产生交互关系。不必多言AR和VR之间的优缺点。

 

当然,像您这样睿智的人一定不会喜欢被虚拟假象所迷惑。另一方面,Digi-Capital对于AR/VR市场前景的预测显示,到2020年,AR/VR市场总体规模将达到1500亿美元,其中AR市场占据1200亿美元,VR市场则占据300亿美元。

从另一角度来看,AR和VR也有一个比较明显的相似之处——都是通过影像的方式实现人与计算机之间的交互,因此,它们都需要生成或处理影像以及将影像展示给人眼。AR和VR之间的最大不同在于前者基于对现实的加工,后者则基于虚拟生成。

简而言之,AR和VR的区别在于: 

  • AR技术与现实世界相互交互,而VR技术与现实世界完全隔离
  • AR基于对现实影像的加工,而VR则基于虚拟生成

6、AR技术的起源和发展历程

VR技术趋近现实,AR技术则超越现实。 

接下来,我们主要探讨AR技术,特别是它与VR技术的不同之处。那么AR技术是如何发展起来的呢?一般认为,AR技术的鼻祖是1966年哈佛大学教授Ivan Sutherland发明的光学透射式头盔显示器(STHMD)。该设备将虚拟和现实相结合,成为增强现实技术的奠基之作。术语“增强现实”最早是由波音公司的研究员Thomas P. Caudell在90年代初提出的。1992年,美国空军的Louis Rosenberg和哥伦比亚大学的S.Feiner等人分别提出了早期的原型系统Virtual Fixtures虚拟帮助系统和KARMA机械师修理帮助系统。

 

   AR技术的进步离不开硬件和软件技术的支持,如近年来广受欢迎的智能手机和智能眼镜。除此之外,AR的实现离不开各种传感器如摄像头、陀螺仪和加速度计等。AR技术的发展使得其在游戏、娱乐、教育、医疗和军事等领域有了更多的应用。AR技术的前景在各个领域都备受期待。

7、AR技术的应用和发展历程

早期的AR系统主要应用于工业制造维修等专业领域,这些系统笨重且画质较差(相对于现在的系统而言)。这一方面是由于当时的计算能力和资源所限,另一方面是因为算法技术的发展还未到位,同时移动数字影像设备还远未普及到个人用户中。

 

随着计算能力、资源和算法技术的迅速发展,以及移动数字影像设备的普及,AR技术的应用和研究也取得了显著进展。特别是2000年Bruce Thomas等研发的ARQuake系统和2008年推出的Wikitude。ARQuake将AR技术引入到移动可穿戴设备领域,而Wikitude直接将AR技术应用于手机端。

现如今,AR技术的应用范围越来越广泛,除工业制造维修外,AR技术还被广泛应用于游戏、教育、旅游、医疗等领域。尤其最近开始热门的增强现实眼镜HoloLens和神秘兮兮的Magic Leap,更将AR技术应用推向了前所未有的高度。

2、AR中视觉技术的作用

我们接下来从软件技术和智能理解的角度来介绍AR技术。

 

AR技术中的视觉技术起着至关重要的作用。AR技术能够超越之前的图像识别和跟踪技术,将虚拟的3D图像与现实场景进行融合。这主要依赖于计算机视觉中的对现实场景的理解和虚拟图像的渲染。

AR技术中视觉技术主要包括以下几个方面:

  • 图像识别与跟踪技术:通过图像识别和跟踪技术,AR技术能够精确地找到现实场景中的目标图像,并能够跟踪它们的位置和移动。
  • 3D建模和渲染技术:通过3D建模和渲染技术,AR技术能够将虚拟图像与现实场景精确融合,使用户感觉到虚拟图像就像是现实场景的一部分。
  • 视觉交互技术:通过视觉交互技术,AR技术能够与用户进行实时交互,使用户能够通过AR技术与现实场景进行更加自然、有效的交互。

在AR技术的发展过程中,视觉技术将会扮演着越来越重要的角色,这将进一步促进AR技术的发展和应用。

 

增强现实技术的流程及其特征

增强现实技术是一项将虚拟信息与真实场景相结合的技术,依据Ronald Azuma在1997年的总结,增强现实系统一般具有三个主要特征:虚实结合,实时交互和三维配准。

 

从虚实结合角度看,AR技术将现实世界和虚拟世界相融合,实现了真实世界与虚拟信息的结合。这样一来,人们可以通过AR技术在现实场景中增加、替换或者隐藏虚拟物体,为现实场景提供更加丰富、灵活和动态的信息。

从实时交互角度看,AR技术可以根据用户的需要和行为进行实时交互。用户可以通过手势、语音和其他方式与AR系统进行交流,实现更加直观、快捷和自然的交互方式,提高信息获取和传递的效率。

从三维配准角度看,AR技术需要将虚拟信息准确地叠加在真实场景中,使得虚拟信息与真实场景具有较高的匹配度。要实现这个目标,AR技术需要依赖于计算机视觉和传感器技术,实现对真实场景的感知和对虚拟信息的渲染,从而实现虚实信息的无缝衔接。

总之,增强现实技术具有虚实结合、实时交互和三维配准等重要特征。随着AR技术的不断发展和应用,这些要素也将不断得到完善和提高,为AR技术的推广和实现创造更加有利的条件。

AR系统的概念流程及其组成部分

增强现实技术是一项将虚拟信息与真实场景相结合的技术,在实现虚实结合的过程中,AR系统需要完成数字成像、感知理解、三维交互、虚实结合等多个环节。下面,我们以AR辅助维修系统为例,来介绍AR系统的概念流程及其组成部分。

 

AR系统的概念流程可以简单地分为以下几个步骤:

  1. 从真实世界出发,经过数字成像。
  2. 系统通过影像数据和传感器数据一起对三维世界进行感知理解,同时得到对三维交互的理解。
  3. 3D交互理解的目的是告知系统要“增强”的内容,而3D环境理解的目的就是告知系统要在哪里“增强”。系统需要实时对周围的真实3D世界进行精准的理解,从而达到强烈的真实感。
  4. 一旦系统知道了要增强的内容和位置,就可以进行虚实结合,这一般是通过渲染模块来完成。
  5. 最后,合成的视频被传递到用户的视觉系统中,从而达到增强现实的效果。

AR系统主要由数字成像、感知理解、三维交互和虚实结合等组成部分构成。

 

  1. 数字成像:数字成像是AR系统的第一环节,通过离线图像处理或实时图像采集,将真实世界转化成数字世界,为后续的感知理解提供基础数据支持。
  2. 感知理解:感知理解是AR系统的核心环节,系统需要将数字成像数据和传感器数据进行综合处理,对真实世界进行感知理解,并为接下来的三维交互提供精准的数据指导。
  3. 三维交互:三维交互是AR系统的重要环节,系统需要根据用户的需求和行为进行实时交互,从而实现更加自然、直观、快捷和有效的交互方式。
  4. 虚实结合:虚实结合是AR系统的最终目标,将虚拟信息与真实场景相结合,形成一种全新的增强现实效果,提供更加丰富、灵活和动态的信息。

综上所述,数字成像、感知理解、三维交互和虚实结合等组成部分是AR系统实现虚实结合的重要环节,各环节之间紧密相连,彼此支持,共同构成了AR技术完整的概念流程。

 

  AR技术中,环境和交互的精准理解是目前的瓶颈所在。虽然数据采集和显示端、渲染端方面已经取得长足的进展,但是对于中间的环境和交互的准确理解却仍然面临困难。

一些聪明的人或许会问,如果运用基本虚拟生成的内容来代替环境和交互,不就能够解决问题了吗?这时候,我们不得不提到虚拟现实技术,它在有关方面的应用也取得了长足的进步。自2015年以来,国内涌现出大量的虚拟现实公司,不仅有上百种VR眼镜,还有大量与虚拟现实相关的技术词汇。然而在本文中,我们只着眼于AR技术,特别是对于多模态(影像+传感器)环境和交互理解这两个领域的探讨。

事实上,正是由于环境和交互理解这两个领域充满了各种明暗的难点,让很多不知凡几的“猛士”选择了放弃。但同时,这也是AR技术中的一个重大机遇,因为只有解决了这些难点,AR技术才能更好地将虚拟信息与现实场景相结合,实现更加自然、真实的交互体验,为人类带来更多的便利和乐趣。

AR技术中常见的坑型解析

在AR技术的发展过程中,真正的猛士常常需要面对各种坑群,下面我们来一起分析几个常见的坑型:

 

环境坑:人类脑细胞中的大多数都是用来处理和理解双眼所收集到的视觉信息的。我们强大的认知能力使我们能够轻松应对各种环境变化,甚至能够将它们利用起来。例如,我们的认知能力能够很好地处理光照变化,通过阴影分析物体的三维结构关系等。而对于计算机视觉算法来说,这些变化却是摆在眼前的坑,甚至是大坑。 

理解这些坑的存在,也就能够理解为什么很多优美的demo实际应用起来却较为困难。这些难点包括光照变化、形状变化、纹理变化、姿态变化、相机变化、背景变化以及前景变化等等;还有阴影、遮挡、噪点等问题也要考虑进去。

交互坑:交互坑是AR技术中另一个常见的挑战,尤其是在多模态情况下,交互问题成为了一个难题。例如,当我们需要通过手势来控制虚拟物体时,计算机需要辨识我们的手部信息,并将其转化成对虚拟物体的控制指令。然而,手部姿态、位置等因素都会对识别产生影响,进而影响交互效果。

 

综上所述,AR技术中环境坑和交互坑是技术瓶颈和挑战,需要不断努力和探索。只有通过不断地研发,开发出更加高效、精准的算法,才能更好地将虚拟信息与现实场景相结合,为用户带来更好的使用体验。

AR技术中常见的坑型解析

在AR技术中,随着成像环境的变化和交互方式的多样化,研究和应用计算机视觉算法也面临着一系列的挑战。下面我们来一起分析其中两个常见的坑型:

 

环境坑:环境的变化常常给计算机视觉算法以及AR带来很大的挑战,即环境坑。这些变化包括光照、噪声、干扰、畸变等,这些因素经常是人类视觉系统难以察觉的。这也就导致了小白用户们对于AR技术的工作能力表示狐疑。因此,我们需要开发更加高效、精准的算法来应对这些挑战。 

学术坑:另一个常见的坑型是学术坑。学术研究成果可以成吨来计,但是每一篇文章都有其不同之处,即使是关于同一主题的文章也会有所差异。因此,我们需要持续探索和发现更好的算法,来应对不同的问题和挑战。

综上所述,AR技术中的环境坑和学术坑都是技术瓶颈和挑战。只有不断研发和创新,才能让AR技术越来越成熟、更加先进,给用户带来更好的使用体验。

 

AR技术中常见的坑型解析

在AR技术的研发和应用过程中,我们需要面对各种挑战和坑型。下面我们来一起分析其中的一种:

 

学术坑:学术研究成果是AR技术推动发展和进步的重要驱动力之一。然而,从实用解决方案的角度出发,我们需要谨慎看待学术论文,特别是新的论文。有些论文可能会涉及到一些设定和细节,如该算法是否对光照敏感,是否可以在手机端达到实时等等,这些问题可能会给实际应用带来影响。因此,对于没有相关经验的观众来说,最好会有具有相关训练经验的成熟观众陪伴才更好。 

综上所述,AR技术中的学术坑是一个需要关注的问题。我们需要不断地学习、探索,将学术成果转化成实用的解决方案,为用户带来更好的使用体验。

 

AR技术的应用前景和挑战

AR技术在众多应用领域中都有着广泛的应用前景和钱景。虽然存在着各种各样的坑,但它仍然吸引着越来越多的追随者。

 

其中,学术坑是一种常见的坑型,它指的是在AR技术的开发和应用过程中,需要面对各种假设和设定,过多的假设可能会导致实际应用效果出现偏差。因此,在面对这种坑时,我们需要尽早地教育上帝,科普用户,明确定义需求,防范一些可能出现的问题。除此之外,还存在开源代码坑等其他类型的坑,需要注意。

尽管如此,AR技术仍然有着巨大的应用前景和钱景。从游戏到商业,从娱乐到教育,AR技术都可以发挥出巨大的作用。从根本上来说,AR技术的终极形态可能会改变当前的人机交互模式,比如类似微软HoloLens的设备可能会成为未来人机交互的主流。

要想在AR技术领域获得成功,我们需要坚定信心,持续探索,不断创新。只有在坚定的信念和扎实的技术支撑下,才能克服各种挑战,实现AR技术的腾飞。

AR技术中的跟踪配准技术

AR技术中的跟踪配准技术是非常重要的一部分,它可以让AR应用更加精准地跟踪和配准现实场景中的物体,提高用户体验。

 

然而,在实际应用中,跟踪的精确性难以保证,可能会导致用户体验受到影响,出现令人不爽的抖动。为了解决这个问题,一种简单有效的方法是把要叠加的内容做得动感十足,这样即使出现抖动,用户也不会感觉到不适。在实际应用中,还可以从渲染端入手解决问题,或者在算法层面对具体用例进行优化定制。

AR应用的成功,不仅仅取决于算法工程的实现,还需要产品设计、内容制作等方面的深度结合。只有在各个方面紧密合作,才能打造出一个优秀的AR应用。

AR跟踪配准技术的发展

AR技术中的跟踪配准技术在发展中不断完善和优化。它的发展可以从以下几个方面来看:

 

  • 跟踪算法的发展:随着计算机视觉技术和深度学习技术的不断发展,AR中的跟踪算法也在不断优化和提升,可以更加精准地跟踪和配准物体。
  • 硬件设备的提升:AR技术需要精准的跟踪和定位,硬件设备的提升可以为跟踪配准技术的发展提供更好的支持。
  • 多传感器融合技术:通过多种传感器的数据融合,可以提高AR应用的可靠性和精度,使跟踪配准效果更加出色。

总的来说,AR技术中的跟踪配准技术是一个不断发展和优化的过程,它的不断完善将为AR应用的未来发展提供更好的支持。

 

AR技术中的三维配准

在AR技术中,三维配准是连接虚拟与现实的最核心技术,没有之一。它的目的是对影像数据进行几何上的精确理解,以便将虚拟数据叠加到真实物体上。

 

对于AR应用中的三维配准,定位问题是非常重要的一部分。例如,在AR辅助导航中,如果想要将导航箭头“贴在”路面上,就必须先确定路面的位置。在这种情况下,AR系统会在事先设定的统一的世界坐标系下确定地面的位置,然后将要贴的箭头虚拟地放在这个地面上,并通过与相机相关的几何变换将箭头画在图像中相应的位置,最终实现AR应用的功能(如图5)。

随着AR技术的不断发展和普及,三维配准在AR中的应用也变得越来越重要。通过精确的三维配准技术,我们可以实现更加真实、逼真的AR应用体验,为用户带来更加优秀的AR体验。

AR辅助导航 

AR技术中的三维跟踪配准发展历程

在AR技术中,三维跟踪配准技术存在着很多挑战,尤其是在考虑到移动设备有限的信息输入和计算能力的情况下。为了解决这个问题,基于视觉AR的发展历程中经历了从简单定位到复杂定位的几个阶段,下面是发展过程的简单介绍:

 

  • 二维码:二维码是AR技术中最早使用的定位工具,其原理与微信二维码类似。它的主要功能是提供稳定、快速的识别标识,并且可以用于易于跟踪和定位平面等方面。在AR中,二维码的模式相对简单,方便精确定位(如图6)。
  • 标记:标记是一种比二维码更加灵活、更加高效的定位工具。它可以根据特定的形状和颜色,实现对物体的高精度跟踪和定位。
  • SLAM技术:SLAM技术是指同时定位与地图构建技术,它可以通过多传感器数据的融合,以及对运动模型的建立和优化,实现对复杂环境中的物体精确跟踪和定位。

总的来说,随着AR技术的不断发展和普及,三维跟踪配准技术正在不断完善和优化,为AR应用的未来发展提供更加坚实的技术支持。

 

二维码:AR二维码是一种简单易用的定位工具,它不仅提供了稳定、快速的识别标识,还可以用于易于跟踪和定位平面等方面,被广泛应用于AR领域。其模式相对简单,方便精确定位(如图6)。 

AR二维码 

AR技术中二维图片的应用

AR二维图片

在AR技术中,除了二维码外,二维图片也是一种常见的定位工具。与二维码不同的是,二维图片具有更多的应用和扩展性,如纸币、书本海报、相片卡牌等。与二维码相比,二维图片更具有自然性和美感,但同时也需要更强大的算法才能实现精确的AR定位。值得注意的是,并非所有的二维图片都适用于AR定位。在极端情况下,一个纯色的没有任何花纹的二维图片是无法用于AR定位的。

 

AR技术中三维物体的应用

AR三维物体

在AR技术中,三维物体也是一种常见的定位载体。相比二维图片,三维物体更加逼真,更具有展现实物的效果。一些简单规则的三维物体,如圆柱状的可乐罐,通常可以作为虚实结合的载体。稍微复杂一些的三维物体,通常可以用类似的方法处理或分解成简单物体处理,例如在工业维修中的情况。对于一些特定的非规则物体,如人脸,由于有多年的研究积累和海量的数据支持,已经有很多算法可以进行实时精准对齐。然而,如何处理通用的物体仍然是一个具有挑战性的问题。

 

需要注意的是,图片是无法通过视觉算法进行定位的。如图7所示,两张卡牌可以用来定位虚拟战士,从而实现虚实结合的效果。

AR技术中三维环境的挑战和应对

近年来,在无人车和机器人等领域的应用中,三维环境感知已经取得了成功的效果。因此,人们对在AR中实现三维环境感知充满了期望。然而,在AR中实现三维环境感知是一个极具挑战性的问题。与无人车等应用场景相比,AR中可使用的计算资源和场景先验通常非常有限,这给三维场景理解的研发带来了巨大的挑战。 

为了解决这一问题,AR中的三维场景理解研发主要有两个显而易见的思路。第一个思路是多传感器的结合,结合多个传感器的数据来分析和理解三维场景。第二个思路是对应用进行定制,根据不同应用场景的需求,设计相应的算法。实际应用中,这两种思路常常被结合使用,以更好地应对AR中三维环境感知的挑战。

在AR技术中,二维码和二维图片的识别跟踪技术已经相对成熟,也已被广泛应用。而相比之下,三维物体和三维场景的识别和理解仍然存在巨大的探索空间。即便是在目前火爆的HO游戏中,实现真实感往往需要花费大量时间和精力。因此,进一步提高在AR中实现三维场景感知的稳定性和拓宽适用范围,是技术方面未来的发展目标之一。

 

AR技术中识别跟踪的挑战和单目AR识别跟踪简介

尽管诸如Hololens等AR设备展现了令人惊艳的识别和跟踪稳定性,但从追求完美的角度来看, AR技术中的识别和跟踪仍有许多可以提升的空间。

 

3、单目AR识别跟踪简介

在AR中,识别和跟踪技术至关重要。下面简单介绍一下AR中的二维图片跟踪和三维环境理解。二维码的技术已经非常成熟,但受到应用场景的限制,其应用范围较为有限。相比之下,三维物体识别的技术介于二维图片和三维场景之间,具有更广泛的应用前景。不过,由于单目视觉无法获得三维信息,因此在进行三维物体识别时仍需采用其他方法。

 

AR技术中二维平面物体的跟踪

增强现实AR技术中,二维平面物体的跟踪问题可以归结为以下几点:在视频流中实时检测模板图片R的三维精确位置(相对于相机)。比如,在一部智能手机的实时视频中,如果我们想要跟踪人民币上的图案,就可以将该图片作为模板 R,将实时获得的图片记为 It(表示在时间t获得的视频图像),然后通过计算得到 R 在 It 中的几何姿态(通常包括三维旋转和平移),记为 Pt。这样,我们就可以将美元的图片以同样的姿态叠加到视频中,实现超炫的效果。当然,更广泛的用途需要更加复杂的应用和计算。

 

AR技术中的跟踪定位方法

   上述案例中的跟踪定位是如何实现的呢?目前,主要有两种主流的跟踪定位方法,一种是直接法(direct method,有时也称为全局法),另一种是控制点法(keypoint-based)。

直接法:直接法通常通过优化方法来寻找最佳目标,即姿态 Pt。这种方法涉及到三个主要元素:

(1)如何定义好和不好的图像,

(2) 如何定义像素运动和像素强度变化之间的关系,

(3)如何优化求解姿态 Pt。

控制点法:控制点法则是通过检测不同图像之间的特征点来进行跟踪定位,这种方法涉及到以下几个主要步骤:

(1)提取特征点,

(2)计算特征点间的关系,

(3)寻找相邻两帧之间的对应点,

(4)计算姿态并跟踪目标。

AR技术中的跟踪定位方法

   上述案例中的跟踪定位是如何实现的呢?目前,主要有两种主流的跟踪定位方法,一种是直接法(direct method,有时也称为全局法),另一种是控制点法(keypoint-based)。

直接法: 直接法通过优化方法来寻找最佳目标姿态 Pt,包括以下三个步骤:

1. 定义模板图和实际图像之间的相似度:将模板图像的变形版本与实际图像 It 中的区域进行比对,使得二者的相似性最大化。 

2. 确定 Pt 的位置:对于每一帧图像,在上一帧的 Pt-1 附近寻找最优解,来确定 Pt 的位置。

3. 优化 Pt 的值:通过优化求解,寻找使得仿射变换后的模板图像与实际图像之间的相似度最高的姿态 Pt。

控制点法: 控制点法则是通过检测不同图像之间的特征点来进行跟踪定位,包括以下几个主要步骤:

 

1. 特征点的提取:通过 AR 技术提取两个相邻图像之间的相同特征点。 

2. 特征点间匹配关系的计算:通过计算相邻两帧之间特征点的距离和方向关系来判定它们之间的匹配程度。

3. 相邻两帧之间的对应点寻找:根据匹配的特征点,寻找相邻两帧之间的对应点。

4. 姿态的计算和目标的跟踪:通过计算对应点的位置和运动状态来确定目标的姿态,从而完成跟踪。

AR技术中的跟踪定位方法

   上述案例中的跟踪定位是如何实现的呢?目前,主要有两种主流的跟踪定位方法,一种是直接法(direct method,有时也称为全局法),另一种是控制点法(keypoint-based)。

直接法: 直接法通过优化方法来寻找最佳目标姿态 Pt,具体可以考虑以下三方面因素:

1. 光照变化:考虑在寻找极值时对光照变化进行分析。 

2. 姿态空间的邻域大小:通过合理定义姿态空间的邻域大小,在一定范围内搜索最优解,从而加快优化的速度。

3. 优化算法:采用ESM算法或其变种,在寻找最优解时兼顾效率和准确性。

控制点法: 控制点法则是通过检测不同图像之间的特征点来进行跟踪定位,具体步骤如下:

 

1. 特征点的提取:通过 AR 技术提取两个相邻图像之间的相同特征点。 

2. 特征点间匹配关系的计算:通过计算相邻两帧之间特征点的距离和方向关系来判断它们之间的匹配程度。

3. 相邻两帧之间的对应点寻找:根据匹配的特征点,寻找相邻两帧之间的对应点。

4. 姿态的计算和目标的跟踪:通过计算对应点的位置和运动状态来确定目标的姿态,从而完成跟踪。

以上方法均可以通过 AR 技术进行实现,有效地提高视觉跟踪的准确度和实时性。

 

AR技术中的姿态估计算法

姿态估计算法是AR技术中非常重要的一环,它能够帮助AR应用快速地解决跟踪定位问题。目前,姿态估计算法主要分为直接法和控制点法两类。

 

直接法: 直接法通过优化方法对目标姿态进行寻优,其优点在于能够高效地处理图像中的光照、姿态变化等因素,从而提高准确度和适用性。

控制点法: 控制点法则是通过检测图像中特定的控制点来进行追踪定位,能够快速地解决跟踪问题。控制点法适用于实时场景下的控制点跟踪,并且能够有效地处理强光照和运动模糊等现象。

AR技术中姿态估计算法的具体实现过程:

  • 对于直接法,算法通常采用ESM算法或其变种,对姿态空间进行重新构建,并进行二阶近似的快速优化。
  • 对于控制点法,通过寻找特定的控制点(如角点、眼角、鼻尖、嘴角等)来定位目标。控制点法能够有效地处理复杂的场景变化,例如不同光照条件下的图像变化。

这两种算法可以在 AR 技术中相互配合,从而增强视觉跟踪的准确度和实时性。

 

AR技术中的控制点法实现原理

控制点法是AR技术中一种常见的图像配准方法,它通过检测图像中的特定控制点,在多个图像间建立匹配关系,从而实现图像的跟踪与定位。控制点法包括控制点提取和选择、控制点匹配和姿态估计三个主要元素,下面我们来详细阐述其实现原理。

 

控制点选择:为了保证姿态求解的准确性和效率,需要选择具有代表性和稳定性的控制点。比如人脸识别中常用的控制点有眼角、鼻尖和嘴角等特定位置。

控制点匹配:控制点匹配是指在多张图像中找到相同的控制点并建立匹配关系。通过对控制点进行匹配,我们可以计算出不同图像间的位姿关系,从而实现目标的跟踪定位。

姿态估计:在控制点匹配的基础上,我们可以利用位姿关系求解目标的姿态参数,从而实现姿态估计。

通过控制点法的实现,我们能够高效、快速地计算准确的姿态参数,从而实现 AR 技术中的跟踪定位目标。同时,我们可以在不同应用场景下,选择不同的控制点和匹配方式,优化算法,提高跟踪定位的准确性和实时性。

AR技术中的控制点提取和匹配

在AR技术中,为了实现图像跟踪定位,需要提取出具有代表性和稳定性的控制点,并通过控制点匹配建立不同图像间的位姿关系。下面我们来详细介绍控制点提取和匹配的实现。

 

控制点提取:AR技术中的控制点需要从周围环境中脱颖而出,同时经常而且稳定地出现。常用的角点提取算法包括 SIFT、SURF、FAST 等。不同算法的优先级可根据应用的具体机型来定。提取出的控制点需要进行取舍,去掉无用的点并使选取后的点尽量均匀。

控制点匹配:控制点匹配的目的是在两个图像的控制点集中找到匹配的点对,如鼻尖对鼻尖、眼角对眼角。匹配需要考虑控制点之间的相似性和空间约束,简单的方法有紧邻匹配,复杂的则多采用二分匹配的各种变种(bipartite matching or two-dimensional assignment)。

通过以上控制点的提取和匹配,我们可以实现不同图像间的位姿关系的快速求解,进而实现AR技术中的图像跟踪和定位。同时,为了保证匹配的准确性和实时性,我们需要不断优化算法,选择最合适的控制点提取和匹配方式。

AR技术中的姿态求解

在AR技术中,姿态求解是指通过控制点匹配和空间约束等方法,确定目标在三维空间中的位姿(平移、旋转)。姿态求解通常可分为直接法和控制点法两类。下面我们来详细介绍控制点法中的姿态求解。

 

姿态求解方法:在控制点匹配的基础上,我们可以利用最小二乘法等方法,通过控制点之间的约束关系,确定目标的姿态参数。由于一般使用的控制点数量远大于最小需求,方程数量远大于未知变量的数量,因此需要使用最小二乘法等算法来解决。

循环迭代优化:由于控制点可能存在精度误差或假控制点等问题,会影响姿态求解的准确性。因此,姿态求解不仅需要先前的控制点匹配和选取,还需要往返迭代在控制点提取、匹配和姿态求解之间进行优化。常用的方法如 RANSAC 等,可以选择大多数控制点,从而得到更加准确的姿态参数。

相比直接法,控制点法的基础算法框架较为成熟,工程实现上的细节很大程度上决定了姿态求解算法的最终效果。因此,在AR技术中,我们需要结合具体应用场景,选择最合适的姿态求解方法,并优化算法实现,提高姿态求解的准确性和实时性。

  机器人、AR眼镜等场景中被广泛应用。AR技术在三维环境中的跟踪主要包括两个部分:相机姿态的求解和地图构建。
相机姿态的求解:三维环境的AR姿态跟踪与二维平面不同,需要额外考虑相机位置、朝向和三维空间的变换。常用的姿态跟踪方法包括:传统的基于模板匹配和特征点匹配的方法,以及近年来比较流行的基于深度学习的方法。AR技术中的增强现实技术可以用来优化姿态跟踪的效果。

地图构建:地图构建是指AR系统在三维环境中对场景进行建模的过程,可以通过SLAM算法实现。在SLAM算法中,地图以及姿态参数是同时被估计和优化的,从而实现了对场景的建模与跟踪。现代AR技术中,地图构建技术和姿态跟踪技术相结合,可以实现更加快速和精确的AR跟踪和交互。

总之,AR在三维环境中的跟踪是AR技术的一个重要研究方向,它的优化涉及多个方面,包括特征点提取和匹配、姿态估计和SLAM算法等。随着AR技术的不断发展和成熟,我们将看到更多基于AR和增强现实技术的应用出现在我们的生活中。

  我们就来详细了解AR中的SLAM问题和解决方案。

在AR中,SLAM问题的解决是AR技术的核心之一。AR中的SLAM问题与其他领域相比更加困难,主要是因为AR应用需要在移动终端上实现,计算能力和资源相对较弱。目前,AR中视觉SLAM仍然是主流,其他传感器的应用较少。下面我们主要讨论基于视觉SLAM的AR应用。

标准的视觉SLAM问题可以描述为:假设你被空投到一个陌生的环境中,你需要解决自己的位置“我在哪”的问题,这里的“我”基本上等同于相机或眼睛,而“在”则需要定位,“哪”需要构建出当前环境的地图。在AR中,你需要带着一只眼睛或相机,在走动的过程中,一边对周围环境进行观察和理解(建图),一边确定自己在地图中的位置(定位)。这就是AR中的SLAM问题。

总的来说,AR中的SLAM问题解决方案是AR技术的一个重要研究方向,涉及多个方面,包括相机姿态估计、地图构建、视觉特征提取和匹配等。随着计算能力和资源的不断提高,相信AR中的SLAM问题会得到更好的解决,AR技术也会更加精准和实用。

高重建精度。在AR中,实现基于运动的重建可以通过SLAM技术实现,SLAM技术是一种通过相机在运动中实时构建三维地图并定位相机位置的技术。在SLAM中,我们需要利用获取到的图像序列进行三维重建,这些图像序列是通过相机在运动过程中采集的。结构从运动(SfM)是一种基于运动的重建技术,可以通过SLAM技术在AR中实现。需要注意的是,如果相机不动,则很难进行三维重建。原理上来讲,只要获取到的两张图像之间有运动,就可以进行立体视觉的重建,并利用多视角几何实现更高精度的三维重建。因此,通过SLAM技术实现基于运动的重建,可以为AR技术的发展提供良好的支撑。tps://www.example.com/images/AR-SLAM.jpg>

在AR中,集束调整(Bundle Adjustment)是实现高精度三维重建的关键。集束调整是一种通过优化相机姿态和地图点位置来最小化重投影误差的方法。在AR中,如果已有地图,即有一个已知坐标系,定位问题和2D跟踪很相似,但更为复杂。如果使用基于控制点的方法,需要在三维空间中找到并跟踪控制点,进行计算。有趣的是,在多视角几何中,也需要控制点来进行三维重建,并经常被共用。虽然可以使用直接法进行定位,但目前AR应用中,资源比较有限,因此基于控制点的方法更为经济实用。

根据三维重建的方法和结果,SLAM在AR中可以分为稀疏、半稠密和稠密三类。在稀疏SLAM中,通过选择关键帧来进行位姿估计和地图构建;在半稠密SLAM中,通过合理的局部地图更新策略进行优化;而在稠密SLAM中,地图被更加精细地构建,并进行更加准确的位姿估计,以实现更高的重建精度和定位精度。如图中所示,这是AR中SLAM的典型示例。

ONG>半稠密SLAM:相对于稠密SLAM,半稠密SLAM减少了所需要运算的量,同时又保证了一定的精度。在半稠密SLAM中,只有一部分像素进行了几何计算,但通过合理的局部地图更新策略,能够对整个场景进行精细的构建。

稀疏SLAM:这种方法仅选择某些关键帧进行位姿估计和地图构建。相对于半稠密SLAM和稠密SLAM,稀疏SLAM的计算量更小,但可能会产生积累误差。

在AR中,三种SLAM方式都有着其适用的场景和局限性。通过AR技术,我们可以更加方便地实现三维重建和定位,从而实现更广泛的应用场景。

AR-SLAM

在AR应用中,稠密SLAM对相机所采集到的像素进行全方位的计算,以实现更高精度的三维重建。然而,由于计算量较大,这种方法只适用于高配AR设备。相对于稠密SLAM,半稠密SLAM通过局部地图更新策略减少了计算量,但仍能保证一定的精度。而稀疏SLAM仅对某些关键帧进行影像计算,计算量较小但可能会积累误差。通过AR技术的应用,三种SLAM方法都能在不同场景下实现更为方便的三维重建和定位,从而扩展了AR技术的应用领域。

AR-SLAM

QUOTE> 在AR应用中,稀疏SLAM通过输出一系列三维点云来重建三维环境。相对于稠密SLAM而言,稀疏SLAM的点云密度较低,因此得名为“稀疏”。在实际应用中,可以在这些点云基础上提取和推理所需的空间结构,例如桌面和其他重要的结构,在此基础上进行AR内容的渲染叠加。相比稠密SLAM,稀疏SLAM的输出点数是从面堕落到点,更适合平民AR且更为经济实惠。目前流行的稀疏SLAM大多是基于PTAM框架的变种,如ORB-SLAM等。

相对于稠密SLAM而言,半稠密SLAM的输出密度介于稀疏SLAM和稠密SLAM之间。但半稠密SLAM并没有具体的界定。在最近的应用中,LSD-SLAM成为了半稠密SLAM最代表的一种。然而,至今为止,半稠密SLAM在AR应用领域尚未像稀疏SLAM那样备受热议。

在AR应用领域,稀疏SLAM是广受欢迎的选择,其中PTAM和ORB-SLAM是两种常用框架。早在2003年,A. Davison便提出了单目SLAM,为实时单目SLAM的开拓奠定了基础。这个基础思想源自于机器人等领域的流行SLAM框架,每一帧新到来的图像都通过“跟踪-匹配-制图-更新”流程进行处理。但是,这个框架在移动端,特别是在手机上的效果和效率都不佳。为了满足移动端AR的SLAM需求,Klein和Murray于2007年在ISMAR(AR领域的旗舰学术会议)上展示了令人震撼的PTAM系统,成为单目视觉AR SLAM的常用框架之一,且效果可圈可点。

PTAM的全称是Parallel Tracking And Mapping,与传统SLAM框架有所不同。我们都知道,SLAM同时进行两项运算:定位(Localization)和建图(Mapping)。由于它们都需要耗费大量的资源,很难同时实现实时性。但我们一定要在每一帧都同时进行定位和建图吗?对于定位而言,必须每一帧都进行,否则我们就无法定位自身在场景中的位置。那么建图呢?幸运的是,建图并不需要在每一帧都处理,因为我们可以通过SfM来感知场景,隔几帧处理一次也是可行的。如此一来,我们可以想象一个场景:把你丢在一个陌生的环境中,让你进行探索,但是每秒钟你只能看10次,只要你不奔跑,这项任务便可以完成。PTAM的核心思想就在这里,它不是同时进行定位和建图,而是将它们分开并行地执行操作。而在其中,定位的核心是帧逐一跟踪,因此被称为Tracking,建图则不需要逐帧进行,而是根据计算资源的能力来决定何时处理下一帧的数据。珂以用AR来提示我们,让我们更好地了解PTAM和它的进展历程。在这个框架下,通过控制点选取和匹配等各项优化组合,PTAM一亮相就以其华丽的demo惊艳了全场观众(这可是近10年前啊)。

然而,故事并没有就此结束。我们都知道,demo和实用是有一定差距的,尤其是对于学术界的demo而言。但有了PTAM的思想指导和启示,研究人员不断进行改进和更新,其中佼佼者之一就是上述的ORB-SLAM。ORB-SLAM由Mur-Artal,Montiel和Tardos于2015年发表于IEEE Transaction on Robotics,凭借其优异的性能和贴心的源码迅速获得了工业界和学术界的青睐。不过,如果你想通读它的论文,请先做好被郁闷的心理准备。并非因为有过多晦涩难懂的数学公式,恰恰相反,因为它的公式非常简洁,而且充满了让人看了之后不明觉厉的专业术语。这是为什么呢?实际上,这与ORB-SLAM的成功密不可分,而ORB-SLAM仍然基于PTAM。让AR现实技术助我们更好地了解ORB-SLAM以及它的精心优化过的基本框架。

虽然ORB-SLAM是基于PTAM框架的改进版,但它进行了大量的改进和优化,并加入了许多新的元素。从某个角度来看,它可以看作是一个丰富多彩、经过巨大优化的系统。

因此,仅17页的IEEE双栏论文不足以展示其细节,细节大都在参考文献和源码中。在这众多的改进中,比较重要的包括:使用更有效的ORB控制点来进行控制点匹配,引入第三个线程进行回环检测矫正(另外两个分别是跟踪和制图),使用可视树来实现多帧优化(你还记得集束调整的概念吗?),以及更合理的关键帧管理等等。

在这里,也许有朋友会有一个疑问:既然ORB-SLAM是基于PTAM的框架,为什么不叫ORB-PTAM呢?其实,还是有道理可循的:虽然PTAM从框架上已经与传统SLAM算法有所区别,但由于诸多原因,SLAM现在已经成为这类技术的统称。因此,一般认为PTAM是SLAM中的一个具体算法,确切地说它是单目视觉中SLAM的一个算法。所以,ORB-SLAM的名称并未采用“ORB-PTAM”。

通过增强现实技术,B-PTAM被更名为ORB-SLAM。

虽然单目SLAM近年来取得了不错的进展并在一些场景上取得了良好的效果,但在一般的移动端应用中,它仍然无法达到理想的效果,计算机视觉领域中仍存在各种挑战。当应用于增强现实时,单目视觉还存在若干问题,其中最显眼的包括:

初始化问题:单目视觉对于三维理解有着天生的歧义,即使通过运动获得几帧视差,这些帧的质量也无法保证。在极端情况下,比如用户持手机不动或只是旋转,算法的效果基本上失效。 

快速运动:相机的快速移动通常会带来两个挑战。一是造成图像模糊,导致控制点难以准确获取,即便是人眼也很难判断。二是相邻帧匹配区域变小,甚至极端情况下没有共同区域,对于在立体匹配上构建的算法会造成极大的困扰。

<通过增强现实技术,我们可以发现单目SLAM仍存在若干问题,尤其是当它用于AR时:

 

纯旋转运动:当相机只进行纯旋转或近似纯旋转运动时,立体视觉无法通过三角化来确定控制点的空间位置,从而无法有效地进行三维重建。

动态场景:SLAM通常假设场景是静止的。但是当场景中有运动物体时,算法的稳定性很可能会受到不同程度的干扰。

一些熟悉AR行业发展的朋友可能会感到有些疑惑,因为HoloLens等产品的效果看起来还不错。事实上,这些设备之所以能够取得不错的效果,通常是因为它们采用了比单纯的单目视觉更多的传感器来提高精度。然而,由于成本等问题,这些高端设备目前仍未能普及到一般用户中。不过,可以预测的是,利用高质量传感器提高精度必然是AR SLAM的重要趋势,只是需要一定的时间才能将其推广到所有用户。

 

4、SMART: 语义驱动的多模态增强现实和智能交互

单目AR(即基于单摄像头的AR)虽然有着庞大的市场,如手机用户数已达数亿级别,但是如上文所述,仍然需要解决许多技术难题。然而,任何有理想、追求、情怀的AR公司不会也不能只关注传统的单目框架。AR的前沿有哪些重要的领域呢?

 

利用增强现实技术,仍有许多重要领域值得关注。例如,在语义驱动的多模态增强现实和智能交互方面,AR技术还有很大的发展空间。通过引入语义分析等先进技术,可以实现多模态数据的语义联通,为用户呈现更加精准、高效和便捷的交互体验。这意味着AR技术可以不仅仅通过单目拍摄识别图像,还能通过对语义信息的解析进行交互,促进AR技术的更深入应用。

方向的发展历史和事态,横看今天各路AR诸侯的技术风标,不难发现增强现实AR技术的发展主要集中在三个方向:语义驱动、多模态融合和智能交互。为了方便命名,我们遵循业界的习惯,将它们总结为:

SMART:Semantic Multi-model AR inTeraction 

即“语义驱动的多模态增强现实和智能交互”。由于这三个方面正在快速发展,技术也在不断更新迭代,下面我会简要介绍一下它们的主要内容,重在表达概念,请勿深究。

 

语义驱动:在传统的基于几何的AR中,语义驱动引入语义的概念,即通过对场景语义的理解来解析和理解AR应用中的物体。为什么要使用语义信息?答案很简单,因为对于人类来说,我们所理解的世界都是充满语义的。如图11所示,我们所处的物理世界不仅由各种视觉信息构成,还有更多上下文和语义信息。因此,语义的加入能够更好地提高AR技术的表现及用户体验。

三维结构不仅由基本的几何形状组成,还包括透明窗户、墙上的砖块以及装有新闻的电视等等元素。在AR技术中,仅凭几何信息,我们只能“将虚拟菜单叠加到平面表面”上;但通过语义理解,我们就可以将虚拟菜单“叠加到窗户上”,或者根据正在播放的电视节目智能地显示相关广告。

与几何理解相比,语义理解所包含的视觉信息更加广泛,因此也有着更广泛的应用。从更广义的角度来看,几何理解可以看作是语义理解的一个子集,即几何属性或几何语义。那么,既然语义理解这么好这么强大,为什么我们今天才强调它呢?难道过去的先贤都不够聪明吗?当然不是。只是由于语义理解太难了,随着技术的不断发展,AR技术才有了更广泛实用的可能性。现在,虽然通用的对任意场景进行完全语义理解仍然是一个难题,但是在一些特定物体的语义理解方面,如AR辅助驾驶和AR人脸特效(图12),AR已经有了可行的应用。

 

多模态融合:随着各个AR厂家陆续推出各种各样的AR硬件,多模态已成为AR专用硬件的标配,例如双目、深度、惯性、语音等技术指标已纷纷出现在各个硬件的规格表中。当然,这些硬件的应用需要一定的算法支持,即利用多模态信息来提高AR应用对环境和交互的感知理解。例如,在之前提到的AR核心技术——环境跟踪理解方面,会面临着各种技术挑战,一些场景甚至突破了视觉算法的界限,这种情况下,非视觉信息就可以起到至关重要的作用。多模态的融合还可以通过结合计算机视觉和自然语言处理等多种技术,实现更加智能化的AR聊天机器人(如图13)。 AR在多模态融合方面的发展不断推动AR技术的提升和创新。

在相机运动较快的情况下,图像可能因为剧烈移动而模糊失真,进而导致跟踪算法失效。不过,在这种情况下,姿态传感器能够提供可靠的信息,从而帮助AR跟踪算法应对挑战。

智能交互:从某个角度来看,人机交互的演进史就是一部不断追求自然交互的历史。从最初的打孔纸带到如今的窗口和触控技术,计算机对用户的专业要求逐渐降低。近来,随着机器智能的快速发展,计算机对人类自然意识的理解已趋向成熟,从而也为实用化的智能交互提供了机会。在AR系统中,实时理解人类的交互意图是至关重要的。基于手势技术的自然交互在AR中尤为热门,不仅因为其成熟度较高,也因为该技术具有较强的可定制性。需要说明的是,手势技术的主要原理是:手势估计和手势识别是两个密切相关但又有所不同的概念。具体而言,手势估计是从图像(或深度)数据中获取关于手部的精准姿势数据,如每个手指关节的3D坐标(如图13所示);而手势识别则是根据手的动作(或姿态)来自动分析出其所代表的语义信息,例如“打开电视”的命令。通常来说,“手势估计”可以作为“手势识别”的输入,但在手势指令集较少的情况下,也可以直接进行手势识别。更准确的名称应该是“手部姿势估计”。

5. 结论

当前增强现实技术的再度兴起,是近年来软硬件实力的进步、科技人员长期努力的成果。我们很幸运地生活在这个时代,并且能享受到这样的机会和福利;但我们也不能过于乐观,必须保持脚踏实地的态度,小心应对每一个困难与挑战——如AR技术实现的精细与全面,与用户需求互动的深入等。

 

Similar Posts