Niantic优化3D测距技术,单目摄像头也能扫描3D场景

(ChinaIT.com讯)日前,为了扩大和发展移动端LBS AR应用生态,Niantic面向第三方开发者开放AR开发平台Lightship,该平台的特点是可以简化AR开发流程,让开发者可以将更多时间放在设计游戏和体验上,不用担心代码、网络、平台和设备适配等问题。

与此同时,Niantic也在不断更新Lightship的功能,提升AR内容体验感(多人AR、虚实融合的遮挡效果、物理模拟等)。近期,Niantic科研团队公布了一项3D场景扫描相关的突破,并在CVPR会议上发表了相关论文。Niantic表示:这项技术将很快应用在Lightship ARDK中,供任何AR创作者使用,开发者可以通过GitHub托管平台来预览并获取ManyDepth代码,以及样例和使用指导。

据青亭网了解,Niantic研发的低门槛3D扫描方案名为ManyDepth,该方案将大幅提升智能手机的AR和3D扫描效果和准确性,只需要单颗RGB摄像头、一帧2D图像即可生成3D地图数据,对设备门槛要求更低,并且支持多人同时扫描。

实际上,Niantic一直致力于发展全球规模的3D地图,并在《精灵宝可梦Go》和《Ingress》游戏中鼓励玩家上传AR地图扫描数据,以换取游戏奖励。这些收集到的3D场景数据不仅可以用来构建3D地图,还可以用来优化LBS AR体验。

目前,Niantic在移动端有大量用户,其表示:为了让更多人使用AR,我们将重点放在人们常用的智能手机设备上,而不是去等待AR眼镜成熟。因此,通过《精灵宝可梦Go》等LBS AR游戏,Niantic在全球吸引了数千万玩家,下载次数超过10亿。

低门槛3D扫描

论文中指出,ManyDepth可以让普通智能手机也能扫描3D地图,如此一来用户上传3D地图可以像分享照片一样简单。同时,Niantic的游戏玩家也可以通过上传3D地图,来扩大和优化LBS AR游戏的地图。

 

我们知道,通常3D场景扫描效果依赖于LiDAR、ToF等高端的3D摄像头传感器,而普通智能手机通常仅配备拍摄2D图像的摄像头。为了让3D场景扫描在大多数智能手机上普及,从而扩大3D地图数据库,Niantic研发了ManyDepth方案。

就像人眼感知物体远近那样,通常摄像头也需要两个或以上,通过对比两颗“眼睛”获取的图像差异,来推算3D距离和层次感(距离与视差成反比)。而为了降低3D扫描的成本,更理想的方案是通过单目摄像头来完成3D测距。

目前市面上已有基于单目RGB摄像头的3D测距方案,而ManyDepth在此基础上进一步提升性能,号称可达到接近基于专业深度传感或多目测距方案的效果。科研人员在论文中写到:自我监督的单眼深度预测网络可通过相邻的图像帧来预测场景深度,并将相邻图像帧作为监督信号。而ManyDepth则采用自适应的方式,将视频帧的序列信息作为额外的监督信号,提升深度预测的准确性。

换句话说,此前的单目方案通过单一图像帧预测3D数据,而ManyDepth将结合额外的相邻图像帧进行训练和测试。

简单来讲,ManyDepth基于机器学习技术,可通过单个或多个2D图像来推测3D图形和深度,让普通智能手机可以通过单颗RGB摄像头生成3D数据。也就是一种基于单颗摄像头、自我监督的多帧3D深度预测算法。此外,当你移动手机摄像头动态捕捉场景时,ManyDepth的神经网络也将持续优化3D深度地图。

Niantic表示:过去,智能手机的2D摄像头模组通常很难捕捉到实时的高质量3D环境数据,而且配备3D深度传感器和LiDAR模组的设备也非常少。为了让单颗手机摄像头实现3D扫描,ManyDepth将解决动态物体捕捉、比例偏差、静态摄像头等问题。

总之,与经典的三角测距法、基于神经网络的单帧推算方案相比,ManyDepth更加稳定,而且仅需要更少的2D帧画面。此外,它另一个特点是,它不需要ground-truth深度数据,也能培训多视角深度感知网络。

Niantic首席研究科学家Gabriel Brostow表示:ManyDepth的自我监督式软件可以作为LiDAR传感器的替代方案,它将大大降低手机或穿戴式设备扫描3D环境的门槛。同时,ManyDepth也可以解决,自我监督式培训的多视角平面扫描3D测距的不准确效果,比如移动物体、比例偏差、静态摄像头等问题造成的误差。

相似方案

实际上,谷歌也在探索类似的3D地图技术。今年三月时,就曾公布Google Maps将支持大幅优化的3D地图功能,3D地图将带来比街景地图更多的细节,目前谷歌正在开发全球3D模型。

为了快速获得大规模3D地图数据,谷歌计划将数十亿张航拍图、街景图和卫星图从2D的形式升级为精准的3D可视化地图。而相关的技术在2020年曾公布,谷歌训练了一个NeRF(神经辐射场)学习算法,可将同一场景的几张网络照片合成可多视角查看的3D模型效果。细节方面,NeRF将通过分析光线终止的位置,来从2D图像提取3D深度数据,并为真实场景重建出外观和纹理足够可信的3D模型。

而应用场景方面,3D场景数据不仅可以提升AR遮挡和物理模拟,还可以为体育赛事、音乐活动、艺术展览、广告等场景开发LBS AR互动体验。

总之,用算法从2D推算3D数据将成为生成大规模3D地图的一种重要方式。因此,为了让智能手机在查看3D地图的同时也能收集3D数据,Niantic收购了3D和计算机视觉公司Matrix Mill、3D地图厂商6d.ai、移动端3D扫描应用《Scaniverse》开发商Toolbox AI。参考:Niantic

 

ChinaIT.com 网站文章仅限于提供更多信息,不代表本网站立场观点。如需转载,请注明来源 。转载之文章来源于互联网,如有版权问题,请与我们联系:content@chinait.com。

扫码关注ChinaIT小程序,随时掌握最新IT资讯