Google的Objectron使用AI追踪2D视频中的3D对象

导读给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解，所以边肖也在网上搜集了一些关于手机和互联网的相关知识

给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解，所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。

结合2020年TensorFlow开发者峰会的开幕，谷歌今天发布了一个管道——Objectron，它可以在2D图像中找到物体，并通过AI模型估计它们的姿态和大小。该公司表示，它对机器人、自动驾驶汽车、图像检索和增强现实有影响——例如，它可以帮助工厂车间的机器人实时避开障碍物。

追踪3D物体是一个棘手的前景，尤其是在处理有限的计算资源(如片上智能手机系统)时。由于缺乏数据以及物体外观和形状的多样性，当唯一可用的图像(通常是视频)是2D时，情况变得更加困难。

然后，由Objectron支持的谷歌团队开发了一个工具集，允许播音员通过在分屏视图中显示2D视频帧来标记对象的3D边界框(即矩形边框)。在点云、相机位置和检测到的平面旁边，覆盖它上面的三维边界框。注释者在三维视图中绘制三维边界框，并通过查看2D视频帧中的投影来验证它们的位置。对于静态对象，他们只需要在单个框架中注释目标对象。该工具使用增强现实会话数据中的地面真实相机姿态信息将对象的位置传播到所有帧。

为了补充真实世界的数据，提高AI模型预测的准确性，团队开发了一个引擎，将虚拟对象放置到包含AR会话数据的场景中。以这种方式，相机的姿态、检测到的平面表面和估计的照明可以用于生成与场景匹配的照明的物理上可能的位置，从而生成高质量的合成数据，其中渲染的对象尊重场景的几何形状并且无缝地适合真实背景。在验证测试中，综合数据的准确率提高了10%左右。

更好的是，该团队表示，目前版本的Objectron模型足够轻，可以在旗舰移动设备上实时运行。搭载LG v60tinq、三星Galaxy S20和索尼Xperia 1 II中的Adreno 650移动图形芯片，每秒可处理约26帧。

本文就为大家讲解到这里了。

标签：

猜你喜欢

最新文章