对话天娱数科首席数据官吴邦毅：AGI从桌面迈入工业应用，深挖3D空间智能是关键

导读财联社8月29日讯（记者崔铭）人工智能的演进正从初期的技术探索阶段，转向技术应用阶段。在此趋势下，空间智能作为一种融合了多模态大模...

财联社8月29日讯（记者崔铭）人工智能的演进正从初期的技术探索阶段，转向技术应用阶段。在此趋势下，空间智能作为一种融合了多模态大模型、虚拟现实等前沿技术的新方向，展现出了巨大的潜力和商业价值。

2024深圳（国际）通用人工智能大会期间，天娱数科首席数据官吴邦毅在接受财联社记者专访时表示，人工智能下一个阶段是实现通用人工智能（AGI），而AGI释放的更大生产力蕴含在制造领域，发展空间智能是让AGI从桌面迈入工业应用的关键。

以下是访谈实录（有删改）：

财联社：随着AI技术的广泛应用，您认为人工智能发展的下一个阶段会是什么？

吴邦毅：人工智能正处在一个快速发展和广泛应用的阶段，同时也在积极探索实现更高级别的通用智能的可能性。我们对人工智能下一阶段的普遍共识是实现AGI。那时，AI的认知、理解、驱动、决策能力可以与人类匹敌甚至超越人类。然而，目前AGI主要集中在内容创作、客服、编程等桌面应用，在工业领域应用可以说凤毛麟角。

我们判断人工智能下一阶段的发展机遇，蕴含在新型工业化变革中，AGI释放的更大生产力蕴含在制造领域。

财联社：相对于AGI桌面应用，为什么工业应用会比较匮乏？如何弥合工业场景应用存在的空间计算鸿沟？

吴邦毅：人工智能在工业场景应用匮乏的本质原因在于工业场景是3D空间，而目前绝大部分大模型为语言、图形、视频等2D模型，在工业场景应用时存在空间计算鸿沟。相较于2D智能，3D空间智能在理解真实世界方面具备更全面的感知、理解、交互与决策能力，重新定义人、机器与真实世界、虚拟世界之间的关系，拥有更强的泛化能力和涌现特性。

一方面，通过3D数据捕捉深度信息，它能让AI对物理世界人与物的形态、结构和位置有更准确的理解，从而生成更具真实感的场景，提供更直观的可视化效果，让虚拟世界更真实；另一方面，空间智能可以在三维场景中像人类一样对视觉信息进行高级推理，超越二维视觉的局限，让真实世界更智能，将为多个产业特别是具身智能、智能制造、低空经济等产业带来颠覆式的变革。

因此，发展空间智能是让AGI从桌面迈入工业应用的关键。

财联社：可以详细说说在具身智能、智能制造、低空经济等产业，3D空间智能将如何与产业结合？

吴邦毅：如果说空间智能是让AGI从桌面迈入工业应用的关键，那么3D大模型则是发展空间智能的关键。

3D大模型为空间智能提供了多模态数据融合、空间计算、复杂场景处理、交互性增强、3D生成式AI等多方面的支持，是推动空间智能技术发展的关键。

在具身智能、人形机器人领域，将3D多模态大模型与机器人技术相结合，使机器人不但具备理解、记忆、推理等认知水平，还能认识和理解真实的3D物理世界，在作业场景中具备自主决策、行动与操作能力。

在智能制造领域，将3D大模型与人、机、物、环境的多源异构3D数据相结合，对整个生产环节进行3D重构，精确分析、交叉比对、识别瓶颈、辅助管理决策，提高生产制造、仓储物流的效率，降低成本，助力产业升级和模式创新。

在低空经济领域，将3D大模型与飞行器技术相结合，使飞行器在飞行活动中可以智能感知和识别、自主导航和避障，再通过对低空空域自然环境、飞行活动、基础设施等进行3D重构，构建空间智能系统，破解低空管理中感知能力弱、智能化程度低、应用成本高等难题。

财联社：天娱数科在构筑空间智能的领域有哪些尝试和布局？目前进展如何？

吴邦毅：到目前为止，天娱数科布局空间智能领域已有3年多的时间，从最开始入局时的AI数字人，到如今的3D大模型、空间智能MaaS平台，我们稳步推进着空间智能技术和应用场景的创新。

公司融合智者千问大模型与3D数据集、可视算法，构建了空间智能MaaS平台，实现了跨类型数据的智能解析。通过“1+1+N”模式，构建了1个全国最大规模的高质量3D数据集，开发了1个国产高性能3D空间智能大模型，通过DaaS、MaaS模式实现在具身智能、人形机器人、智能制造、低空经济等N个场景的应用。

MaaS平台汇聚两大核心功能，一是AI+3D可视化功能，可为多元产业提供XR虚拟场景、游戏开发、AI客服、智能数字人等多种数智产品与服务，目前已广泛应用与文旅、展会、金融、教育、影视、游戏等行业；二是AI+3D数据集功能，可为企业提供垂类模型训练、数据智算、具身智能等AI数据服务。

目前，空间智能MaaS平台已为中国日报、内蒙古阿拉善电视台、云南农职院、五芳斋、天河城、杨国福、华润雪花等多家企业客户提供了3D虚拟场景、AI数字人智能交互服务。

财联社：要实现3D空间智能在工业领域的广泛应用还面临哪些挑战？天娱数科有哪些应对方案？

吴邦毅：首先要强调的是，3D多模态大模型极端依赖大规模、高质量的3D数据训练，3D数据集对于提供真实人物、场景的展示、丰富的交互体验和决策支持至关重要。

但当前，3D数据集在质量和数量上都面临着一些挑战，高质量3D数据集匮乏是产业痛点，全球范围内，3D数据都处于极端重要，又极端缺乏的状态。

其次，3D数据的获取和处理成本相对较高，涉及到高端设备如深度相机的数据采集，以及繁琐的数据处理工作。这不仅需要大量的时间、人力和资金投入。而且，3D数据的标准化程度低，导致数据的兼容性较差，共享和复用难度大，也对空间智能技术的发展形成了掣肘。

3D数据集正在成为竞争的核心节点，在可见的未来，它决定3D多模态大模型和空间智能的发展，以及全球科技竞争的走势。

我们已经在数据的采、存、管、研、用各个阶段形成了一体化解决方案。空间智能MaaS平台通过收集多样化的数据类型，利用LightStage超高精度光场扫描、手持深度摄像头等先进设备，捕捉详尽的三维数据。

与此同时，平台还运用了NeRF、3D高斯等前沿技术，从扫描数据、视频、图像乃至文字中生成高质量的3D模型，使虚拟场景和物体更加逼真。这些数据与图像、文本等其他模态信息相互融合，形成了全方位、多维度的数据集。

目前，平台已拥有超80万组3D数据、35万组多模态数据，建立了海量的数据资源优势。

来源：财联社

标签：

猜你喜欢

最新文章