谷歌的DeepMind 机器人团队发表了一篇新的研究论文,详细介绍了如何使用 Gemini 1.5 Pro(其更先进的 AI 模型之一)改变机器人导航。
根据研究论文,Google Gemini 1.5 Pro 正在使用扩展上下文窗口。这使得人工智能模型能够处理比以前多得多的信息。它还能通过记忆和理解周围环境,使机器人变得更加灵活和适应性强。
谷歌如何让机器人变得更智能
整个过程从研究拍摄办公室、家庭或其他周围环境的视频开始。然后,由 Gemini 1.5 Pro 驱动的机器人会观看视频,了解布局、物品存放位置,并更好地了解该区域。
然后向机器人发出命令,并利用视频中的记忆来更好地导航。
谷歌表示,它在办公室和类似家庭的环境中对该方法进行了评估,成功率分别达到 86% 和 90%,比早期模型的基线方法高出 26% 和 60%。例如,如果你问机器人“我把手机充电器放在哪里了”,那么机器人就会带你去它从视频中记住的电源插座。
DeepMind 团队在 9,000 平方英尺的广阔区域内测试了这些由 Gemini 驱动的机器人。机器人几乎可以准确执行 50 条不同的指令,准确率高达 90%。
然而,研究人员表示,似乎还有很大的改进空间。目前,即使使用 Gemini 1.5 Pro,机器人也需要 10 到 30 秒来处理每条指令,这对于实际使用来说相当慢。
此外,到目前为止,测试都是在受控环境中进行的。因此,机器人目前还不会真正接管你的家或办公室,但谷歌正在努力让它们更聪明、更高效地在周围环境中导航。
标签: