【财新网】机器人AI引入大语言模型,即使遇到见过的新情况,也能理解。谷歌近日推出AI机器人模型Robotics Transformer 2(RT-2),作为视觉-语言-动作(vision-language-action,VLA)模型,RT-2配备了大语言模型技术,直接从互联网学习知识,可以识别物体、理解语言命令,然后做出有逻辑的动作。
RT-2主要有三种能力:符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition),依靠这些能力,机器人可以理解“捡起即将从桌子上掉下来的袋子”或“把香蕉移到2加1的和的标志那里”这样的命令——其中的物体或场景是原有机器人数据中从未有过的,机器人模型使用了互联网的知识,最后完成操作。