爆火的Figure机器人,背后的技术原理是什么?

真正的具身智能提前一年到来?

Figure是一家成立不到两年的机器人初创公司,估值为26亿美元,首次亮相OpenAI on X. Figure 01是一款全尺寸人形机器人,正在与人类和环境互动,展示其识别、规划和执行任务的能力。

人影机器人背后的技术原理是什么?OpenAI配置的智能大脑是如何工作的?与谷歌发布的机器人系统RT-1、PaLM-E和RT-2有什么关系?

下面我们就来做一个简单的解读。

一、原理:图类似于PaLM-E+ RT-1,不是端到端RT-2。

原则上,该机器人图看起来类似于谷歌2023年3月发布的PaLM-E和RT-1的流水线组合,而不是谷歌2023年7月发布的端到端模型RT-2。

我们知道,如果机器人想用自然语言与人互动(例如,人们说“把桌子上的苹果拿给主人”),大致可以分为以下两步。

一种是机器理解自然语言,并将自然语言转换为机器的抽象计划(所谓的高级计划),这可能是一系列简单的自然语言指令(与说“拿起苹果”、“将苹果移到人类手的上方”和“放开苹果”相比)。

二是将这种抽象的计划转化为底层的具体操纵(所谓的低级执行),它不仅将简单的自然语言指令转化为一系列具体的动作(如旋转、移动、抓取、释放等基本动作)。

简单来说,RT-1只是一个可以理解简单指令的机械臂。要完成上面提到的第二步,模型中没有思维链或推理能力。PaLM-E赋予了机器人一个聪明的大脑,它可以将复杂的自然语言指令分解为简单的指令,完成上面提到的第一步,然后调用RT-1执行动作。

鬼畜输入法官网

因此,PaLM-E所做的只是自然语言理解和规划的工作,并不涉及机器人动作本身。这是一个VLM(视觉语言模型)模型。

RT-2端到端集成了上述链路。它可以用复杂的文本指令直接控制机械手,不再需要将其转换为简单的指令。最终动作可以通过自然语言获得。这是一个VLA(视觉-语言-行动模型)模型。

端到端的优点是具有通用性,可以自动适应环境的各种变化,但问题是决策速度较慢,很难达到图的决策速度,例如RT-2论文中提到的决策频率为1到5hz,具体取决于语言模型的参数规模。

关于RT-1、PaLM-E和RT-2的来世、区别和联系,请参考之前关于RT-2的文章:

来自机器人模型RT-2的多模态、智能体、3D视频生成和自动驾驶。

二、亮点:既能利用大语言模型的常识和COT,又能达到人的一般控制速度。

图视频的亮点在于不仅利用了大语言模型的常识和思维链COT的能力,还实现了几乎接近人类速度的快速底层控制。

例如,在视频中,当人们说“我饿了”时,图思考了2 ~3秒钟,然后小心翼翼地伸手去拿苹果,并迅速递给人们。

因为Figure基于大语言模型的常识,它明白苹果是它面前唯一可以“吃掉”的东西。不需要人类的任何暗示和解释,就能接近人类的反应速度,自然地与人互动。

松下和华为合作芯片

此外,还使用了理解大语言模型的长上下文的能力,例如“你能把他们放在那里吗”,“他们”是谁,“那里”在哪里?只有大型语言模型才能准确捕捉长上下文中的指称关系。

3.图中使用黑脸田鸡吗?

最近,OpenAI的黑脸田鸡撑起了半边天,黑脸田鸡自称是世界模拟器,因此许多人自然会质疑这个机器人是否使用了黑脸田鸡。

可以肯定的是,图与黑脸田鸡无关,因为黑脸田鸡主要是在这个阶段产生的,没有被理解。即使未来可以理解并生成黑脸田鸡,它是否能实现端到端的200hz决策速度也是一个大问题。

4.Figure使用遥控器吗?

有人认为该视频是通过远程控制录制的(所谓的Teleop),但Figure的创始人Brett Adcock强调,该视频不是Teleop,录制速度是原始速度的两倍,因此在视频中可以看到回答问题时的明显延迟(因为语音识别、大语言模型和TTS是通过管道连接的,这需要计算时间)。

5.Figure是端到端模型吗?

Figure的创始人Brett Adcock在这篇帖子中提到了端到端神经网络。我个人认为这可能是口误。从他们技术总监的推特帖子中可以看出,至少使用了两种神经网络模型。一个是OpenAI的GPT4V(类似于谷歌的Palm-E);另一种是由机器人控制的模型(类似于RT-1)。

所以Figure不是一个类似RT-2的端到端模型,而是一个流水线系统。

不及物动词结论

综上所述,我们可以理解为图中的机器人模型是:nero破解版会伤盘吗

GPT4V+控制模型~ ~=谷歌的PaLM-E+RT-1。

我再次感叹OpenAI的“远见”,在机器人和大型模型结合的领域,让隔壁的谷歌起了个大早,赶了个晚集。与以往一样,OpenAI超越谷歌的方式不是在技术原理上,而是在产品定义和宣传方式上。例如,与RT-2用机械臂演示不同,他们用一个真正的人形机器人进行了演示。

此外,它们通过展示机器人的控制速度和自然度来吸引观众的注意力。这些比谷歌纯粹的工程师演示更有吸引力。作为观众,我们一方面为谷歌感到遗憾,同时也很高兴再次见证这种军备竞赛。加油谷歌!

Figure联合创始人兼首席执行官Bred Adcock表示,“我们的目标是培养一个世界模型,使其能够以十亿台的水平操作人形机器人。”这些机器人可以消除对不安全和不令人满意的工作的需求,最终让人类拥有更有意义的生活,这与OpenAI的“超级对齐”愿景不谋而合。

计算机是虚拟世界的通用平台,机器人是物理世界的通用平台。

从特斯拉的擎天到如今的身材,未来的模型能力和机器人硬件将如何平衡,从广告噱头到量产应用还有多远?人形机器人的春秋时代已经开始。

未经允许不得转载:科技让生活更美好 » 爆火的Figure机器人,背后的技术原理是什么?