作者|李媛
编辑|郑璇
资深机器人专家Eric Jang不久前表示,“ChatGPT在一夜之间出现。我认为智能机器人技术也会做到这一点。」
他可能是对的。
北京时间3月13日深夜,一段人形机器人的视频开始在X上传播..
此前从未展示过机器人定向能力的OpenAI在与投资公司的人形机器人合作中首次展示了其机器人智能能力。
OpenAI投资的机器人公司Figure上传了这段视频。在视频中,Figure的人形机器人可以完全与人类交流,理解人类的意图,同时可以理解人类的自然语言指令来抓取和放置,并解释它们为什么要这样做。
其背后是OpenAI配置的智能大脑。
OpenAI的机器人展示视频及图|来源:图
在过去一年的具身智能进展中,你可能看到过类似的机器人自主决策和拿取物品的演示,但在这个视频中,对话的流畅性、Figure人形机器人展现出的智能感以及接近人类操作速度的动作流畅性绝对是一流的。
图中还特意强调了整个视频是在没有任何加速和剪辑的情况下拍摄到最后的。同时,机器人是完全自主的,没有任何远程控制-它似乎在暗中讽刺前段时间展示了其炫酷的机械能力的斯坦福烹饪机器人,但它没有太多的智能。
与机器人的智能性能相比,更可怕的是,这只是OpenAI小试牛刀的结果——从OpenAI宣布与Figure合作推动人形机器人的前沿发展到这段视频的发布,只有短短的十三天时间。
人物人形机器人背后的智能来自于端到端的大语言——视觉模型,这是具身智能领域非常前沿的领域。去年,极客公园看到了谷歌在类似领域的进展。谷歌制造的端到端机器人控制模型被一些业内人士称赞为机器人模型的GPT 3时刻。
当时,谷歌的机器人模型只能根据对话进行一些抓取操作,它无法与人类对话,也无法向人类解释为什么要这样做。谷歌本身,从日常机器人开始,已经有超过5年的机器人研究经验。
图本身成立于2022年。距离OpenAI宣布参与与其合作仅过去了13天,今天他们共同推出了一款能够自主对话和决策的机器人。
机器人智能化发展明显提速。
01.在端到端大模型的驱动下,机器人的速度接近人类。
Figure创始人布雷特·阿德科克和AI团队负责人科里·林奇在x上的这段视频中解释了机器人交互背后的原理。
这项突破是由OpenAI和Figure联合完成的。OpenAI负责提供视觉推理和语言理解,而Figure的神经网络则提供快速、低级和灵巧的机器人动作。
机器人做出的所有行为都是出于学习和内化的能力,而不是来自远程操作。
研究人员将机器人摄像头输入的图像和机载麦克风捕捉的语音文本转录到OpenAI训练的多模态模型(VLM)中,该模型可以理解图像和文本。该模型处理整个对话历史,并获得语言响应,然后通过文本到语音的模式返回给人类。
同一模型还负责决定在机器人上运行哪些闭环行为以完成给定的命令,在GPU上加载特定的神经网络权重并执行策略。
这就是为什么这个机器人属于“端到端”机器人控制。从语言输入开始,模型就接管了所有处理,并直接输出语言和行为结果,而不是在中间输出一些结果并加载其他程序来处理这些结果。
Figure的机载相机以10hz的频率拍摄图像,然后神经网络以200hz的频率输出24个自由度的动作。
Figure的创始人提到,这意味着机器人的速度得到了显著提高,并开始接近人类的速度。winmenc进度条不动
图片来源:科里林奇的X
OpenAI的模型的多模态能力是机器人与世界交互的关键。我们可以从视频展示中看到许多类似的时刻,例如:卷皮网官网
描述它的周围环境。
做决定时运用常识推理。例如,“桌子上的盘子和杯子等餐具很可能会在接下来进入晾衣架。”
将“我饿了”等模棱两可的高层次请求转变为一些符合语境的行为,例如“递给对方一个苹果”。
用简单的英语描述为什么它会执行特定的操作。例如,“这是餐桌上我能提供给你的唯一可食用的东西”。
而且该模型的强大能力使其能够拥有短期记忆,例如视频“你能把它们放在那里吗?”“他们是什么意思?哪里是“那里”?正确的答案需要反思记忆的能力。
具体的手部动作可以分两步理解:
首先,互联网预训练模型对图像和文本进行常识推理,从而得到高层次的计划。如视频所示,Figure的人形机器人很快形成了两个计划:1)将杯子放在碗架上,2)将盘子放在碗架上。
其次,大模型以200hz的频率产生的24自由度运动(手腕姿势和手指关节角度)充当了全身控制器以更高速度跟踪的高速“设定点”。全身控制器确保安全稳定的动力,例如保持平衡。
所有行为都由神经网络视觉运动转换器策略驱动,该策略直接将像素映射到动作。
02.从ChatGPT到黑脸田鸡,再到机器人,OpenAI希望照顾“智能”。
2021年夏天,OpenAI悄悄关闭了机器人团队。当时,OpenAI宣布将无限期终止在机器人领域的探索,因为缺乏训练机器人使用人工智能移动和推理所需的数据,这阻碍了研发。
但显然,OpenAI并没有放下对这一领域的担忧。
2023年3月,也就是一年前,极客公园投资了来自挪威的机器人制造商open ai 1X Technologies。其副总裁是我在文章开头提到的埃里克·张(Eric Jang),他认为具身智能会突然出现。
巧合的是,1X Technologies的技术方向也是端到端神经网络对机器人的控制。
今年3月初,OpenAI与其他投资者一起参与了B轮融资,这使其成立了两年,估值达到26亿美元。
也正是在本轮融资后,OpenAI宣布与Figure合作。
Figure的创始人布雷特·阿德科克是一位擅长组织游戏的连续创业者。在他的整个职业生涯中,他至少创办了7家公司,其中一家上市时估值为27亿美元,另一家以1.1亿美元的价格被收购。
创立公司后,他聘请研究科学家杰里·普拉特(Jerry Pratt)担任首席技术官,并聘请前波士顿动力/苹果工程师迈克尔·罗斯(Michael Rose)担任机器人控制总监。这次分享的人工智能团队负责人科里·林奇原本是谷歌Deepmind的人工智能研究员。
Figure宣布已招募电机、固件、热、电子产品、中间件操作系统、电池系统、执行器传感器、机械和结构等领域的硬核设计人才。
公司确实进步很快。在与OpenAI合作之前,已经取得了许多成果。2024年1月,图01(图中第一个人形机器人)学习制作咖啡。该公司表示,这背后引入了端到端神经网络,机器人学会了纠正自己的错误。培训时间为10小时。
图01介绍AI并学习制作咖啡|图片来源:图
今年2月,该公司展示了图01的最新进展。在视频中,机器人已经学会了移动箱子并将其运送到传送带上,但速度只有人类的16.7%。
即使在商业化方面,也已经迈出了第一步:Figure宣布已与宝马制造公司签署了一项商业协议,将人工智能和机器人技术集成到汽车生产中,并将其部署在宝马位于南卡罗来纳州斯帕坦堡的制造工厂。
在今天的视频节目推文中,Figure宣布其目标是训练一个世界模型,并最终销售一个亿级模型驱动的人形机器人。
不过,尽管OpenAI与Figure的合作进展顺利,但OpenAI似乎并没有押注于一家机器人公司。
北京时间3月13日,彭博宣布由包括谷歌研究团队、加州大学伯克利分校和斯坦福大学在内的一批研究人员新成立的机器人人工智能公司Physical Intelligence也获得了OpenAI的融资。
毫不奇怪,该公司也在研究未来可以成为通用机器人系统的人工智能。
在机器人领域长期下注,13天合作做出领先的机器人模型,OpenAI在机器人领域有何意图,引人关注。
智能人形机器人未来不会只看马斯克。
*标题来源:图
本文为极客公园原创文章。转载请联系极客君微信geekparkGO。
联想z580多少钱
未经允许不得转载:科技让生活更美好 » 只用 13 天,OpenAI 做出了能听、能说、能自主决策的机器人大模型