2021年夏天,OpenAI悄悄解散了其机器人团队,理由是缺乏训练机器人使用人工智能进行运动和推理所需的数据,其研发工作受到阻碍。索尼今天破产了吗
当时,在美国创业孵化器Y Combinator的论坛上,BuzzFeed数据科学家马克斯·伍尔夫(Max Woolf)直言:“一个可能准确但具有讽刺意味的观点是,研究语言模型比研究机器人技术的投资回报率更高,风险更低。”
事实证明,OpenAI确实在大语言模型方面取得了更大的突破。
然而,OpenAI忘记机器人了吗?
雷柏Rapoo X221M 无线键鼠套怎么开机
“甲子光年”注意到,在2023年北京智源大会上,OpenAI首席执行官萨姆·奥特曼谈到了之前的机器人研究。他说:“我们对此非常感兴趣,并进行了努力。我希望有一天,我们能重拾对机器人的研究。”
现在,他们又开始比赛了。OpenAI与人形机器人初创公司Figure合作推出的Figure 01机器人,视频时长2分35秒,视频中的Figure 01表现出惊人的理解、判断、表演和自我评价能力。
您当前的设备暂时不支持播放。
这是OpenAI和Figure宣布合作13天后的结果。此前,Figure已从亚马逊创始人贝佐斯、英伟达、OpenAI和微软筹集了约6.75亿美元,公司估值为26亿美元。
除了资金,OpenAI还为Figure带来了什么?
一、图01做了什么和没做什么
Figure高级人工智能工程师科里·林奇表示,与OpenAI合作后,Figure 01机器人可以做到以下几点:
图01示范做家务,图片来源:图
国内一家头部机器人公司的算法专家亮亮告诉甲子光年,接入GPT4V后,图01机器人对环境的感知能力“大幅提升”,对人类指令的理解和任务完成度“非常高”,执行后的自我评估也“非常到位”。
北京大学计算机学院助理教授、博士生导师董浩表示,OpenAI与Figure的合作带来了上层机器人的感知决策。
“它实际上分为两层,一层是感知决策,这是通过一个大模型来实现的。由于大模型具有感知能力,感知模型将逐渐被大模型取代。然后它会输出Set-point,这实际上就是我们所说的以对象为中心的表达式。”董浩告诉甲子光年,“还有一层机器人控制,通过一个小模型就可以达到200hz的高频。然后通过运输控制算法,做全身控制,让手走到指定位置。”
图团队表示,图01机器人由OpenAI提供视觉推理和语言理解能力,图神经网络提供快速、低级和灵巧的机器人动作能力。
为了实现视频中的效果,图研究人员将机器人摄像头捕捉到的图像和机载麦克风捕捉到的语音转录文本输入到OpenAI训练的大规模多模态模型中,然后模型处理对话的整个历史,获得语言响应,然后通过文本到语音的模式回复给人类。
“同一模型还负责决定在机器人上运行哪些闭环行为来完成给定的命令,在GPU上加载特定的神经网络权重并执行策略。”林奇在x上分享道。
一个神经网络用来完成从语音输入到感知、推理、决策和行为指令输出的整个过程,图中称之为“端到端神经网络”。
图01原理解释,图片来源:图
然而,“端到端”一词引起了一些讨论。
Mobvoi创始人兼首席执行官李志飞认为,原则上,Figure看起来类似于谷歌2023年3月发布的PaLM-E和RT-1的管道组合,而不是谷歌2023年7月发布的端到端模型RT-2。
“& apos不同的人对这件事有不同的理解。董浩解释说,“有些人认为直接输出动作的RT-2被称为‘端到端’,但这种方法的缺点是显而易见的。”调用大模型的频率比较高,计算功耗特别大,很难达到比较高的决策速度。Figure的‘端到端’并不是指直接输出动作,而是通过高频模型输出动作。”
还有另一个争议。图01的演示视频是“摆拍”吗?
尽管Figure的创始人布雷特·阿德科克表示,该机器人没有远程操作,视频是以1.0倍速(正常速度)连续拍摄的,但质疑者认为,该视频并非陌生环境,而是精心设计的,拍摄过程中的失败次数难以估计。最后,图选择了最好的一个。
人工智能和机器人领域的技术专家、“极己”创始人刘止庸分析说:“我不认为有一个姿势,但它的泛化能力,特别是在陌生环境和具身控制方面的泛化能力,还没有通过视频展示出来。如果你把这个机器人扔进一个全新的环境,它可能无法工作,但在这个环境和这个时刻,它是完全自主的。”
阿德科克在最近的一次采访中也承认,在开放环境中完成交互是Figure正在关注的方向。
刘止庸告诉甲子光年,当晚看到视频的第一反应是“没那么震惊”,因为视频中展示的机器人技术在业内都很有名,“比如推理能力、视觉描述能力和任务规划能力,这些在之前的学术论文和demo中都有展示。”
在他看来,OpenAI和Figure这次展示的“真正的新事物”是基于Transformer架构的控制网络和Transformer网络背后的数据收集系统。
在机器人领域,数据收集系统是指从机器人及其环境中获取信息的一套工具和方法。这样的系统对于机器人的学习和进步非常重要,因为它为机器学习算法提供了必要的输入,并使机器人能够通过经验提高其性能。
“通过一套硬件设备,提供标准化、通用化的训练数据。由于数据收集系统的存在,变压器培训可以完成。我认为这是一个巨大的突破,而不是机器人本身的突破。”刘止庸说。
此前,OpenAI解散机器人团队的原因是缺乏训练机器人使用人工智能进行运动和推理所需的数据。据推断,OpenAI能够与Figure合作也与其数据收集系统有关。
OpenAI在图01机器人中使用的多模态模型也引发了许多人对黑脸田鸡在机器人领域应用的猜测。李志飞不同意两者之间的关系。“图与黑脸田鸡无关,因为黑脸田鸡主要是在这个阶段产生的,不为人所理解。即使未来可以理解并生成黑脸田鸡,它是否能实现端到端200hz的决策速度也是一个大问题。”
其他人会担心大模型的上下文长度限制和“错觉”问题会对机器人行为产生影响。对此,刘止庸认为:“通过用TokenLearner(一种视觉表征学习方法)优化输入数据,可以解除上下文窗口的限制。幻觉问题可以通过自我反思机制或内心独白机制来解决。通常,任务规划问题通过分层规划机制来解决。机器人的错觉可能不仅在语言层面,还需要通过环境可用性和行为可能性来解决视觉、语言和动作的接地气问题。”
二、差距有多大?它在哪里?
小米评测计划300字
图01机器人演示视频被爆出后,“甲子光年”与国内众多人工智能和机器人领域的学者和从业者进行了交流。业内人士普遍认为“有效”但“不震撼”,许多技术之前都有“研究成果”,国内相关研究也“走在前列”。
然而,为什么中国没有出现图01机器人?
亮亮告诉“甲子光年”,目前国内大部分厂商都是类似图的方案。它们都是通过大模型进行感知、推理和决策,通过小模型捕捉数据并进行视觉判断,但图01机器人能够与物理世界进行如此出色的交互,这与OpenAI大模型的加持密不可分。“差距不是十天半个月,而是至少一年。”
刘止庸还认为,中国与世界最先进的具身智能之间的差距是“一年到一年半”。但他的观点不同。在他看来,主要是“数据采集硬件的差距”。
“我不认为大模型能力会限制具身智能的发展,因为行为选择中间层的使用不是一个‘端到端’的方案,而是一个感知决策和控制块。视觉语言模型的感知和大语言模型的决策没有真正的瓶颈,国内外的差异也不一定很大。”刘止庸对甲子光年说:“真正的重点仍然是身体控制。我们能否建立一个完整的数据收集系统,我们能否形成数据的飞轮和标度律的出现?此外,数据收集系统必须有标准的数据格式。”
刘止庸介绍说,中国缺乏公认的数据收集系统、模型训练过程和数据递归生成管道。“换句话说,我们无法通过一套数据采集硬件设备提供标准化、通用化的训练数据。图01正是因为这个系统的存在,它才能做Transformer的训练。”
在接受ARK invest采访时,阿德科克提到,收集数据并用这些数据训练AI系统是Figure最重要的事情之一。“我们需要考虑如何收集数据,如何在一定规模上考虑这个问题,以及如何成功和递归地运行AI数据引擎。我们花了很多时间思考如何在规模上做到这一点,以及如何在早期运营中开始这样做。”
换句话说,大规模的数据收集是Figure长期竞争力的关键。只有机器人批量生产并在全球范围内推广,才能真正完成人形机器人的内循环,打造人形机器人的数据飞轮。
此外,训练数据所需的算力资源也是不容忽视的因素。
不过,国内的机器人研究最近也有了新进展,重点是图01这次没有展示的泛化能力。北京大学董浩团队最新发布的大人体模型研究成果——ManipLLM的论文已被计算机视觉领域顶级会议CVPR 2024接受。
ManipLLM培训策略示意图,图片来源:受访者供图
“我们的大模型专注于解决广义对象操作。“董浩告诉甲子光年,“我们提出了一种利用大模型直接输出物体上动作的方法,而不是输出机器人本身的动作,这样可以提高机器人的泛化能力。”
在模拟和真实世界中,ManipLLM在多种类型的对象上取得了令人满意的结果,证明了其在多种类型对象上的可靠性和适用性。
今年3月初,刘止庸创办的集集公司推出了一款面向科研和教育市场的可销售家用机器人本体。机械师姬不仅成功推出了具有长期任务规划能力和基本操作能力的文学学生行动推理智能代理。同时,他们还推出了面向科研和教育市场的家用机器人本体研究平台,旨在为高校和研究机构提供一个开放的研发平台,以促进具身智能领域的科研和教学。
2023年底,工信部发布了《关于仿人机器人创新发展的指导意见》,首次以单独文件的形式对仿人机器人发展作出了全面明确的战略规划和部署。意见指出,人形机器人融合了人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车之后的颠覆性产品,将深刻改变人类生产生活方式,重塑全球产业发展格局。
同样在2023年底,首款人形机器人育碧在港交所上市,这也为国内机器人行业注入了一针强心剂。人形机器人有可能像中国新能源产业一样引领世界吗?育碧创始人、董事长兼首席执行官周剑对此充满信心:“可以肯定的是,人形机器人的未来取决于中国。”
第三,OpenAI的机器人梦
OpenAI最初有一个研究机器人的计划。早期OpenAI的主要目标包括制造“通用”机器人和使用自然语言聊天的机器人。
“OpenAI早期的许多探索都与电子游戏、多智能体模拟和机器人有关。他们在这些领域进行了广泛的探索,并取得了巨大的成功。”OpenAI前科学家乔尔·雷曼告诉甲子光年。
2018年7月30日,OpenAI发表了一篇研究文章“学习灵巧性”,并宣称:“我们训练了一只人形机器人手,它可以以前所未有的灵巧性操纵物理物体。”
Dactyl,图片来源:OpenAI
这个系统被称为Dactyl。Dactyl从零开始学习,并使用与OpenAI Five相同的通用强化学习算法和代码。OpenAI的研究结果表明,有可能在模拟环境中训练智能体,并让他们解决现实世界的任务,而无需精确建模世界的物理。
尽管世界上第一只人形手是在几十年前开发的,但使用它们有效地操纵物体一直是机器人控制领域的一个挑战。使用传统机器人方法进行灵巧操作的进展缓慢,并且在现实世界中操作物体时,当时的技术能力仍然有限。
在Dactyl亮相的前一个月,OpenAI发布了GPT-1,正式踏上了GPT模式的旅程。目前,OpenAI的人形机器人还没有与GPT模型联系在一起。
2019年,OpenAI机器人团队表示,Dactyl已经学会用一只手解决魔方问题,仅探索和还原魔方就花了三分多钟。OpenAI将这一壮举视为机器人附属物的灵巧性和自身AI软件的飞跃。
“许多机器人可以快速解决魔方问题。这些机器人都是为了解决魔方而制造的。”OpenAI机器人负责人Peter Welinder表示,“OpenAI的机器人团队有着截然不同的雄心。我们正在努力制造一个通用机器人,就像我们的手可以做很多事情一样,而不仅仅是完成一项特定的任务。”
Dactyl是一种“自我学习”的机械手,可以像人类一样完成新的任务。OpenAI希望有一天,Dactyl能够帮助人类开发出类似科幻小说中的人形机器人。
今年,OpenAI发射了GPT 2号,并发现了通往新世界的海图。
然后在2020年,OpenAI将所有精力和资源放在了GPT模型上,并发布了GPT-3。当时这是一条外界无法理解的非主流技术路线,连续投注的行为一度被视为一种信仰。OpenAI实验室逐渐消除了实验中的所有项目,并打了一个洞。
2021年夏天,OpenAI的机器人团队等来了解散的消息。
然而,OpenAI并没有放弃制造机器人的梦想。
2022年底,ChatGPT的巨大成功让OpenAI获得了大量资源,但这一次,OpenAI不再执着于完全自研,而是投资了一家走“对口”技术路线的初创公司。2023年3月,OpenAI投资了来自挪威的人形机器人公司1X Technologies。
紧接着,今年2月29日,OpenAI投资并与Figure合作。
OpenAI与图合作,图片来源:图
有趣的是,1X和图选择的技术路线是机器人的端到端神经网络控制。
不负众望,在Figure宣布与OpenAI合作13天后,发布了Figure 01的全新演示视频,惊艳了全球,这再次证明了OpenAI对技术路线的超强洞察力。
虽然OpenAI和Figure的合作很顺利,但OpenAI并没有把所有的宝都压在一家机器人公司身上。
当地时间3月12日,一家名为Physical Intelligence的公司宣布在旧金山成立,其目标是“为机器人建造大脑”。根据其在官网的介绍,物理智能是一家将通用人工智能带入物理世界的新公司。该团队由工程师、科学家、机器人专家和企业家组成,致力于开发基本模型和学习算法,为当今的机器人和未来的物理驾驶设备提供动力。
该公司在其“简陋”的官方网站中写道,“我们感谢Khosla Ventures、Lux Capital、OpenAI、红杉资本和Thrive Capital的支持和合作。”
不断押注人形机器人公司,OpenAI重新点燃了机器人的梦想。
OpenAI成立之初,埃隆·马斯克、萨姆·奥特曼、格雷格·布罗克曼、伊利亚·苏茨基弗等人联合发文称:“我们致力于使用物理机器人(OpenAI已有但未开发)完成基本家务。”
这一次,图01机器人演示了基本家务的完成。
曾经拥有共同梦想的人们已经分道扬镳,闹上了法庭,但对于马斯克来说,他再次迎来了他的“老朋友”和“死敌”——机器人领域的奥特曼。
参考资料:
OpenAI和图机器人背后的技术原理是什么?”,格非说道艾。
《由人工智能布雷特·阿德科克扮演的类人机器人的未来》,方舟投资公司
《学习灵巧》
未经允许不得转载:科技让生活更美好 » OpenAI没有放弃的机器人梦想