到底什么时候AI才能帮我把麻烦事都做了啊?

你好,我是许华哲,一个AI的家伙。朋友知道我的专业后,经常问我,你每天做的研究好像很高。什么时候能让AI帮我解决生活中的所有烦恼?

比如,今天又是一个美好的周末。你可能想美美地睡个懒觉,但是当你醒来的时候,你发现你忘了扔掉昨天剩下的外卖垃圾。你辛辛苦苦清理完之后,发现地上有一些不知名的液体,你又要拖地了。

当你终于做完所有的事情时,已经是中午了。你说我整个星期都在加班。为什么我不给自己做一顿健康的饭呢?但是你得自己洗菜,削皮,甚至切洋葱。这个时候,我觉得就很容易问出刚才那个问题了——AI什么时候才能帮我们做好这些破事?

我帮你提取了一个答案:

“在未来的3到8年内,通用智能将会出现。”但这不是我说的,这是图灵奖获得者马文·明斯基说的。他什么时候说的?我是在1970年接受《生活》杂志采访的。

也就是说,按照他的说法,只要时光倒流几十年,通用人工智能就会出现,你的问题就解决了——这当然不可能。所以我们看到,即使是最聪明的人类,也低估了实现人工智能的难度。

当然,当马文·明斯基说这话的时候,人工智能正经历着第一波蓬勃发展。我们先来看看1970年以后历史上发生了什么。

首先是一波AI寒冬,十几年没发生了。1997年,IBM深蓝已经可以和人下棋了。2012年卷积神经网络AlexNet来了。从此,我们可以通过深度学习对图片进行分类。

2017年,在强化学习的加持下,DeepMind发明了AlphaGo,可以击败人类最优秀的围棋选手李世石。2022年,我想大家都很熟悉了。最强对话机器人ChatGPT出现。我们可以和它说话,问问题。

现在艾会写诗,会作词,会画画,会作曲。到2050年,人工智能肯定会很强大。

但是你可能想说,呃,等一下,人工智能真的发展起来了,我可以用脸支付,我可以让GPT帮我写论文…但是怎么感觉我想做的事AI都做了,我不想做的事它也不想做?

这到底是怎么回事?其实它真正的问题是什么是智能。

一、AI眼中的难与简单

我不妨问你以下两个例子。左边是我们刚刚看到的Go,右边是我们想打开这扇门走过去。你觉得哪个更需要智力?

我想大家可能都觉得是Go。因为一提到它,我们都把它和“神童”、“聪明”、“深刻”联系在一起,但是我们之前说过,它已经被阿尔法狗解决了。

但是我们来看看,机器人是怎么解决“开门走过去”这个任务的?

机器人非常一致地选择了同一个解决方案(doge face)。这也让我们意识到,似乎这么简单的事情也不容易解决,什么是难,什么是简单,我们似乎也不是很清楚。这个伟大的发现被称为莫拉维克悖论。

莫拉维克悖论是指在人工智能领域,困难的问题容易解决,而简单的问题很难解决。换句话说,有些事情对人类来说看似简单,对人工智能来说却很难。

为什么会这样?马文·明斯基也给了我们一个解释——我们很难意识到自己最擅长什么,但更容易意识到自己不擅长什么却更简单。

比如我问你开门难不难,你说不难,但如果这时候我给你一道六年级的奥数题,你说,兄弟,你在给我力量。所以很多时候,“难”和“简单”都是我们的主观感受。我们究竟为什么会有这样的主观感受?

一种解释是,从进化的角度来看,我们用了几十亿年变成猿,几千万年从猿变成人,几百万年从人发展出语言,最后几十万年才有了语言、逻辑,甚至音乐、艺术等等的使用。

也就是说,如果我们看这个时间线,我们99%以上的时间都在和物理世界打交道,熟悉它的运动,而只有一点点时间在研究那些我们认为很难的问题。这可能就是为什么我们人类和AI对难度和简单的定义不同。

但你可能会说我不听。我不听。我只想让你把垃圾拿出去给我做饭。那没问题。就叫今天的主角吧,叫普适的具身人工智能——具身AI。

第二,我们想要什么样的机器人?

什么是普适的具身人工智能?首先,它应该有一个身体,通常是一个机器人,可以在各种场景下工作,比如卧室,厨房等等,它可以在这些场景下完成许多不同类型的任务。这是通用具身人工智能最简单的定义。

你可能会问,好像生活中已经有很多机器人了。它们是通用人工智能吗?

比如海底捞有送餐机器人给你送肉片,银行有机器人给你服务,家里有机器人帮你扫地。它们是通用人工智能吗?

直觉告诉你,他们好像不是,因为他们太坏了。那么,这些强大的具体化智能体是我们想要的那种机器人吗?

比如这是OpenAI训练出来的灵巧手,可以转动魔方。

下面这只灵巧的手可以向老人学习转球,来自谷歌和加州大学伯克利分校的研究人员。

还有一项可以让小型机器人在虚拟世界中翻滚的研究,也是来自加州大学伯克利分校。

这些是我们想要的机器人吗?好像不是,因为他们更像是某个领域的“专家”,都在研究解决某个具体问题。刚才提到的这些代理商不是我们想要的。我们想要的宇宙具身智能到底是做什么的?

或者回你的厨房。我们想要的机器人需要学会如何打开窗户,同时,学会使用烤箱,学会走到炉子前按下按钮开灯。它可以在走到冰箱前打开冰箱柜。

当然,真正的灾难发生在冰箱打开之后,因为冰箱打开之后,里面会有各种各样的东西,有瓶装的液体,有半开的塑料袋,有半烂半滑的西红柿,有已经蔫了一个星期的蔬菜。

这个机器人需要能够识别和操作这些不同形式的成分,知道它们不像常规的棋盘或完美的样本,而是一个大杂烩。

而这些都是总代理需要处理的事情,之前的那些代理显然做不到这些。当然,我可能会过度美化你的厨房,你的厨房也可能。

不要紧,他们也做不到。所以我们的下一个问题是,具身智能体应该如何完成这些任务?

事实上,对于这些具身代理人来说,他们最好的老师就是我们自己。当我们遇到一个任务时,会先调用视觉、触觉、听觉、嗅觉、味觉等感知模块来感知世界,采集信号。

然后通过我们知道的世界模型来分析。什么是世界模型?世界就是这样运转的。可以是你可以推断,如果那块垃圾不扔掉,会引来一些不受欢迎的昆虫,也可以是篮球扔出去的时候,你可以通过直观的物理想象它会抛出一个优雅的抛物线。这些可以是世界模型。

随着感知和世界模型在我们脑海中形成,我们可以做出一些决定和行动。获得新的感测信号,从而形成闭环。

那么对具身智能也可以这样,我们不妨一个一个来看。首先,我们来看感知。

第三,能打耳机线的重要性

说到感知,大家都不陌生。比如我们提到视觉,机器人的眼睛就是摄像头;说到听觉,麦克风可以帮助机器人接收声音。有了这两种模式,机器人其实可以做很多事情。

但是如果我们想让它真正通用,能够做所有的事情,还有一个很重要的模式,就是机器人的触觉。但是如果我问在座的各位,触觉传感器是什么样子的,我想很多人会说,我不知道。

这是我们做的触觉传感器,叫9D-Tact。

它能摸到什么?我们把这个触觉传感器放在桌子上,用一个物体扭转它。

触觉传感器就像我们的皮肤一样,可以感觉形状和力度。这是它真正感知到的触觉信号,

经过算法处理,我们可以发现红色的部分是它接触到的物体的形状,是一个五角星。绿色部分是力的大小和方向,与手部动作一致。

有了这样的触觉传感器,我们就可以把它安装在机器人的手上和手爪上,可以帮助被具体化的智能真正产生细致的操作能力。

比如有了触觉,机器人可以帮我把一根耳机线捋平,插到MP4上。

这是一个来自麻省理工的小例子,是我的朋友邵雄做的。他还有一个更神奇的小盒子,叫做SwingBot。它可以扔东西,就像我可以把这个遥控器扔在我手里一样。

这个动作其实并不简单,因为如果你压得太紧,它就不会被抛起来,但是如果压得太松,它就会飞出来。所以有了触觉,我们可以做很多更灵巧复杂的任务。

这里我们知道触摸是有用的,下一步就是研究世界模型。因为世界模型,我们可以做决定。

四、包饺子机器人手机热销排行

为了把世界模式解释清楚,我想从一个中国新年说起。那时候我在斯坦福做博士后,我和朋友在饺子过年。

当然,其他四个人都在认真包饺子,而我在玩手机,因为我包饺子的技术太差了。

巧的是,当时我们在实验室做橡皮泥捏制项目。因为有了橡皮泥操作的经验,我很快就明白了为什么我做不了饺子。因为我无法掌握柔性物体和这个弹塑性面团的世界模型。

虽然我不会,但是我的机器人会。当时没有面团,我们赶紧跑去拿橡皮泥,赶紧验证。看起来我们可以挤出一个饺子形状。

所以我告诉我的合作者陈皓,我们为什么不让机器人学习饺子的世界模型,并让它覆盖饺子呢?它不是工厂里的流水线作业,而是一个机械臂独立完成包饺子的步骤。

接下来,你可能知道我要说什么了。当我告诉我的国际朋友,这个网页很受欢迎。但是在今天的会场,每个人都是专家。

因为他们大概对包饺子的过程一无所知,所以我要详细说说每一个步骤。往面团里倒水,揉成长条,切成小块——这在东北叫药水,然后用擀面杖擀平,擀成皮,最后裹上馅儿。

整个过程中我们使用了哪些工具?

我们用手、刀子和擀面杖。当然最后因为科研难度太大,我们了解到意大利人就是用这样的模具来完成填充步骤的。

接下来,我们将分析如果让机器人包饺子,它会使用什么工具。最上面一排是我们认为包娇子的机器人可能会用到的工具,所以我们用3D打印了出来。

有了这样的工具库,我们开始为机器制造人工厨房。

白色虚线的架子上放着工具,黄色虚线的摄像头用来感应中间的物体,机械臂和机械臂使用的工具。最后,红色区域是机器人下大力气的地方,也就是它的案板。

有了这样一个可以施展拳脚的地方,机器人就开始和面团愉快地互动了。首先,我们让它随机选择各种工具,随机与这个面团互动。

以便机器人能够理解面团如何变化以及面团的世界模型。我们收集这些交互数据是为了后续的训练。

你要训练什么?在训练世界模型之前,我们必须先训练一个工具选择器。当我们给出面团的当前状态和目标状态时,比如一个饺子:

工具分类网可以帮助我们从多种工具中选择最合适的工具进行操作。比如和目标饺子比,还是太粗了,我就选大擀面杖。

选择工具后,我们回到世界模型,世界模型是面团的状态如何变化。学世界模型有什么用?

我们假设工具已经选好,机器人的动作是确定的。当我们把当前的面团状态输入一个神经网络,也就是未来要训练的世界模型,这个世界模型就可以预测下一时刻的面团状态。

这是我们的机器人掌握的面团世界模型。让我们来看看它的能力。简而言之,非常准确。

▲世界模型的预测结果

图中红色的是使用的工具,蓝色的是面团形状。以上是我们的预测值,以下是真实值。我们会发现顶部和底部看起来非常相似,这表明我们的世界模型可以准确地捕捉到面团被挤压后将如何移动。

所以我们只需要改变顺序。现在,给定面团的当前状态,给定要使用的工具,用世界模型预测面团的未来状态,就可以得出机器人要做什么了。

这样,我们就可以学习一个机器人策略网络,让它们知道如何在当前状态下用一个动作来达到我们未来所渴望的状态。

现在我们终于可以完全连接这个系统了。首先选择工具,是用擀面杖还是其他工具,然后把这个结果输入到刚刚得到的机器人策略中。机器人策略会给出机器人此时会输出的动作,比如我此刻是应该按下还是滚动这个工具。

然后,我可以看到新的面团状态,新的面团状态通过视觉反馈作为新的感知信息输入到这个闭环中。所以我们的机器人可以包饺子。

这是机器人演示如何包饺子。

您当前的设备暂时不支持播放。

我们可以看到这个机器人会主动选择它想要用来切割的工具,比如把一个大面团切成小块。

比如切成小份后,你会选择用小夹子把面团变成更规则的形状。

当然,聪明的观众应该已经发现,这个视频里有一只邪恶的手在做坏事。他不是我,他是我的合作者陈皓,他一直在摆弄机器人。

为什么要闹事?因为我们要证明我们的机器人算法足够健壮,可以不受外界影响,是学习出来的,和直接写在里面的代码不一样。

无论你如何影响它,它总能学会如何选择工具,如何应对不同的状态。在这一步,陈皓突然把整个面团恢复到原来的状态。

所以我们让机器人从头开始,但它还是能做到。

最后我们放在揉皱的模具上,这样一个皮厚馅小的饺子就包好了。

可能你会觉得好笑,看的时候可能会有一些问题。比如有的朋友会问,继续训练会不会更好?

当然,我们会的。我们全程使用的机器人数据只采集了20分钟。如果给它更多的数据,更多的试错空,自然可以让娇子的荷包更加完美。

是天花板吗?我可以说是也可以说不是,对于现在市场上用来包饺子的代理商来说,我们做的这个项目是天花板,但绝对不是机器人,也不是有身体智能的天花板。比如我们给这个机器人灵巧的双手,或者加上强化学习的技术,它还有很多很多可以拓展的地方。

第五,类比的概括能力

所以回到我们的话题,普遍体现智能。鲍娇子的项目已经帮助我们解决了智能体如何自己完成一个复杂的控制任务的问题,但是普适性的问题还没有解决。

什么是普遍性?当我们训练机器人做一个任务,然后让它做第二个、第三个任务,让它做很多很多不同的任务,那么一个新的任务就出现了。

如果是人类,有了之前做任务的经验,很有可能可以直接完成,所以我们希望机器人能达到这个水平。所以我们尽量让机器人找到任务之间的一些一般联系,让它不需要额外的训练就能直接完成新的任务。

在一般的具身智能中,这被称为概括。我们再回到包饺子,因为我们学的世界模型不是针对饺子的,而是针对整个面团的,所以可以很自然地推广到其他面团操作上。

举个例子,在这个地方,我们可以用同样的模型做一个字母cookie,RoboCook,所以我们把RoboCook对应的字母捏出来。

同时,由于我们的世界模型中使用的神经网络,自然具有一定的泛化能力,所以可以泛化到面团,比如橡皮泥、污泥、泡沫等。这些都是一般具身智能所需要的概括能力。

但概括远不止这些。比如这里我给你举个例子,说明一个物体的形状和功能之间的联系。听起来很抽象,其实很简单。

假设这里有两把刀。只要我们人类会用左刀,自然会用右刀。不用再学习,我们的大脑会自动归纳。

为什么?也许我们知道尖是什么,刃是什么,背是什么,就能找到它们之间的某种对应关系。

所以不管刀变大了,变小了,变了颜色,变了形状,变了姿势,我们都可以用刀。

当然,这种相似性不一定局限于阶级,还可以更广泛。举个例子,我们知道如果要拿勺子,就要抓着手柄,所以我可以推断,如果要拿网球拍,也要抓着手柄。

如果我们看到一辆摩托车,知道抓住它的把手,那么我可以推断,我们在家里开门的时候,也应该抓住它的把手。

这是我们卓越的泛化能力,我们想把这种能力赋予通用人工智能。

比如我们让机器人切豆腐。我们先教他用刀,看他能不能举一反三,把所有的刀都用上。

您当前的设备暂时不支持播放。

好的,到目前为止,我们已经能够让AI智能体意识到,并有一个世界模型来帮助它做出决定,它也可以推广到新的任务。我们赋予了身体智能,这就是我们现在定义的具身智能。

但是身体上的智力就这样吗?就这些吗?当然不是。

有一种理论认为身体实际上可以开发智力。代表人物是加州大学伯克利分校的休伯特·德雷福斯和心理学家琳达·史密斯。他们认为,人类智力的发展是因为我们的身体不断与外界互动。

例如,当我们玩玩具时,视觉和触觉总是相互反馈,所以当我们探索世界时,我们获得了新的技能和知识,尤其是在婴儿期。人类婴儿的智力发展非常快。他们从来什么都不懂,但是三四岁的时候可能就很懂事了。这可能正是因为孩子在不断地与世界互动。

我们不妨看看这样一个例子。这是一个7个月大的孩子。他很认真地盯着这个小玩具,但是当它被布盖住的时候,孩子完全愣住了。

他以为玩具不见了。他不知道小玩具上盖着布,以为它不见了。这是因为7个月大的孩子不知道物体永远存在的概念。

然后他开始和这个世界互动,他开始探索。当他不小心打开这块布的时候,他发现他可以摸到这个东西,然后他明白这个东西一直在这里。这样的探索有助于人类开发智力。

基于这个想法,我们也在机械狗上做了一个小尝试。我们首先在模拟器中训练了一只机器狗。但是当我们真的把它放在床垫上跑的时候,我们跑着跑着就摔倒了。

我们此时的目标是让他在上面稳稳地走。所以我们想,还是给它一些和世界互动的数据吧。但是这是谁的数据?先给它看看别人的数据,再给它看看和它同型号的其他机械狗的数据。

那么我们可以看到,当它与世界的交互数据更多的时候,它可以通过加强学习,在这个垫子上走得更稳。

但是很快我们给了它一个新的挑战。希望它能跑快点,跑道能延长一点。于是我们把两个床垫放在一起加速,然后它果然倒了。

最后,我们同意,现在我让你与这个世界互动,并向它学习。

于是我们发现,当狗亲自与世界互动时,它不仅能快速顺利地穿过床垫,甚至还能倒着跑。

当然这是一个很简单的例子,但是已经可以告诉我们,身体不仅可以承载智力,还可以帮助我们开发智力。

六、关于未来

最后,我可能想和大家谈谈我自己对通用人工智能未来的想法,以及现在可能遇到的困难。

在未来,我认为越来越多的普遍体现智能正在加速发展。除了今天提到的这些技术和有趣的东西,还有哪些变数?孟飞简介个人简历河南

像个大模特。大家可能都知道ChatGPT是一个大的语言模型。当然,还有其他大的多模态模型,可以将视觉与语言的整合结合起来。如此庞大的模型可以帮助我们理解世界,从而使被具体化的主体更具普适性。

▲谷歌发布的通用身体智能RT-2。

举个自动驾驶的例子。如果把自行车绑在汽车后面,后面那辆车的自动驾驶模型往往会崩溃,因为它忍不住想刹车。毕竟它平时学的是看到自行车就得刹车。

但是当前面的车在动的时候,我们人类可以分辨出自行车只是挂在上面,而上一代人工智能却无法分辨和解决这种情况。

不过现在有了大模特的加持,可以去问问大模特了。很多时候,大模特就像一个人。它可以告诉你,这其实是一个特例,你只需要正常驾驶就可以了。

第二是硬件成本的降低。像英伟达或者华为,他们给我们带来了很多很好的计算资源,计算资源的成本降低了。而且机器人的硬件成本也在下降。本来一只机械狗可能要50万人民币。现在一只机械狗,比如我刚在实验室买的,可能只要几万人民币。

如果你熟悉机器人,你会知道早期的机器人是基于控制论的。什么是控制论?我做了一个小托盘,上面有一个小乒乓球。无论你怎么推托盘,乒乓球都不会掉下来。

这是一个基于控制论的算法,但是很多时候不能通用,不能解决一般任务。

但是基于学习的算法就不一样了。可以通过深度学习和强化学习自然地推广到新的任务。它可以利用数据迭代,让AI在遇到新任务时更好地学习。

所以有了这三项技术的加持。越来越普遍的具身智能必将加速其进步。但是挑战依然存在。

首先是缺乏数据。大语言模型可以抓取和爬取世界上所有的书籍和互联网上所有的文本数据。但是,体现的智能就不一样了。你要让机器人真正与物理世界互动,那么它的数据量必然不会那么大。

其次,它需要高度的概括,因为我们刚刚提到,我们希望具身智能能够看到未来出现一个新的任务,能够直接完成。但是这么高的要求很难达到,所以对算法的进度还是有很大需求的。

还有一点就是试错成本高。试错的成本是多少?当通用身体智能运行不正常时,例如,我正在用它包饺子,但它不小心弄伤了我或打碎了我的古董花瓶。这时候我该怎么办?我可能不想开发它。

那么如何有效降低试错成本呢?我们要开发更多的模拟环境吗?还是应该把具身智能变成一个游乐场,而不是真的把它放在家里进行初步研究?这些问题等等。,都值得我们思考。

最后,如果我们的普遍具身智能真的达到了那个临界点,可能会带来一些伦理问题。因为它太聪明了,它比GPT还聪明。它不仅能和你说话,还能做体力活什么的。

这个时候,是谁,我们是谁,我们的价值在哪里,这些问题都会遇到很多挑战。

但我想说,其实宇宙具身智能还处于初级阶段,我们需要给它足够的关怀和引导,让它最终陪伴我们,帮助我们,服务我们,甚至成为我们在人类星辰大海的旅途中最可靠的伙伴。

最后回到我们的第一个问题,AI什么时候会帮我做这些傻事?我的回答是:别急,来了,正在跑。

谢谢大家。

长虹L18回音壁

参考资料:

[1] Andrychowicz,OpenAI: Marcin,Bowen Baker,Maciek Chociej,Rafal Jozefowicz,Bob McGrew,Jakub Pachocki,Arthur Petron等& quot学习灵巧的徒手操作。”国际机器人研究杂志39,第1期(2020): 3-20。

[2]Nagabandi,Anusha,Kurt Konolige,Sergey Levine和Vikash Kumar。”学习灵巧操作的深层动力学模型。”机器人学习会议,第1101-1112页。PMLR,2020年。

[3]彭、、彼得·阿贝耳、谢尔盖·莱文和米歇尔·范·德·潘尼。”Deepmimic:基于物理的角色技能的示例引导的深度强化学习。”美国计算机学会图形汇刊(TOG)37,第4期(2018): 1-14。

[4]林,常一,,,,徐华哲.”9DTact:一种基于视觉的紧凑型触觉传感器,用于精确的3D形状重建和广义6D力估计。”arXiv预印本arXiv:2308.14277(2023)。

[5]她、于、、董思远、尼哈·苏尼尔、和爱德华·阿德尔森。”用触觉反应抓手操纵电缆。”国际机器人研究杂志40,第12-14期(2021): 1385-1401。

[6]王、陈、、布兰登·罗梅罗、菲利普·韦加和爱德华·阿德尔森。”Swingbot:从手动触觉探索中学习身体特征,以进行动态向上摆动操作。”2020年IEEE/RSJ智能机器人和系统国际会议(IROS),第5633-5640页。IEEE,2020。

[7]石、、徐华哲、Samuel Clarke、李云珠和吴家军。”RoboCook:用不同工具进行长时间的弹塑性物体操作。”arXiv预印本arXiv:2306.14447(2023)。

[8]石、、徐华哲、Samuel Clarke、李运珠和吴家军。”RoboCook:用不同工具进行长时间的弹塑性物体操作。”arXiv预印本arXiv:2306.14447(2023)。

[11]雷,坤,何正茂,,陆,胡开哲,,徐华哲.”O4大学:通过多步策略优化统一在线和离线深度强化学习。”arXiv预印本arXiv:2311.03351(2023)。

未经允许不得转载:科技让生活更美好 » 到底什么时候AI才能帮我把麻烦事都做了啊?