比 Siri 更懂 iPhone!GPT-4V 可“操作”手机完成任意指令,无需训练

一项研究发现:

无需任何训练,GPT-4V可以像人类一样直接与智能手机交互,完成各种指定的命令。

比如让它在50-100美金的预算内买一个牛奶发泡的工具。

它可以一步一步完成以下九个操作:选择购物程序(亚马逊)并打开,点击搜索栏输入“牛奶泡泡器”,找到筛选功能选择预算范围,点击商品,完成订单。

根据测试,GPT-4V在iPhone上完成类似任务的成功率可以达到75%。

所以有人感叹,有了它,Siri渐渐没用了(比Siri更懂iPhone)

)

谁知道有人直接摆摆手:

Siri一开始就没那么强。(狗头)

有人边看边喊:

真的是这样吗?

GPT-4V零样品操作iPhone

这项研究来自加州大学圣地亚哥分校、微软等机构。

它自己开发了一个MM-Navigator,即基于GPT-4V的代理,用于执行智能手机用户界面的导航任务。

实验装置

在每个时间步,MM-Navigator将获得一个屏幕截图。

作为一种多模态模式,GPT-4V接受图像和文本作为输入,并产生文本输出。

这里是一步一步的读取截图信息,输出要操作的步骤。

现在的问题是:

如何让模型合理的计算出给定屏幕上应该点击的确切位置坐标(GPT-4V只能给出大概位置)。

作者给出的解决方法很简单。OCR工具和IconNet检测每个给定屏幕上的UI元素,并标记不同的数字。

这样,GPT-4V只需要面对截图,指出要操作哪些数字。

两项能力测试

该测试首先在iPhone上启动。

要成功地控制手机涉及不同类型的屏幕理解能力的GPT-4V:

一个是语义推理,包括理解屏幕输入和阐明完成给定指令所需的动作。

一个是指出每个动作应该被执行的确切位置的能力(也就是,哪个数字在那个点)。

因此,作者开发了两组测试来分别区分它们。

1、预期动作描述

只输出应该做什么,不输出具体坐标。

在这项任务中,GPT-4V理解指令并给出操作步骤的准确率为90.9%。

比如下面的Safari浏览器截图,用户想打开一个新的标签页,但是左下角的+号是灰色的。我该怎么办?

GPT-4V回答:

图片理解力很好~文中可以找到更多的例子。

2、本地化行动执行

当GPT-4V被要求将所有这些“纸上谈兵”变成具体行动(即第二项测试任务)时,其准确率下降到了74.5%。

还是上面的例子,它可以按照自己的指令,给出正确的操作号,比如点击数字9关闭一个标签页。

但如下图所示,当它被要求寻找一个可以识别建筑物的应用时,它可以准确地指出使用了ChatGPT,却给出了错误的数字“15”(应该是“5”)。

也有错误是因为截图本身没有注明对应位置。

比如让它从下图开启隐身模式,直接给wifi”的位置,完全尴尬。

此外,除了这种简单的一步到位的任务,测试还发现,GPT-4V无需训练也能胜任“购买一个鼓泡器”这样复杂的指令。

在这个过程中,我们可以看到GPT-4V详细列出了每一步要做什么,以及对应的数字坐标。

最后是在Android上的测试。

总体而言,它的表现明显优于其他型号,如Llama 2、PaLM 2和ChatGPT。

在安装、购物等任务中整体表现的最高分为52.96%,这些基线机型的最高分为39.6%。

对于整个实验来说,其最大的意义在于证明了GPT-4V等多模态模型可以直接将其能力迁移到不熟悉的场景,显示出手机交互的巨大潜力。

值得一提的是,看了这个调研,网友们还提出了两点:

一个是我们如何定义任务执行的成败。

比如我们想让它买洗手液补充品,我们只要一袋,它却多买了六袋。成功了吗?

第二,大家不能太激动。如果要真正将这项技术商业化,还有很长的路要走空。

因为准确率高达95%的Siri经常被吐槽的很惨。

团队介绍

这项研究有12位作者,大部分来自微软。

两个人一起工作。

他们是加州大学圣地亚哥分校的博士生和微软的高级研究员杨。后者毕业于罗切斯特大学,获得学士学位。

参考链接:

本文来自微信微信官方账号:量子位(ID: qbitai),作者:丰色。

您可能还喜欢...