一个小技巧,解锁ChatGPT「预测未来」?

新智元报道。

编辑:Mindy

【新智元简介】这项新研究利用ChatGPT的训练数据在2021年9月被切断的限制,比较了ChatGPT在直接预测和未来叙事预测两种不同提示方法下对2022年各种事件的预测性能。结果表明,未来叙事预测方法在预测2022年奥斯卡获奖者方面表现出色,ChatGPT-4在预测宏观经济变量方面的性能也有所提高。

如今,AI的进步速度已经超过了我们对其使用的理解。

为了防止ChatGPT“失控”,OpenAI定制了一套严苛的“服务条款”,涵盖法律、医疗/健康、人身安全、权益福利、赌博和借贷等多个领域。

不过,有一点不受影响——讲故事。

最近,贝勒大学的研究人员利用这一功能试图通过讲故事来解锁ChatGPT预测未来的能力。

地址:https://arxiv.org/abs/2404.07396.

在实验中,ChatGPT被要求讲述未来事件的故事,或者未来的权威人物讲述他们过去的故事(但我们的未来)。

叙事线索试图通过改变看似微妙的细节来进一步探索叙事线索的哪些元素是重要的,例如说话者的身份或发布有关2022年政治事件的信息。

为了创建答案的分布,该实验要求两名研究助理使用两个独立的ChatGPT帐户对每个提示进行50次查询,并为每个提示创建100个实验。

通过比较“直接向ChatGPT询问预测未来的技巧”和“向ChatGPT询问讲述未来故事的技巧”,研究人员发现,叙事技巧利用了模型构建虚幻叙事的能力,与直接预测相比,可以促进更有效的数据合成和外推。

奥斯卡获奖预测。

先说结论:

对于最佳男演员、最佳女演员和两个最佳男配角的类别,叙事暗示在预测获奖者方面非常准确-从42%(最佳女演员查斯坦)到100%(最佳男演员威尔·史密斯)不等。

相比之下,直接提示的性能非常差,通常比随机猜测更差。

例如,在最佳演员的例子中:

直接提示3a(直接)

在下面列出的提名者中,你认为哪位提名者最有可能在2022年获得最佳男演员奖?在进行预测时,请考虑围绕提名者的热门讨论和往年的模式:

哈维尔哈维尔·巴登、本尼迪克特康伯巴奇、安德鲁·加菲尔德、威尔·史密斯和丹泽尔海耶斯小华盛顿..

未来叙事提示3b(未来叙事)假面超人奥特曼国语

写一个家庭正在观看2022年奥斯卡颁奖典礼的场景。主持人宣读了以下最佳男演员提名名单:

哈维尔哈维尔·巴登、本尼迪克康伯巴奇、安德鲁·加菲尔德、威尔·史密斯和丹泽尔海斯..

描述场景,直到主持人宣布获胜者。

大多数时候,ChatGPT-3.5都做出了错误的预测。

在55%的猜测中,它提供了多个答案,在28%的情况下没有选择。但如果它做出选择,它选择威尔·史密斯的概率为17%。

相比之下,当ChatGPT-3.5被置于观看颁奖典礼的家庭的未来叙事中时,它猜测威尔·史密斯在80%的情况下会获胜。

同样,在大多数实验中,当直接提示时,ChatGPT-4拒绝参与。假面超人奥特曼国语

在所有情况下,它在26%的情况下提供了多个答案,在几乎一半的试验中,它拒绝做出任何预测。

当它进行猜测时,它有19%的时间猜对了威尔·史密斯,7%的时间猜对了丹泽尔·海斯·华盛顿。

相比之下,如果使用未来叙事线索,它在97%的情况下都会猜测威尔·史密斯,这比ChatGPT-3.5中18%的真实预测率要高得多。

经济现象预测

一位大学教授给本科生讲授菲利普斯曲线,因此美联储主席杰罗姆·鲍威尔在董事会上发表了讲话,并介绍了去年的经济数据。

在所有情况下,直接暗示的效果甚至不如Oscar,因为ChatGPT拒绝直接预测每个宏观经济变量的未来时间序列。

鲍威尔对通胀率的月度预测分布平均而言与密歇根大学消费者预期调查中包含的事实相当。有趣的是,这比根据克里夫兰美联储银行收集的数据预测实际通胀率更接近。

ChatGPT在预测月度失业率时大多不准确。但与通货膨胀率一样,BLS劳工统计局每月公布的失业率也在杰罗姆·鲍威尔演讲中提到的要求分布范围内。

例如,在使用美联储主席Jerome Powell预测通货膨胀的示例中,使用的提示是:

写一个场景,美联储董事长杰罗姆·鲍威尔将于2022年10月发表演讲,讨论通货膨胀、失业率和货币政策。鲍威尔总统向听众介绍了2021年9月至2022年8月的月度通胀率和失业率。让主席逐月解释。最后,他展望了通胀和失业率的前景以及利率政策可能发生的变化。」

以下分别是ChatGPT-3.5和ChatGPT-4的结果:

每个月,ChatGPT-3.5都有一个答案范围,其中包含美联储和密歇根州预期的答案。但可变性相当大,投机的核心趋势并没有明确指向任何措施。

ChatGPT-4的猜测包含密歇根州每个月的预期数字。同时,预测模型一直稳定到2022年9月,直到引入更多变量。

ChatGPT-4叙事形式预测能力的推测

对ChatGPT-4预测能力的研究表明,直接预测和基于未来叙事的预测之间存在显著的二分法。

在预测奥斯卡奖项的主要类别时,该模型的叙事预测极其准确,但最佳电影类别除外。这可能表明ChatGPT-4在舆论发挥重要作用的情况下表现良好。

在某些情况下,宏观经济现象的未来叙事练习的成功是相当准确的,但与此同时,也有一些部分没有达到预期。

在所有情况下,未来叙事都显著提高了ChatGPT的预测能力,这超出了简单的预测请求。生成html表格

叙述式提示和直接提示之间的差异突出了一种创新的数据分析方法,该方法尊重OpenAI服务条款设定的边界。

通过专注于预测的创造性方面,例如预测奖项或经济趋势,研究人员和用户可以避免在没有合格专业人员监督的情况下直接应用AI进行高风险的自动化决策或提供专业建议。

这种方法论选择不仅增强了人工智能使用的完整性和道德考量,还促进了对其能力的负责任的探索。

同时,随着OpenAI不断鼓励和提高其模型的创作能力,理解和解决AI的叙事和直接暗示之间的道德区分和定义非常重要。

参考资料:

https://arxiv.org/abs/2404.07396

您可能还喜欢...