Meta对大模型的注意机制有了新的研究。
新机制通过调整模型的关注度,屏蔽无关信息的干扰,进一步提高了大模型的准确性。
而且这种机制不需要微调,也不需要训练,大模型只需要提示就可以提高27%的准确率。
作者将这种注意机制命名为“系统2注意”(S2A),它来源于2002年诺贝尔经济学奖得主丹尼尔·卡内曼的畅销书《思考,快与慢》中提到的心理学概念——“双系统思维模式中的系统2”。
所谓系统2是指复杂的意识推理,与系统1相对,即简单的无意识直觉。
S2A通过暗示“调节”了《变形金刚》中的注意机制,使得模型的整体思维模式更接近系统2。
有网友形容这种机制是给AI加了一层“护目镜”。
另外,作者在论文题目中也说了,不仅是大模型,这种思维模式也可能需要人类自己去学习。
那么,这个方法具体是怎么实现的呢?
避免“误导”大模型。
传统大型模型中常用的Transformer架构使用软关注机制——它为每个令牌分配0到1之间的关注值。
对应的概念是硬注意机制,只注意输入序列的一个或几个子集,更常用于图像处理。
S2A机制可以理解为两种模式的结合——核心仍然是软注意,但增加了一个“硬”筛选过程。
具体来说,S2A不需要对模型本身进行调整,而是让模型在解决问题之前去掉“不应该注意的东西”。
这样可以降低大模型在处理带有主观色彩或无关信息的提示时被误导的概率,从而提高模型的推理能力和实际应用价值。
我们知道,大模型生成的答案受提示词的影响很大,S2A也通过删除可能造成干扰的信息,在形式上提高了准确率。
例如,如果我们问大模型这样一个问题:
此时GPT和骆马给出的答案都是问题中提到的A城,但实际上Y的出生地是c城
本来直接问的时候,模型可以准确回答C城市,但是因为提示中反复出现了A城市,所以被模型“关注”了,给出的答案就变成了A。
另一种情况是人们在提问时提出“可能的答案”。
于是,大模式开始奉承用户。你是对的,也就是A是对的。但实际上这个人是b。
同样,如果你直接问这个人是谁,模型也能给出正确答案。
正是这个特性让作者想到了新的S2A机制,设计了一套提示来提炼用户输入。
放映前后的效果,我们来具体看看:
而这个问题经过S2A处理后就变成了这样:
测试结果表明,与一般问题相比,S2A优化的准确性和客观性明显提高,与人工设计的准确性接近。
具体来说,S2A在修改后的TriviaQA数据集上将Llama 2-70B的准确率从62.8%提高到80.3%和27.9%,客观性从2.23分(满分5分)提高到3.82,超过了人工简化提示。
在鲁棒性方面,测试结果表明,无论“干扰信息”是对是错,是正面还是负面,S2A都能使模型给出更加准确客观的答案。
进一步的实验结果表明,S2A方法删除干扰信息是必要的,因为简单地告诉模型忽略无效信息并不能显著提高(甚至降低)准确性。
另一方面,只要原始干扰信息被隔离,对S2A的其他调整不会显著降低其效果。
还有一点
事实上,通过注意机制的调节来提高模型性能一直是学术界的热门话题。
比如前段时间推出的“最强7B开源模式”Mistral,就利用了新的群查询关注模式。
谷歌的研究团队还提出了超注意机制来解决长文本处理的复杂性问题。
……
至于Meta采用的“系统2”的注意力模式,AI教父Bengio甚至指出:
纸张地址:
https://arxiv.org/abs/2311.11829
本文来自微信微信官方账号:量子位(ID: qbitai),作者keresey。
未经允许不得转载:科技让生活更美好 » 更像人脑的新型注意力机制,Meta 让大模型自动屏蔽任务无关信息,准确率提高 27%