新智元报道
艺术经纬:埃涅阿斯太困了
[新智元简介] 据传OpenAI的Q*已经吸引了AI大佬轮番上阵。AI2的研究科学家Nathan Lambert和Nvidia的高级科学家Jim Fan都兴奋地写了长文,推测Q*与思维树、过程奖励模型和AlphaGo有关。人类已经离AGI一步之遥了?
OpenAI神秘的Q*项目引爆了整个AI社区!
疑似接近AGI,因为庞大的计算资源可以解决一些数学问题,让萨姆·奥特曼出董事会的导火索有毁灭人类的风险…这些元素中的任何一个都足以炸裂。
难怪Q*项目曝光三天后热度持续上升,已经引起了全网AI的讨论。
AI2研究科学家内森兴奋地写了一篇长文,推测Q假说应该是关于思维树+过程奖励模型的。
而且,Q*假设很可能和世界模型有关!
几个小时后,英伟达资深科学家Jim Fan也发表了长篇分析,与内森的观点不谋而合。略有不同的是,Jim Fan侧重于与AlphaGo的类比。
对于Q*,Jim Fan表达了这样的敬佩:我在人工智能领域的十年里,从来没有见过这么多人对一个算法有这么大的想象力!即使它只有一个名字,也没有论文、数据或产品。
相比之下,图灵三巨头LeCun认为,提高大型LLM可靠性的主要挑战之一是用规划策略取代自回归令牌预测。
几乎所有的顶级实验室都在做这方面的研究,Q*大概就是OpenAI在规划领域的尝试。
还有,请忽略那些关于Q*的毫无根据的讨论。
对此,Jim Fan深有同感:担心“通过Q*”实现AGI是没有根据的。
“AlphaGo搜索和LLM的结合是解决数学、编码等特定领域的有效方法,也可以提供基准真值的信号。但是在正式讨论AGI之前,我们首先需要开发新的方法来整合世界模型和具身代理的能力。」
Q-Learning突然火了
前两天有外媒透露,OpenAI神秘的Q*项目已经在AGI成型。
突然,1992年的一项技术——Q-learning成了大家追捧的焦点。
简单来说,Q-learning是一种无模型的强化学习算法,目的是学习一个动作在特定状态下的值。它的最终目标是找到最佳策略,即在每个状态下采取最佳行动,以最大化日积月累的回报。
q-学习是人工智能领域,尤其是强化学习领域的一种重要方法。
很快,这个话题引发了网友的热议:
斯坦福大学的塞拉斯·阿尔贝提博士猜测,它很可能是基于AlphaGo蒙特卡罗树来搜索令牌轨迹的。下一个合乎逻辑的步骤是以更有原则的方式搜索令牌树。这在编码和数学的环境下尤其合理。
后来更多人猜测Q*是指A*算法和Q学习的结合!
甚至有人发现Q-Learning和RLHF有着千丝万缕的联系,这也是ChatGPT成功的秘诀之一!
随着几位AI大佬的命运,大家的观点也越来越重合。
艾大哥千言长文解析
AI2大学的研究科学家Nathan Lambert写了以下关于Q*假说的长篇分析:思维树推理、过程奖励模型和增强合成数据。
地址:https://www.interconnects.ai/p/q-star.
兰伯特猜测,如果Q*(Q-Star)为真,显然是RL文献中两个核心主题的综合:Q值和A*(一种经典的图搜索算法)。
A*算法的一个例子
很多天以来,关于Q有很多猜测,有一种观点认为Q指的是最优策略的价值函数,但在Lambert看来,这不太可能,因为OpenAI已经泄露了几乎所有的东西。
兰伯特把他的猜测称为“锡帽理论”,即Q学习和A*搜索的模糊结合。
那么,你在寻找什么?Lambert认为OpenAI应该通过思维树推理搜索语言/推理步骤来做一些强大的事情。
如果是这样,为什么会引起这么大的震动和恐慌?
他认为Q*被夸大了,因为它将大语言模型的训练和使用与深度RL的核心组件联系起来,而这些组件已经成功实现了AlphaGo的功能——自博弈和前瞻规划。
其中,自玩理论是指一个代理可以与另一个与自己版本略有不同的代理对战来提高游戏性,因为它遇到的情况会变得越来越有挑战性。
在LLM领域,自我博弈论看起来像是AI反馈。
前瞻计划是指使用世界模型来推断未来,并产生更好的行动或产出。
该理论基于模型预测控制(MPC)和蒙特卡罗树搜索(MCTS)。前者通常用于连续状态,而后者适用于离散动作和状态。
https://www . research gate . net/publication/320003615 _ MCT suct _ in _ solving _ real-life _ problems
兰伯特是根据OpenAI和其他公司最近发布的作品做出这一推测的。这些任务回答了两个问题
1.我们如何构建一个我们可以自己搜索的语言表示?
2.如何在一个单独的、有意义的语言块上(而不是整个语言块上)建构价值概念?
要想弄明白这两个问题,就要知道如何对RLHF使用RL方法——我们使用RL优化器对语言模型进行微调,通过模块化奖励得到更高质量的一代(而不是像今天这样的完整序列)。
使用LLM进行模块化推理:ToT技巧
现在,诸如“深呼吸”和“逐步思考”的方法正在被扩展到使用并行计算和启发式推理的高级方法。
思维树是一种提示语言模型创建推理路径树的方法,推理路径树不一定收敛到正确答案。
实现思维树的关键创新是阻塞推理步骤,并提示模型创建新的推理步骤。
思维树可能是第一个提升推理性能的“递归”提示技术,听起来非常接近人工智能安全关注的递归自我提升模型。
https://arxiv.org/abs/2305.10601
使用推理树,您可以应用不同的方法对每个顶点或节点进行评分,或者对最终路径进行采样。
可以基于最一致答案的最小长度,也可以基于需要外部反馈的复杂事物,这就把我们带到了RLHF的方向。
用思维树玩21点
生成中的细粒度奖励标签:流程奖励模型(PRM)
到目前为止,大部分RLHF都是通过对模型的整体响应打分来完成的。
但是对于有RL背景的人来说,这种方法是非常令人失望的,因为它限制了RL方法关联文本各子成分值的能力。
指出未来这种多步优化将在多个对话轮的层次上进行,但由于需要人类或一些提示源参与循环,整个过程仍然很牵强。
这可以很容易地扩展到自我游戏风格的对话,但很难给LLM一个目标,将其转化为持续改进的自我游戏动力。
毕竟,我们想用LLM做的大部分事情都是重复性的任务,不像Go,需要达到一个近乎无限的性能极限。
但是,有一个LLM用例可以自然地抽象成包含的文本块,那就是逐步推理。最好的例子就是解决数学问题。
在过去的六个月中,过程奖励模型(PRM)一直是RLHF人员的热门话题。
关于PRM的论文很多,但是很少有人会提到如何把它们和RL结合起来。
PRM的核心思想是给每个推理步骤分配一个分数,而不是一个完整的信息。
OpenAI的论文“Let & apos■验证一步一步”,有这样一个例子——
在这个过程中,他们使用的反馈界面是这样的,很有启发性。
这样,推理问题的生成就可以通过抽样最大平均奖励或其他指标进行更精细的调整,而不是仅仅依靠一个分数。
使用“N选一抽样”(Best-of-N sampling),即生成一系列时间并使用奖励模型来获得最高分,PRM在推理任务中的表现优于标准RM。
(注意,它是《骆驼2》中拒绝采样的表亲。)
而且到目前为止,大多数PRM只显示了它在推理中的巨大作用。但如果用于训练和优化,就会发挥真正的威力。
为了创建最丰富的优化设置,必须能够生成多种评分和学习的推理路径。
这就是思维树的用处。
流行的数学模型向导-LM-Math由https://arxiv.org/abs/2308.09583. PRM培训
那么,Q*会是什么呢?
Nathan Lambert猜测Q*似乎是在用PRM给ToT推理数据打分,然后用离线RL进行优化。
这与现有的RLHF工具没有太大的区别,现有的RLHF工具使用DPO或ILQL等离线算法,这些算法不需要在训练时从LLM中生成。
RL算法看到的“轨迹”是推理步骤的顺序,所以我们可以多步执行RLHF,而不是通过上下文。
现有传闻显示OpenAI正在为RLHF使用离线RL,这似乎不是一个非常重大的飞跃。
它的复杂性在于收集正确的提示,使模型产生优秀的推理,最重要的是对数万个回答进行精确打分。
传闻中的庞大计算资源,是用AI代替人类来为每一步打分。
的确,合成数据才是王道。用树代替单一宽度的路径(思维链),可以为未来越来越多的选择给出正确答案。
如果传言属实,OpenAI与其他机型的差距无疑是可怕的。
毕竟大部分科技公司,比如Google,Anthropic,Cohere等。,仍然使用进程监控或类似RLAIF的方法来创建预训练数据集,这将很容易消耗数千个GPU小时。
超大规模人工智能反馈的数据未来
根据外媒The Information的传闻,Ilya Sutskever的突破使OpenAI解决了数据短缺的问题,从而有足够多的高质量数据来训练下一代新模型。
而且这些数据都是电脑生成的数据,不是真实世界的数据。
此外,伊利亚研究多年的问题是如何让GPT-4和其他语言模型解决涉及推理的任务,如数学或科学问题。
内森·兰伯特(Nathan Lambert)说,如果他猜对了,Q*就是生成的合成推理数据。
可以通过类似于剔除抽样的方法(根据RM评分筛选)选出最佳样本。通过离线学习,可以在模型中改进生成的推理。
对于那些拥有高质量大模型和大量计算资源的机构来说,这是一个良性循环。
结合GPT-4给人的印象,数学、代码和推理应该都是最受益于Q*技术的主题。
最有价值的推理令牌是什么?
很多AI研究者心中永恒的问题是:哪些应用更值得花心思在推理计算上?
毕竟对于大多数任务(比如看文章,总结邮件)来说,Q*带来的提升可能不值一提。
但是对于生成代码来说,使用最好的模型显然是值得的。
兰伯特说,他的头脑中有一种根深蒂固的直觉,这种直觉来自于饭桌上与周围人的讨论。使用RLHF训练扩展推理,可以提高下游性能,而不需要让模型一步步思考。
如果在Q*实现了这一点,OpenAI的模式无疑会出现重大的飞跃。
Jim Fan:问:四个可能的核心要素
Nathan比我早几个小时发了一篇博客,讨论了一个非常类似的想法:思想树+过程奖励模型。他的博客列出了更多的参考文献,我更喜欢用AlphaGo来类比。
Jim Fan表示,要理解搜索和学习的强大结合,我们需要回到2016年,这是人工智能历史上一个辉煌的时刻。
当我们重新审视AlphaGo时,我们可以看到它包含了四个关键元素:
1。策略神经网络(学习部分):评估每一步棋获胜的可能性,选出好的一步。
2。价值神经网络(学习部分):它用于评估棋局,从任何合理的布局中预测胜负。
3。蒙特卡罗树搜索(MCTS,搜索部分):用策略神经网络模拟从当前位置开始的各种可能的走法,然后汇总模拟结果决定最有希望的走法。这是一个“慢思考”的环节,与大型语言模型(LLM)中的快速令牌采样形成鲜明对比。
4。真正驱动整个系统的信号:在围棋中,这个信号就像二进制标签“谁赢”一样简单,是由一套固定的游戏规则决定的。你可以把它想象成一种能量源,不断推动学习进程。
那么,这些组件是如何交互的呢?
AlphaGo通过自对弈(即与其之前的版本对弈)来学习。
随着自我博弈的延续,策略神经网络和价值神经网络都在不断的迭代中得到完善:随着策略在选择要走的路上变得更加精准,价值神经网络也可以获得更高质量的数据进行学习,从而为策略提供更有效的反馈。更强有力的战略也将帮助MCTS探索更好的战略。
这些最终构成了一台巧妙的“永动机”。这样AlphaGo就可以自我提升,最终在2016年以4-1击败人类世界冠军李世石。仅仅靠模仿人类的数据,人工智能还达不到超越人类的程度。
Q *的四个核心组成部分是什么?
1。Policy NN: 这将是OpenAI中最强大的GPT,负责实现解决数学问题的思维过程。
2。ValueNN: 这是另一个GPT,用来评估每个中间推理步骤的正确性。
2023年5月,OpenAI发表了一篇题为“Let & apos作者包括伊利亚·苏茨基弗、约翰·舒尔曼和简·雷科。虽然没有DALL-E或者Whisper那么出名,但是它给我们提供了很多线索。
在本文中,作者提出了“过程监督奖励模型”(PRM),它为思维链中的每一步提供反馈。与之相反的是结果监督奖励模型(ORM),它只评估最终的总体产出。
ORM是RLHF最初的奖励模型,但是粒度太粗,不适合长响应中各个部分的恰当评价。换句话说,ORM在信用分配方面表现不佳。在强化学习文献中,我们称ORM为“稀疏奖励”(最后只给一次),而PRM则是“密集奖励”,可以引导LLM更顺利地向我们预期的行为发展。
3。搜索:与AlphaGo的离散状态和动作不同,LLM运行在一个复杂得多的空空间中(全是合理的字符串)。因此,我们需要开发新的搜索方法。
在思维链(CoT)的基础上,研究界发展了一些非线性变体:
-思维之树:是思维链和树搜索的结合。
-思维图:将思维链与图结合起来,可以得到更复杂的搜索算子。
4。真实信号:(几种可能)
(一)每道数学题都有已知答案,OpenAI可能从现有的数学考试或竞赛中收集了大量数据。
(b)ORM本身可以作为一个真实的信号,但它可能被使用,从而“失去维持学习所需的能量”。
(c)形式验证系统,如精益定理证明器,可以将数学问题转化为编程问题,并提供编译器反馈。
就像AlphaGo一样,策略LLM和价值LLM可以通过迭代来促进彼此的进步,如果可能的话还可以借鉴人类专家的注解。更好的策略LLM将帮助思想树搜索找到更好的策略,这反过来可以为下一次迭代收集更好的数据。
戴密斯·哈萨比斯之前提到,DeepMind的Gemini将采用“AlphaGo算法”来增强其推理能力。就算Q*不是我们想的那样,谷歌也一定会用自己的算法赶上来。
Jim Fan说以上只是讲讲道理。没有迹象表明Q*在写诗、讲笑话或角色扮演方面会更有创意。本质上,提高创造力是人的事情,所以自然数据还是会比合成数据好。
是时候解决最后一章了。
深度学习专家塞巴斯蒂安·拉什卡说过
如果你这个周末因为任何原因不得不学习Q-learning,而你的书架上恰好有一本《用Pytorch和Sci Kit学习机器学习-learning》的书,那么是时候解决最后一章了。
参考资料:
https://www.interconnects.ai/p/q-star
https://twitter.com/DrJimFan/status/1728100123862004105
未经允许不得转载:科技让生活更美好 » OpenAI神秘Q*毁灭人类?爆火“Q*假说”牵出世界模型,全网AI大佬长文热议