全网大讨论:引爆OpenAI全员乱斗的Q*到底是什么?

本周三,OpenAI的“龚都”随着萨姆·奥特曼重回CEO的位置而告一段落,但这件事的余波依然震撼着每一个关心AI的人。我们都想知道是什么让OpenAI前董事会不惜代价炒了奥特曼。

最近几天,网络上关于Q*的讨论比以往更加热闹。

根据周四的信息,OpenAI首席科学家Ilya Sutskever领导的团队在今年早些时候取得了技术突破,使他们能够建立一个名为Q*的新模型。Q*的关键突破在于它可以解决基本的数学问题。

路透社还报道称,Q *模型在OpenAI内部引发了一场风暴,多名工作人员致信OpenAI董事会,警告称这一新突破可能会威胁到人类。这一警告被认为是董事会选择解雇萨姆·奥特曼的原因之一。

AI解决基本数学问题的能力听起来可能不是很强大,但实际上它代表了大模型能力的巨大飞跃。最近的许多研究表明,现有的模型很难在训练数据之外进行推广。

越来越多的工程师和研究人员加入了关于Q *的猜测和讨论。

据Business Insider报道,人工智能初创公司Tromero的联合创始人查尔斯·希金斯(Charles Higgins)表示:“抽象概念的逻辑推理是大模型目前面临的真正问题。数学涉及到大量的符号推理,比如“如果X大于Y,Y大于Z,那么X大于Z”,而现有的语言模型并不进行逻辑推理,只具有有效的直觉。

那么,为什么Q *模型可以用于逻辑推理呢?它的名字暗示了这个问题的答案。

Q *暗示它结合了两种著名的人工智能方法——Q-learning和A* search。

Q-learning是人工智能领域的一个基本概念。它是一种无模型的强化学习算法,目的是学习一个动作在特定状态下的值。Q-learning的最终目标是找到一个最优策略,并定义在每个状态下采取的最佳行动,以便随着时间的推移使累积回报最大化。

ChatGPT开发者之一John Schulman在2016年的一次演讲中提到了这个概念,将Q*引入到优化策略中:

那么在每个状态下,哪一个动作能有最好的奖励呢?

土匪问题可以用贝尔曼方程解决。

Q-learning基于q函数,即状态动作的价值函数。在一个简单的场景中,Q-learning将维护和更新Q-table,更新规则通常表示为:

来源:https://Twitter . com/brianroemmele/status/1727558171462365386

Q-learning的关键是平衡探索(尝试新事物)和利用(利用已知信息)。简单来说,Q*可以达到最优策略,这是强化学习等AI方法中算法的重要一步。算法是否能采取最佳决策,找到“正确解”。通常,被称为“Q学习”的行为并不是指对上下文的搜索,或者至少不作为算法的高级名称。通常用来指贪婪行为的代理人。

还有人认为,也许如果Q指的是Q学习,那么*来自于A*搜索。

A*(A-Star)算法是静态路网中寻找最短路径最有效的直接搜索方法,也是解决很多搜索问题的有效算法。算法中的估计距离越接近实际值,最终的搜索速度就越快。

这个想法也很有意思。

最后,如果你想了解更多关于Q-learning的知识,可以看看强化学习之父Richard S. Sutton的著作,著名的《强化学习:导论》。

值得注意的是,OpenAI用于大规模模型训练的RLHF方法旨在使模型从人类反馈中学习,而不仅仅依赖于预定义的数据集。

人类的反馈可以采取多种形式,包括纠正、不同输出的排序、直接指示等等。AI模型将使用这种反馈来调整其算法并改善其响应。这种方法在具有挑战性的领域中特别有用,在这些领域中定义了明确的规则或提供了详细的示例。有人推测,这就是Q*接受逻辑训练,最终能适应简单算术的原因。

但是,Q-learning算法在通用人工智能(AGI)的实现中能起到多大的作用呢?

首先,AGI指的是人工智能系统理解、学习并将其智能应用于各种问题的能力,类似于人的智能。Q-learning在某些领域非常强大,但要实现AGI必须克服一些挑战,包括可扩展性、泛化能力、适应性、技能组合等。

事实上,近年来已经有很多尝试将Q-learning与其他深度学习方法相结合的研究,比如将Q-learning与元学习相结合,让AI学会动态调整学习策略。

这些研究确实改善了AI模型,但Q-learning能否帮助OpenAI实现AGI还不得而知。

complementary ai的首席执行官Aravind Srinivas认为,萨顿的文章“艰难的教训”告诉我们,计算是前进的方向。我们需要更多的数据(不仅仅是参数)来有效地使用计算。如果我们充分利用互联网上的数据,我们需要模型本身来生成下一个令牌,也就是递归的自我完善:

那么这应该一点都不危险,就像之前的计算机视觉研究中,图像数据被翻转和裁剪来训练分类器一样。

也有人推测,Q*就是传说中的AlphaStar搜索+LLM的突破,是很多AI实验室都在努力的方向。然而,考虑到GPT-4自我验证和搜索之前的有限改进,我们离AGI还很远。

如果像各种媒体报道的那样,Q *的突破意味着下一代大模型可以将支持ChatGPT的深度学习技术与人类编程的规则相结合。这种方法可以帮助解决困扰当前大型模型的错觉问题。

这可能是技术发展的一个重要里程碑。实际层面上,应该离AI世界末日还很远。

Tromero的联合创始人索菲亚·卡兰诺夫斯卡(Sophia Kalanovska)表示:“我认为人们相信Q*将导致通用人工智能,因为从我们迄今为止听到的情况来看,它似乎将结合大脑的两侧,从经验中学习一些东西,同时仍然能够对事实进行推理。”“这肯定离我们所认为的智能更近了一步,而且该模型更有可能产生新的想法。”

无法推理和创造新的想法,只是从训练数据中总结信息——这被视为现有大模型的局限性,即使对于参与这些研究方向的人来说,也受到框架的限制。

萨里学院人类中心AI研究所负责人安德鲁·罗戈伊斯基(Andrew Rogoyski)认为,解决前所未有的问题是建设AGI的关键一步:“就数学而言,我们知道现有的人工智能已经被证明能够进行本科水平的数学运算,但它无法处理更高级的数学问题。”

“然而,如果人工智能能够解决新的和不可见的问题,而不仅仅是反映或重塑现有的知识,这将是一件大事,即使涉及的问题相对简单,”他补充道。

并不是所有人都对Q *可能带来的突破如此兴奋。著名AI学者、纽约大学教授加里·马库斯(Gary Marcus)在个人博客上发表文章,对Q*报道的功能表示怀疑。

“OpenAI的董事会可能确实对新技术感到担忧…虽然有一些说法称OpenAI已经在尝试测试Q*,但对他们来说,在几个月内彻底改变世界是不现实的,”马库斯说。“如果每一个这样的推论(Q *可能威胁人类)我都能得到五分钱,我就成了马斯克首富。”

图灵奖获得者Yann LeCun与Geoffrey Hinton讨论了AI风险,也评论了Q*:

LeCun认为:“Q *很可能只是OpenAI用规划代替自回归token预测的一种尝试。现在关于Q*的猜测只是无稽之谈。”

马斯克也参与了讨论,顺便宣传了自己的模型。他说你讨论Grok的能力会有:

对于Q*,OpenAI仍未回应外部问询。

人们的讨论还在继续,也许在OpenAI的下一个大模型发布后,我们才能真正得到答案。

参考内容:

https://Twitter . com/BrianRoemmele/status/1727558171462365386

https://Gary Marcus . substack . com/p/about-that-open ai-breakthrough

未经允许不得转载:科技让生活更美好 » 全网大讨论:引爆OpenAI全员乱斗的Q*到底是什么?