全网大讨论：引爆OpenAI全员乱斗的Q*到底是什么？-科技让生活更美好

本周三，OpenAI的“龚都”随着萨姆·奥特曼重回CEO的位置而告一段落，但这件事的余波依然震撼着每一个关心AI的人。我们都想知道是什么让OpenAI前董事会不惜代价炒了奥特曼。

最近几天，网络上关于Q*的讨论比以往更加热闹。

根据周四的信息，OpenAI首席科学家Ilya Sutskever领导的团队在今年早些时候取得了技术突破，使他们能够建立一个名为Q*的新模型。Q*的关键突破在于它可以解决基本的数学问题。

路透社还报道称，Q *模型在OpenAI内部引发了一场风暴，多名工作人员致信OpenAI董事会，警告称这一新突破可能会威胁到人类。这一警告被认为是董事会选择解雇萨姆·奥特曼的原因之一。

AI解决基本数学问题的能力听起来可能不是很强大，但实际上它代表了大模型能力的巨大飞跃。最近的许多研究表明，现有的模型很难在训练数据之外进行推广。

越来越多的工程师和研究人员加入了关于Q *的猜测和讨论。

据Business Insider报道，人工智能初创公司Tromero的联合创始人查尔斯·希金斯(Charles Higgins)表示:“抽象概念的逻辑推理是大模型目前面临的真正问题。数学涉及到大量的符号推理，比如“如果X大于Y，Y大于Z，那么X大于Z”，而现有的语言模型并不进行逻辑推理，只具有有效的直觉。

那么，为什么Q *模型可以用于逻辑推理呢？它的名字暗示了这个问题的答案。

Q *暗示它结合了两种著名的人工智能方法——Q-learning和A* search。

Q-learning是人工智能领域的一个基本概念。它是一种无模型的强化学习算法，目的是学习一个动作在特定状态下的值。Q-learning的最终目标是找到一个最优策略，并定义在每个状态下采取的最佳行动，以便随着时间的推移使累积回报最大化。

ChatGPT开发者之一John Schulman在2016年的一次演讲中提到了这个概念，将Q*引入到优化策略中:

那么在每个状态下，哪一个动作能有最好的奖励呢？

土匪问题可以用贝尔曼方程解决。

Q-learning基于q函数，即状态动作的价值函数。在一个简单的场景中，Q-learning将维护和更新Q-table，更新规则通常表示为:

来源:https://Twitter . com/brianroemmele/status/1727558171462365386

Q-learning的关键是平衡探索(尝试新事物)和利用(利用已知信息)。简单来说，Q*可以达到最优策略，这是强化学习等AI方法中算法的重要一步。算法是否能采取最佳决策，找到“正确解”。通常，被称为“Q学习”的行为并不是指对上下文的搜索，或者至少不作为算法的高级名称。通常用来指贪婪行为的代理人。

还有人认为，也许如果Q指的是Q学习，那么*来自于A*搜索。

A*(A-Star)算法是静态路网中寻找最短路径最有效的直接搜索方法，也是解决很多搜索问题的有效算法。算法中的估计距离越接近实际值，最终的搜索速度就越快。

这个想法也很有意思。

最后，如果你想了解更多关于Q-learning的知识，可以看看强化学习之父Richard S. Sutton的著作，著名的《强化学习:导论》。

值得注意的是，OpenAI用于大规模模型训练的RLHF方法旨在使模型从人类反馈中学习，而不仅仅依赖于预定义的数据集。

人类的反馈可以采取多种形式，包括纠正、不同输出的排序、直接指示等等。AI模型将使用这种反馈来调整其算法并改善其响应。这种方法在具有挑战性的领域中特别有用，在这些领域中定义了明确的规则或提供了详细的示例。有人推测，这就是Q*接受逻辑训练，最终能适应简单算术的原因。

但是，Q-learning算法在通用人工智能(AGI)的实现中能起到多大的作用呢？

首先，AGI指的是人工智能系统理解、学习并将其智能应用于各种问题的能力，类似于人的智能。Q-learning在某些领域非常强大，但要实现AGI必须克服一些挑战，包括可扩展性、泛化能力、适应性、技能组合等。

事实上，近年来已经有很多尝试将Q-learning与其他深度学习方法相结合的研究，比如将Q-learning与元学习相结合，让AI学会动态调整学习策略。

这些研究确实改善了AI模型，但Q-learning能否帮助OpenAI实现AGI还不得而知。

complementary ai的首席执行官Aravind Srinivas认为，萨顿的文章“艰难的教训”告诉我们，计算是前进的方向。我们需要更多的数据(不仅仅是参数)来有效地使用计算。如果我们充分利用互联网上的数据，我们需要模型本身来生成下一个令牌，也就是递归的自我完善:

那么这应该一点都不危险，就像之前的计算机视觉研究中，图像数据被翻转和裁剪来训练分类器一样。

也有人推测，Q*就是传说中的AlphaStar搜索+LLM的突破，是很多AI实验室都在努力的方向。然而，考虑到GPT-4自我验证和搜索之前的有限改进，我们离AGI还很远。

如果像各种媒体报道的那样，Q *的突破意味着下一代大模型可以将支持ChatGPT的深度学习技术与人类编程的规则相结合。这种方法可以帮助解决困扰当前大型模型的错觉问题。

这可能是技术发展的一个重要里程碑。实际层面上，应该离AI世界末日还很远。

Tromero的联合创始人索菲亚·卡兰诺夫斯卡(Sophia Kalanovska)表示:“我认为人们相信Q*将导致通用人工智能，因为从我们迄今为止听到的情况来看，它似乎将结合大脑的两侧，从经验中学习一些东西，同时仍然能够对事实进行推理。”“这肯定离我们所认为的智能更近了一步，而且该模型更有可能产生新的想法。”

无法推理和创造新的想法，只是从训练数据中总结信息——这被视为现有大模型的局限性，即使对于参与这些研究方向的人来说，也受到框架的限制。

萨里学院人类中心AI研究所负责人安德鲁·罗戈伊斯基(Andrew Rogoyski)认为，解决前所未有的问题是建设AGI的关键一步:“就数学而言，我们知道现有的人工智能已经被证明能够进行本科水平的数学运算，但它无法处理更高级的数学问题。”

“然而，如果人工智能能够解决新的和不可见的问题，而不仅仅是反映或重塑现有的知识，这将是一件大事，即使涉及的问题相对简单，”他补充道。

并不是所有人都对Q *可能带来的突破如此兴奋。著名AI学者、纽约大学教授加里·马库斯(Gary Marcus)在个人博客上发表文章，对Q*报道的功能表示怀疑。

“OpenAI的董事会可能确实对新技术感到担忧…虽然有一些说法称OpenAI已经在尝试测试Q*，但对他们来说，在几个月内彻底改变世界是不现实的，”马库斯说。“如果每一个这样的推论(Q *可能威胁人类)我都能得到五分钱，我就成了马斯克首富。”

图灵奖获得者Yann LeCun与Geoffrey Hinton讨论了AI风险，也评论了Q*:

LeCun认为:“Q *很可能只是OpenAI用规划代替自回归token预测的一种尝试。现在关于Q*的猜测只是无稽之谈。”

马斯克也参与了讨论，顺便宣传了自己的模型。他说你讨论Grok的能力会有:

对于Q*，OpenAI仍未回应外部问询。

人们的讨论还在继续，也许在OpenAI的下一个大模型发布后，我们才能真正得到答案。

参考内容:

https://Twitter . com/BrianRoemmele/status/1727558171462365386

https://Gary Marcus . substack . com/p/about-that-open ai-breakthrough

未经允许不得转载：科技让生活更美好 » 全网大讨论：引爆OpenAI全员乱斗的Q*到底是什么？

全网大讨论：引爆OpenAI全员乱斗的Q*到底是什么？

作者：pu

相关推荐