给OpenAI的神秘Q*项目泼一盆冷水

Q* guess,它继续在AI社区流行。

大家都在疑惑Q*是不是“Q-learning+A*”。

AI丹尼尔田远东也详细分析了“Q*=Q-learning+A*”假设的可能性。

同时,越来越多的人给出判断:合成数据是LLM的未来。

不过,田远东给这种说法泼了一盆冷水。

英伟达(Nvidia)高级科学家Jim Fan对此表示赞同:合成数据将发挥重要作用,但仅仅通过盲目扩张来实现AGI是不够的。

Q*=Q-learning+A,可能性有多大?

田远东说,根据他过去在OpenGo中的经验,A*可以看作是一个确定性的MCTS版本,只有值(即启发式)函数q

A*非常适合这样的任务:给定动作后,状态容易评估;但鉴于目前的状态,行动很难预测。这种情况的一个典型例子就是数学问题。

相比之下,围棋则是另一番景象:下一个候选棋相对容易预测(只需检查局部形状),但要评估棋盘形势就困难得多。

这就是为什么我们也有相当强大的围棋机器人,但它们只使用战略网络。

对于LLM来说,使用Q(s,a)可能会有额外的优势,因为Q(s,a)的估计可能只需要预填充,而a = pi(s)的预测策略需要自回归采样,速度要慢很多。另外,在只使用解码器的情况下,S的KV缓存可以在多个操作中共享。

传说中的Q*在解决数学问题上有了很大的飞跃。可能性有多大?

田远东说,他猜测,由于解决的是入门级的数学问题,价值函数应该相对容易设置(比如可以从自然语言形式的目标规格中预测)。

如果你想解决很难的数学题,但是不知道怎么做,那么这个方法可能不够。

乐村转发了田远东的讨论,并表示赞同:“他解释了A*(在图中搜索最短路径)和MCTS(在指数增长的树上搜索)在适用性上的区别。”

关于乐存的转发,田远东表示自己一直在做很多不同的事情,包括策划、了解变形金刚/LLM以及高效的优化技术,希望将这些技术结合起来。

有网友表示怀疑,“要让A*有效,我们需要一个可证明的、可接受的、一致的启发式函数。但我非常怀疑有人能想出这样的函数,因为确定子序列的值并不容易。”

哪怕是小学数学题,Q*也寄予厚望。

稍微了解大模型的人都知道,如果你有解决基本数学问题的能力,就意味着模型的能力有了重大飞跃。

这是因为大型模型很难在训练数据之外进行归纳。

人工智能训练初创公司Tromero的联合创始人查尔斯·希金斯(Charles Higgins)表示,现在困扰大模型的关键问题是如何对抽象概念进行逻辑推理。如果实现了这一步,无疑是一个重大的飞跃。

数学是关于符号推理的。例如,如果X大于Y,Y大于Z,那么X大于Z..

如果Q*确实是Q-learning+A*,说明OpenAI的新模型可以将支持ChatGPT的深度学习技术与人类编程的规则结合起来。这种方法有助于解决LLM的错觉问题。

Tromero联合创始人索菲亚·卡兰诺夫斯卡(Sophia Kalanovska)表示,这具有重大的象征意义,但在实践中,它不太可能终结世界。

那为什么会有“Q*是AGI的雏形”的说法呢?

卡兰诺夫斯卡认为,从目前的说法来看,Q*可以与大脑两侧结合,既能从经验中学到东西,又能同时推断事实。

很明显,这离我们公认的智能又近了一步,因为Q*很可能让大模型有了新的想法,这是ChatGPT做不到的。

现有模型的最大局限是只能从训练数据中反刍信息,而不能推理和发展新的思想。

解决隐形问题是创造AGI的关键一步。

萨里人类中心AI研究所主任安德鲁·罗戈伊斯基(Andrew Rogoyski)表示,现有的所有大型模型都可以做本科水平的数学题,但一旦遇到更高级的数学题,它们就会全部泡汤。

但如果LLM真的能解决全新的、看不见的问题,那就是大事了,哪怕数学题相对简单。

合成数据是未来LLM的关键?

那么,合成数据是王道吗?

Q*的爆炸引起了很多猜测,而对于传闻中的“巨大的计算资源,让新模型可以解决一些数学问题”,大佬们猜测这一重要步骤可能是RLAIF(来自AI反馈的强化学习)。

RLAIF是一种用现成的LLM代替人类标记偏好的技术。通过自动化手动反馈,LLM的对齐操作更具可伸缩性。

之前用于LLM训练的RLHF(基于人类反馈的强化学习)可以有效地将大规模语言模型与人类偏好对齐,但收集高质量的人类偏好标签是关键瓶颈。

所以Anthropic和Google等公司已经尝试转向RLAIF,用AI代替人类来完成反馈训练过程。

这意味着合成数据才是王道,使用树形结构为未来获得正确答案提供了越来越多的选择。

不久前,Jim Fan在Twitter上表示,合成的数据将提供下一万亿的高质量训练数据。

“我打赌大多数严肃的LLM团队都知道这一点。关键问题是如何保持质量,避免过早停滞。”

Jim Fan还引用了Richard S. Sutton的文章《苦涩的教训》来说明人工智能的发展中只有两种范式可以被计算无限扩展:学习和搜索。

“写这篇文章的2019年是正确的,今天也是正确的。我打赌直到我们解决AGI的那一天。”

理查德·萨顿是加拿大皇家学会和英国皇家学会的成员。他被认为是现代计算强化学习的创始人之一,并在该领域做出了许多重大贡献,包括时差学习和策略梯度方法。

在这篇文章中,萨顿主要表达了以下观点:

对于合成数据,马斯克也表示,人类真的打不过机器。

“你可以把人类写的每一本书的字都放在硬盘上(叹气),合成的数据会远远超过这些。”

对此,吉姆·范(Jim Fan)与马斯克进行了互动,他说:“如果我们能够大规模地模拟它们,那么大量的合成数据将来自具身智能体,比如特斯拉Optimus。”

Jim Fan认为如果正确扩展的话,来自groundtruth feedback的RLAIF或RLAIF还有很长的路要走。此外,合成数据还包括模拟器,原则上可以帮助LLM开发世界模型。

“理想情况下,它是无限的。但令人担忧的是,如果自我提升周期不够有效,它可能会停滞不前。”

对于两者的遥相呼应,乐存表示自己有话要说:“动物和人类很快就会变得非常聪明,只需要很少的训练数据。”

所以,使用更多的数据(合成的或非合成的)是暂时的权宜之计,只是因为我们目前的方法有局限性。

对此,支持“大数据派”的网友表示不满:“几百万年的进化适应不应该类似于预先训练,我们的人生经历不应该类似于不断微调吗?”

乐存随后举了一个例子作为解释。人类用来继承百万年进化成果的唯一手段就是基因,而人类基因组的数据量非常小,只有800MB。

即使是小的7B LLM也需要14GB的存储空。相比之下,人类基因里的数据真的不多。

另外,黑猩猩和人类基因组的差异在1%左右(8MB)。这一点点差异不足以解释人类和黑猩猩的能力差异。

说到后天学习的数据量,一个2岁的孩子看到的视觉数据总量是很少的,他所有的学习时间大概是3200万秒(2x365x12x3600)。

人类有200万条视神经纤维,每条纤维每秒传输约10个字节——总共6E14个字节。

相比之下,LLM训练数据量通常为1E13 token,约为2E13字节,因此2岁儿童获得的数据量仅为LLM的30倍。

不管大老板怎么辩,大型科技公司如Google、Anthropic、Cohere等。都是通过流程监控或者类似RLAIF的方法来创建预训练数据集,消耗巨大的资源。

所以大家都很清楚,合成数据是扩充数据集的捷径。在短期内,我们显然可以用它来创建一些有用的数据。

但这是通向未来的路吗?

参考资料:

https://twitter.com/tydsh/status/1727922314267029885

未经允许不得转载:科技让生活更美好 » 给OpenAI的神秘Q*项目泼一盆冷水