OpenAI神秘项目“Q*”的N个猜想

文章目录

“Q*”可能是什么？
何为AI意识的产生？
AI应该如何与人类对齐？

上周，OpenAI人事风波暂停的尾声中，有个“可能威胁人类”的、代号为“Q*”的神秘项目被抛掷出来。

传言中，Sam Altman被解雇前，几名研究人员向董事会发了一封信，警告一项强大的人工智能发现可能威胁到人类，而这个项目就被称为“Q*”（Q-star）。它很可能是导致董事会罢免Sam Altman的原因之一。

而在一封被泄露的OpenAI内部信中，他们承认了Q*，并把这个项目描述为“超越人类的自主系统”。

截止目前，OpenAI还没有对“Q*”和内部信泄露事件发表官方说明。这意味着一切仍悬而未解。

但人类的好奇心势不可挡。水面之下的“Q*”可能是什么且解决了哪些难题？什么才是智能或者意识的本质？有效加速主义与超级对齐主义后续会如何博弈？

真正的秘密揭开之前，我们提前和科幻作家陈楸帆以及AI研究者、清华大学交叉信息研究院助理教授许华哲展开了一场猜想之旅。

被誉为“中国的威廉·吉布森”的陈楸帆，其代表作之一《荒潮》曾荣获全球华语科幻星云奖最佳长篇小说金奖。2017年，陈楸帆与自己训练出的算法模型“陈楸帆2.0”共同创作的《出神状态》还赢得一座由AI评委评出的奖杯（由上海作协主办的“AI文学榜”，第二名是莫言的《等待摩西》）。

“Q*”可能是什么？

Q读作Q-Star，翻译过来就是Q星。关于“Q”是什么？现在更常见的一种共识是，它很可能是Q-learning（强化学习的一种）和a-star（一种搜索方法）的结合。

清华大学交叉信息研究院助理教授许华哲告诉「暗涌Waves」，强化学习刚刚火起来时，很多人对Q-learning很熟悉，因为它是世界上第一个可以玩雅达利游戏（Atari Games）的方式。而人工智能早期，有一种有引导的搜索方法叫做a* 。Q*很可能是两者合体。

但他同时认为，也有一种可能是意味着最优，Q就是最优Q值。“Q-learning 里有一个贝尔曼方程，一般用Q的星号来表示已经知道了游戏最优解是什么。”

他猜测很可能OpenAI在GPT的语言大模型里搞了一些数学或逻辑游戏，然后通过Q* 可以完全解决。这意味着它可能有了人类或超越人类级别的数学和逻辑能力，并能完成一些人类的中高端脑力劳动，而这是之前GPT4等不具备或不擅长的东西。

正在纽约的科幻作家陈楸帆，在越洋电话中，认为Q*很可能解决了训练数据集有限性的问题。

马斯克曾提及，训练AI的所有人类数据集，其实是一个非常有限的、小的数据集。如果Q能够使用合成数据集方式，陈楸帆认为，“它就可以像衔尾蛇那样自产自销”,“想往哪个方向去调参，去优化，都可以自动生成”。

GPT不再用检索解决问题，而是可以像人类一样通过逻辑和推理来开拓出新领域，得到新知识。这被很多人称为"第四次"知识界限突破，陈楸帆认为，这也是很多人恐慌的原因。

许华哲则认为，Q*除了能合成数据，更本质的，可能是对一些有难度的数学题、逻辑题做了重新采集、标注。或在之前基础上，或没有用transformer方式，而是直接输入所有东西再输出，且加了一个值的评估。

他认为，基于类似某种价值评估和搜索的手段，很可能可以解决掉之前大模型存在的一些幻想问题，加上有了更海量的数据，很可能让GPT推理的成功率有了新的提升。

何为AI意识的产生？

如果神秘的Q*项目成真，它是否意味着AI可能开始有自己的意识或者说智慧?

在陈楸帆看来，之前AI不能产生所谓自我意识，有一个理解是它是一个开环状态，没办法自我检索、记忆和理解，但如果完成不断合成数据的闭环，就意味着它可能产生长程记忆，甚至涌现出于自我意识。“如果能突破这层界限，它可能会去自我驱动，知道自己往哪个方向进化发展，并生产出来更多数据，喂养给自己。”

但究竟什么是智能，什么是智慧，什么是意识，恐怕是人类也很难对齐的一个概念。

关于这些疑问，许华哲看过的一个解释是：智慧很可能是压缩的能力。

在这种解释里，一个人聪明或有智慧，可能是指一种把海量信息压缩的能力。压缩的越小，往往意味着智慧程度越高。一个典型例子就是，牛顿就是把世界上所有东西落到地上这个现象，压缩成了一个万有引力定律。

在许华哲看来，“Transformer同样是把海量收据压缩到一个隐空间上，这可能就是属于它自己的牛顿定律。”而这，也很可能是智慧的开始。

在陈楸帆看来，“世界的本质很可能就是数学。”据他所知，在美国就有一个名为史蒂芬·沃尔弗拉姆（Stephen Wolfram）的计算机科学家、商人，一直在基于数学做一些模拟实验。Stephen Wolfram认为宇宙本质就是计算，所以会不停通过计算，试图让数学涌现出物理学规律，再涌现出化学规律等等。在陈楸帆看来，这种实验很可能最后可以跟AI连到一起。