在一项新的研究中,人工智能对齐研究实验室 Redwood Research 揭示了大型语言模型 (LLM) 可以掌握“编码推理”,这是一种隐写术形式。
这种有趣的现象使得大型语言模型能够以人类读者无法理解的方式巧妙地将中间推理步骤嵌入到生成的文本中。
大型语言模型通常受益于推理的中间阶段来生成复杂问题的答案。
当这些中间推理步骤用于监视模型活动时,这种显式推理必须是忠实的,也就是说,它反映了模型实际推理的内容。
研究结果表明,大型语言模型可以通过训练来利用这种编码推理来实现卓越的性能,同时让用户不知道其中复杂的推理过程。
随着大型语言模型不断发展并变得更加强大,这种编码推理很可能自然出现,使其更难以检测。
然而,编码推理可能会破坏模型推理过程的透明度,并使监控人工智能系统的行为变得困难。
思想链(CoT)推理是一种广泛采用的提高法大型语言模型准确性的技术。
该方法指示模型逐步揭示其逻辑,得出最终答案。
研究表明,在许多任务中,CoT 提高了大型语言模型的表现并简化了结果的解释。
研究小组认为,随着言语模式变得更强,这种行为更有可能自然出现。
最后,它描述了一种方法,通过证明在适当的条件下,释义甚至可以成功地阻碍最好的编码方案,从而可以评估对编码推理的防御。