本系列文章主要是分享一些关于大模型的一些学术研究或者实验性质的探索,为大家更新一些针对大模型的认知。所有的结论我都会附上对应的参考文献,有理有据,也希望这些内容可以对大家使用大模型的过程有一些启发。
注:本系列研究关注的是大型语言模型(Large Language Models, LLMs)的普遍特性,而非专指GPT。在文中,我们使用“GPT”作为一个典型例子来代表这一类模型,但请读者注意,所讨论的观点和结论通常也适用于其他同类大型模型。这样的表述旨在简化叙述,同时也强调了这些发现的广泛适用性。
不定期更新,敬请期待~
首先看一个例子,拿古诗“黄鹤一去不复返,白云千载空悠悠”的一部分去提问GPT。
如果向GPT-4提出正向的问题,它能正确地回答:
但是,如果我们提出反向的问题,它就无法给出正确的答案:
这个现象其实并不难理解。还记得小时候背古诗,如果被问到上半句,我们通常能很容易地接出下半句。但如果被问到下半句,我们可能需要花费一些时间来回忆上半句。
然而,这并非特例。相反,这是一个广泛存在于大模型中的现象,称为「逆转诅咒」。
参考文献:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”
这篇论文就探讨了大模型在泛化能力上的一个意外失败现象,即所谓的「逆转诅咒」(Reversal Curse)。论文指出,如果一个模型在训练时学习到的句子是“A是B”(例如,“Olaf Scholz是德国第九任总理”),它不会自动泛化到相反的方向“B是A”(例如,“谁是德国第九任总理?”)。
为了证明这一现象,作者通过在虚构陈述上微调GPT-3和Llama-1模型(例如,“Uriah Hawthorne是Abyssal Melodies的作曲家”),并展示它们无法正确回答“谁是Abyssal Melodies的作曲家?”。作者还评估了ChatGPT(GPT-3.5和GPT-4)在关于真实世界名人的问题上的表现,例如“Tom Cruise的母亲是谁?”(答案:Mary Lee Pfeiffer)和相反的“Mary Lee Pfeiffer的儿子是谁?”(答案:Tom Cruise)。GPT-4正确回答前者问题的概率为79%,而后者只有33%,这进一步证实了逻辑推理的失败。
论文还探讨了这一现象的原因,提出可能与模型的训练方式有关,即模型在训练过程中可能没有学会从“A是B”推断出“B是A”。此外,作者还提出了一些可能的解决方案,例如改变数据的呈现方式,或者在微调过程中包含更多样例,但这些方法并未能缓解“反转诅咒”。
这个现象也提醒我们在使用大模型时,要尽量避免提出过于逆向的问题,以免影响模型的回答准确性。
挽弓当挽强,用人当用长。
当然,这并不意味着我们不能提出逆向问题,而是要在提问时,你要对GPT的回答有一个清楚的预期…,知道它甚至不一定答对简单的问题。如果你刚好有一个任务需要GPT反着回答的时候,你此时应该降低预期。
下一篇,请看如何针对这个问题,进行拨乱反正。
认知篇:什么是CoT(思维链)? 也许GPT需要你引导