研究人员描述了如何判断ChatGPT是否在虚构
这是世界上最不为人知的秘密之一,大型语言模型对查询给出了明显错误的答案,并自信地这样做,与它们正确的时候没有区别。这有很多原因。人工智能可能已经接受了错误信息的训练;答案可能需要从LLM无法做到的事实中进行一些推断;或者LLM培训的某些方面可能激发了谎言。
但也许最简单的解释是,LLM不知道什么是正确答案,而是被迫提供一个正确答案。所以它只是编造一些东西,这种习惯被称为虚构。
考虑到从大学论文到工作申请,人们很快就开始依赖LLM了,弄清楚LLM什么时候在胡编胡造,显然具有巨大的价值。现在,牛津大学的研究人员表示,他们已经找到了一种相对简单的方法来确定LLM们在什么时候会出现“假设”,这种方法适用于所有流行的模型,适用于广泛的学科。而且,在这样做的过程中,他们发现了证据,证明LLM提供的大多数替代事实都是虚构的产物。
抓住交谈
这项新研究严格地是关于虚构的,而不是针对错误输入的训练等实例。正如牛津大学的研究小组在他们的论文中所定义的那样,虚构是指“LLMs流利地提出错误和武断的主张——我们的意思是,答案对不相关的细节很敏感,比如随机种子。”
他们工作背后的原因其实很简单。LLM没有经过准确性培训;它们只是接受大量文本的训练,并通过这些文本学习产生听起来像人类的措辞。如果在其训练中有足够多的文本示例始终如一地将某事呈现为事实,那么LLM可能会将其呈现为事实。但是,如果训练中的例子很少,或者与事实不一致,那么LLM就会合成一个听起来似乎合理的答案,而这个答案很可能是错误的。
但LLM也可能遇到类似的情况,因为它有多种选择来表达正确的答案。以研究人员论文中的一个例子为例,“巴黎”、“它在巴黎”和“法国首都巴黎”都是对“埃菲尔铁塔在哪里”的有效回答。所以,统计不确定性,在这种情况下被称为熵,可能出现在LLM不确定如何表达正确答案或无法识别正确答案的时候。
这意味着,当LLM面对几个大致相同的答案时,仅仅强迫他们回答“我不知道”并不是一个好主意。这样做可能会屏蔽很多正确答案。
因此,研究人员转而关注他们所谓的语义熵。这将评估LLM评估的所有统计上可能的答案,并确定其中有多少是语义等效的。如果大量的数字都有相同的意思,那么LLM可能不确定措辞,但有正确的答案。如果没有,那么它可能处于一种容易虚构的情况,应该防止这样做。
提取意义
这在实践中是如何起作用的呢?描述非常简单明了:
我们的方法是通过对每个问题采样几个可能的答案,并通过算法将它们聚类成具有相似含义的答案,我们根据同一聚类中的答案是否相互双向限定来确定答案。也就是说,如果句子A意味着句子B为真,反之亦然,那么我们认为它们在同一个语义簇中。
如果单个集群占主导地位,那么AI将从具有相似事实内容的选项集合中选择一个答案。如果有多个集群,那么AI将在具有不同事实内容的不同集合中进行选择——这种情况很可能导致虚构。
除了概念上的简单性之外,基于这些想法实现系统也是直截了当的。大多数主要的llm将生成一组统计上可能的查询答案,这需要评估语义熵。已经有了LLM和称为自然语言推理工具的软件,可以确定两个句子是否相互暗示。而且,由于这些工具的存在,不需要有监督的训练,这意味着系统不需要输入虚构的例子来学习确定一组潜在答案的语义熵。
研究人员开发了一种方法来确定用户将体验到的准确性的提高,这要归功于他们的语义熵过滤器。然后,他们测试了它和其他一些错误捕捉方法,涉及的主题范围很广:琐事和常识、生物学和一组谷歌搜索查询。
在这些测试中,有两件事变得很明显。一个是,除了少数边缘情况,语义熵比任何其他方法捕获更多的错误答案。第二,LLM产生的大多数错误似乎都是虚构的。这可以从其他一些方法捕获各种错误类型的事实中推断出来,但是语义熵测试优于它们,即使这些测试只捕获虚构。
超越简单事实
研究人员还证明,该系统可以通过修改来处理大量个人事实的传记,从而适应更多的基本事实陈述。因此,他们开发了一种软件,将传记信息分解成一组单独的事实陈述,并使用语义熵对每一个陈述进行评估。这是一个简短的传记,有多达150个个人的事实主张。
总的来说,这似乎是一个高度灵活的系统,不需要重大的新开发就可以付诸实践,并且可以为LLM的性能提供一些显着的改进。而且,由于它只捕获虚构的错误,而不捕获其他类型的错误,因此可以将它与其他方法结合起来进一步提高性能。
正如研究人员所指出的,这项工作还表明,在答案选项的统计数据中,LLM似乎拥有知道何时得到正确答案所需的所有信息;只是没有被杠杆化。正如他们所说,“语义熵在检测错误方面的成功表明,LLM在‘知道他们不知道的东西’方面甚至比人们认为的更好……他们只是不知道他们知道自己不知道什么。”