来源:机器之心
编辑:张倩
在这篇综述论文中,来自佐治亚理工学院的杨笛一等十几位研究者系统阐述了自然语言处理中的因果推理。
科学研究的一个基本目标是了解因果关系。然而,尽管因果在生活和社会科学中扮演了重要角色,它在 NLP 中却没有得到同样重要的地位,后者通常更加重视预测任务。随着因果推理和语言处理交叉研究领域的出现,二者之前的界限正变得模糊,但 NLP 中的因果推理研究仍然分散在各个领域,没有统一的定义、基准数据集和对剩余挑战的清晰表述。
在这篇综述论文中,来自以色列理工学院的 Amir Feder、佐治亚理工学院的杨笛一等十几位研究者系统阐述了自然语言处理中的因果推理,为计算语言学界提供了一个统一的因果推理概述。具体来说,他们介绍了估计因果效应的统计学挑战,包括文本作为 outcome、treatment 或解决干扰(confounding)的手段等情况。此外,他们还探讨了因果推理的潜在用途,以提高 NLP 模型的性能、稳健性、公平性和可解释性。
论文链接:
https://arxiv.org/pdf/2109.00725v1.pdf
为什么要重视 NLP 中的因果推理
很多科学领域对于将文本整合成数据越来越感兴趣。NLP 研究人员可能不熟悉这些领域的一个关键特性,即强调因果推理。例如,在推荐一种新的药物疗法之前,临床医生想知道这种药物与疾病进展之间的因果关系。因果推理涉及一个通过干预(intervention)创造的反事实世界的问题:如果当时给病人用了药,他们的病情会如何发展?正如下面将要解释的,在观察数据中,因果效应并不等同于服用药物的患者与其观察到的疾病进展之间的相关性。现在有关于使用传统(非文本)数据集进行有效推理的技术的深入文献,但这些技术在自然语言数据中的应用引发了新的挑战。
一直以来,传统 NLP 应用的研究目的都是作出准确的预测:通常任何统计相关性都被认为是可接受的,无论潜在的因果关系如何。然而,随着 NLP 在高风险场景中的部署愈发普遍,我们不能依赖通常的假设,即训练和测试数据是同分布的。我们可能不会满足于无法解释的黑箱预测器。对于这两个问题,因果推理提供了一条有希望的道路:数据生成过程中因果结构的领域知识可以提示归纳偏置,从而带来更稳健的预测器,而预测器本身的因果视角可以提供关于其内部运转方式的新见解。
因此,这篇综述的核心主张是:加深因果推理与 NLP 之间的联系,可能对促进社会科学和 NLP 研究具有重要意义。
这篇综述写了什么?
在论文中,研究者将因果推理与 NLP 之间的交集分为两个不同的领域:1)从文本中估计因果关系;2)利用因果形式体系提高 NLP 方法的可靠性。他们利用两个例子说明了其中的区别。
例 1. 一个在线论坛允许其用户在他们的个人资料中用一个图标表示性别。他们注意到,图标为「女性」的用户所发的帖子得到的点赞量要少一些。为了评估这一政策(允许用户在资料中提供性别信息),他们问了一个问题:被认为是女性会降低帖子的受欢迎程度吗?
例 1 中要探讨的是「被认为是女性(treatment)」和「帖子得到的点赞量(outcome)」之间是否存在因果关系。这里的反事实问题就成了:如果我们操控了一个帖子的性别图标,它能得到多少个赞?
被观察到的「被认为是女性」和「帖子得到的点赞量」之间的关联一般不符合因果效应。这是因为,出现这种关联可能有两方面原因:1)确实存在因果关系;2)由干扰因子引起的伪相关,即那些与 treatment 和 outcome 都有关系的变量。
在这个例子中,帖子的话题就可能是一个干扰因子:图标为女性的用户所发的帖子可能更多的是关于某个话题的,而该话题本身就很难吸引人点赞。正如论文第二部分所言,由于干扰因子的存在,在没有假设的情况下估计因果关系是不可能的。
例 1 强调的是这样一种设置:文本编码了因果效应的相关干扰因子。「文本作为一种干扰因子(text as a confounder)」是我们可以用文本数据作出的众多因果推理之一。文本数据还可以编码 outcome 或感兴趣的 treatment。例如,我们可能想知道被感知到的性别如何影响到一个帖子所收到的回复的情绪(text as outcome),或者一种写作风格如何影响到一个帖子所收到的赞(text as treatment)?
NLP 有助于因果推理。文本数据的因果推理涉及几个不同于典型因果推理的挑战:文本是高维的,需要复杂的建模来衡量语义上有意义的因素,如主题,而且需要仔细思考,以形式化因果问题对应的干预。从主题模型到上下文嵌入,NLP 在建模语言方面的发展为从文本中提取所需信息以估计因果效应提供了有前景的方法。然而,我们需要新的假设,以确保 NLP 方法的使用能够带来有效的因果推理。作者在论文的第三部分讨论了从文本中估计因果效应的现有研究,并指出了其中的挑战和机遇。
例 2. 一家医学研究中心想要构建一个分类器,用于从病人医疗记录的文本叙述中检测临床诊断。这些记录汇总在多个医院站点,目标临床状况的频率和叙述的写作风格都有所不同。当分类器应用于训练集之外的站点的记录时,它的准确率会下降。事后分析表明,这个分类器在看起来不相关的特性上投入了很高的权重,比如格式标记。
和例 1 一样,例 2 也涉及到一个反事实问题:如果我们改变医院站点,同时保持真实的临床状态不变,分类器的预测是否会改变?我们希望分类器依靠那些表达临床状况的短语来作出判断,而不是写作风格。然而,在训练数据中,由于站点成了混淆变量,临床状况和写作风格之间就有了虚假的相关性:例如,某个站点可能由于它自身的位置或特殊性而更容易遇到目标临床条件,也可能使用独特的文本特征,如在每个叙述的开头使用样板文本。在训练集中,这些特征将影响标签的预测,但它们不太可能在新站点的部署场景中有用。在本例中,医院站点就像一个干扰因子:它在文本的某些特征和预测目标之间建立了虚假的相关性。
例 2 显示了缺乏稳健性是如何降低 NLP 方法可靠性的。一个相关的问题是,NLP 系统通常是黑盒,这让我们很难理解人类可解释的文本特征如何导致观测到的预测。在这种设置中,我们想知道文本的某些部分(例如一些 token 序列)是否导致了 NLP 方法的输出(例如分类预测)。
因果推理可以帮助 NLP。为了解决 NLP 方法的稳健性和可解释性问题,我们需要新的标准来学习不只会利用相关性的模型。例如,我们希望预测器在我们对本文稍作更改时保持不变,例如在保持 ground truth 标签不变的情况下更改格式。
利用因果来发展新的准则,为建立可靠、可解释的自然语言处理方法提供服务,这是相当有希望的。在论文的第 4 部分,研究者概述了现有的研究,并列举了使用因果推理来促进自然语言处理研究的挑战和机遇。
以下是该论文的完整目录:
更多细节请参考论文。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”