利用群体智慧，进行大规模的事实审核

来源：混沌巡洋舰

为了应对虚假信息，社交媒体网络和新闻机构经常雇佣事实核查员来区分真假。但事实核查人员只能评估网上流传的一小部分故事。麻省理工学院研究人员的一项新研究提出了另一种方法: 研究指出来自普通读者群体的众包准确性判断，实际上可以和专业事实核查人员的工作一样有效。

“事实核查的一个问题是，对于专业的事实核查人员来说，有太多的内容无法覆盖，尤其是在合理的时间范围内,”Jennifer Allen 说，她是 MIT斯隆管理学院的一名博士生，也是最近在科学进展发表的题为“利用群体智慧扩大事实核查”的论文的合著者。

论文地址：

https://www.science.org/doi/10.1126/sciadv.abf4393

该研究检查了超过200篇Facebook 算法已经标记为需要进一步审查的新闻报道，通过使用相对较小的、政治上平衡的外行读者群体，可评估新闻报道的标题和导语。

“我们发现这令人鼓舞,”Allen表示。“10至15人的平均评分与专业事实核查员的判断相关，而外行事实核查员的判断，相互之间也是相关的。这有助于解决可扩展性问题，因为这些评级员都是普通人，没有经过事实核查培训，他们只是阅读标题和引导句子，没有花时间做任何研究。”这意味着这种众包方式可以广泛应用，而且成本低廉。这项研究估计，让读者以这种方式评估新闻的成本大约是每篇报道0.9美元。

麻省理工学院斯隆管理学院的David Rand教授是这项研究的通讯作者之一，他说: “没有一种方法可以解决网络虚假新闻的问题。但我们正在努力为对抗虚假信息的工具箱中，增加有希望的方法。”

为了进行这项研究，研究人员使用了207篇新闻文章。Facebook 内部的算法认定，这些文章需要进行事实核查，要么是因为有理由相信它们的内容有问题，要么仅仅是因为它们被广泛分享，或者与健康等重要话题有关。该实验使用亚马逊的 Mechanical Turk 平台，征集了1128名美国居民。

研究人员向这些参与者发放了20篇新闻报道的标题和引言，并向他们提出了7个问题ーー这些报道在多大程度上是“准确的”、“真实的”、“可靠的”、“可信赖的”、“客观的”、“没有偏见的”和“描述实际发生的事件”ーー以便为每个新闻项目产生一个总体的准确性评分。

多少个普通人对新闻可靠性的评分（横轴）与专家评分一致性的相关系数，红点代表能看到原文，绿点代表只可看到标题和摘要，上图是全部内容，下面按照新闻是否和政治相关，分为两类

与此同时，三名专业的事实核查人员被要求对所有207篇报道进行调查后的评估。与其他关于事实核查的研究一致，尽管事实核查者的评分彼此高度相关，但他们的一致性远非完美。在大约49% 的案例中，三名事实核查人员对一个故事的真实性都做出了合理的判断; 在大约42% 的案例中，三名事实核查人员中的两人表示同意; 在大约9% 的案例中，三名事实核查人员的评分各不相同。

有趣的是，当研究招募的常规读者被分成民主党人和共和党人数相同的组时，他们的平均评分与专业事实核查者的评分高度相关，而且至少有两位数的读者参与，人群的评分与事实核查者之间的相关性就像事实核查者之间的相关性一样强。

“这些读者没有接受过事实核查方面的培训，他们只是阅读标题和引言句，即便如此，他们也能够与事实核查员的表现相匹配,”艾伦说。

一开始，12到20名读者的表现能与专业的事实核查员相媲美，这似乎令人惊讶，但这是另一个典型现象的例子: 群体智慧。在广泛的应用程序中，发现外行群体能够匹配或超越专家判断的性能。目前的研究表明，即使在错误信息识别的高度两极化的情况下，这种情况也会发生。

实验的参与者还进行了政治知识测试和分析性思维倾向测试。总体而言，对社会问题了解得更多、分析思维更好的人的评分与事实核查人员的评分更为一致。

“参与更多的推理和知识更多的人在事实核查上，和专家表现越一致,”兰德说。“不管他们是民主党人还是共和党人，情况都是如此。”

这一发现可以在很多方面得到应用，一些社交媒体巨头正积极尝试让众包发挥作用。Facebook有一个叫做社区评论的项目，雇佣外行评估新闻内容; 推特有自己的项目，Birdwatch，征求读者对推文真实性的意见。群体智慧可以用来帮助让用户看到的内容包含对应的标签（是否是虚假信息），或者告知排名算法以及人们首先显示的内容。

可以肯定的是，任何使用众包的组织都需要找到一个好的机制来吸引读者参与。如果每个人都能参与，那么众包过程可能会受到特定党派人士的不公平影响。

“我们还没有在一个任何人都可以选择加入的环境中测试该研究的结论是否还成立,”艾伦指出。“平台不一定期望其它众包策略也能产生同样积极的结果。”

另一方面，兰德说，新闻和社会媒体组织必须找到方法，让足够多的人积极评估新闻项目，参与众包工作。

“大多数人并不关心政治，也没有足够的意愿去试图影响社交媒体,”兰德说。“但令人担心的是，如果你让人们给他们想要的任何内容打分，那么只有那些想要玩弄这个系统的人才会这么做。不过，对我来说，比被狂热分子淹没更大的问题是没有人会这么做。这是一个典型的公地悲剧问题: 社会总体上受益于人们识别错误信息，但用户为什么要花费时间和精力给出评级呢?”

参考：

https://news.mit.edu/2021/crowd-source-fact-checking-0901

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”