Nature：FB和推特的数据是如何革新社会科学，改变世界的？

大数据文摘出品

来源：nature

编译：张睿毅

2007年，一群有野心的科学家召集了一次会议，讨论新兴的社会科学数据处理的艺术。他们想运用自己的技能来改变世界。在演讲中，马萨诸塞州剑桥市哈佛大学的政治学家加里·金（Gary King）说，数字信息的泛滥“将使人们有可能了解更多有关社会的知识，并最终开始解决（实际上是解决）影响人类富足的主要问题”。

那时，已经有少量的计算社会科学研究完成发表。2006年的一项研究通过创建一个由14,341人使用的人工在线音乐市场，研究了社会影响力对音乐流行的作用。参与者选择了要下载的歌曲，有时带有或不带有有关这些歌曲在其他市场用户中的流行程度的信息。

研究发现，歌曲的受欢迎程度越来越难以预测用户受他人行为的影响，这提供了一种为什么难以预测不可控的成功的解释。

来自卢旺达150万用户的手机数据有助于推断出部分财富和贫困（较黑暗的地区更加贫困）。

两年后，一项研究分析了六个月内100,000名手机用户的移动情况，研究发现人们出行模式简单且高度重复。作者可以计算在任何特定位置找到个人的可能性，并建议确定社区中出行方式的相似性可以帮助进行城市规划，了解疾病的传播或为紧急情况做准备。

同年，科技杂志《连线》（Wired）发表了一篇文章，认为大数据时代将标志着整套科学理论的终结。尽管被广泛批评为过于简单化，但该文章还是触动了研究者的神经：十多年后，社会科学家多次援引《连线》（Wired）文章，以表明社会科学理论的相关性正在受到攻击。

但是大数据的趋势只增不减。对于费城宾夕法尼亚大学的社会学家邓肯·瓦茨（Duncan Watts）而言，社会科学的变化让人想起1990年代生物学的变化，当时高通量技术开始产生大量有关DNA序列和基因表达的数据。他说：“新数据中出现了雪崩式增长，需要以非常不同的方式来考虑数据。”

但是，许多传统的社会科学家对这场革命的最初成果并没有留下深刻的印象，并发现其中的一些方法值得怀疑。怀疑论者将对社交媒体的研究视为对数千名不知情和不同意的参与者进行的实验。2018年，有消息传出，英国咨询公司Cambridge Analytica未经其所有者同意，已从数百万个Facebook帐户中收集了数据。丑闻的余波继续给社交媒体研究带来更多的审查和猜测，随着平台制定新的隐私政策，一些科学家的项目受到了阻碍。

社交不适

大数据领域还因早期解决“玩具”问题的论文而被污名化，这些问题可以从数据中得到回答，但并未解决社会科学中长期存在的基本问题，例如如何解决不平等问题或影响公众舆论。

GESIS莱布尼兹社会科学研究所的计算社会科学家克劳迪亚·瓦格纳（Claudia Wagner）表示：“一开始，很多Twitter研究让社会科学家们并不兴奋。”

一些人认为玩具问题的接纳至少有一部分是逐渐找到根基的新兴领域的产物。Strohmaier说，随着分析因素变得越来越复杂，数据来源也越来越多样化，该领域已经开始解决更重要的问题，例如歧视，不平等和激进化的根源。他说：“只有现在，我们才能获得可以查看重大问题的数据。”

手机数据表明人们坚持简单，可预测的运动方式。

例如去年，来自公共卫生和行为经济学的研究人员在美国卫生保健系统中使用了50,000多名患者的卫生保健记录，分析了一种常用算法，该算法建议有复杂医疗需求的人进行额外的监督和健康干预。该团队使用建模方法表明，该算法系统地歧视了黑人，从而可能影响数以百万计的人们的保障。

然后，研究人员利用美国医疗保健差距来追踪这种偏见的根源，并提出消除偏见的方法。例如，算法不应假设个人医疗保障支出是他们需要多少医疗保障的重要因素：由于无法平等地获得医疗保障，照料黑人美国人的花费通常比白人美国人少，甚至当他们有相同的医疗保障需求时。

但是获取良好数据并不是唯一的挑战：从物理学或计算机科学领域出身的科学家被指控未能检查社会科学家为解释人类行为而制定的理论。“他们倾向于寻找模式，”朱利亚·安德里格托（Giulia Andrighetto）说，他接受过哲学教育，但现在是意大利国家研究理事会下属的意大利认知科学与技术研究所的计算社会科学家。“但是通常他们不会寻找产生这些行为的机制”。

要进行这项工作，需要牢固地掌握社会科学理论。多哈哈马德·本·哈利法大学（Hamad Bin Khalifa University）的计算社会科学家安吉孙（Jisun An）于2010年开始获得计算机科学博士学位，在计算社会科学运动开始盛行之际，她研究社交媒体上的新闻共享模式。

最初，她只与其他计算机科学家合作，而他们努力处理不同的社会科学理论。现在，她与政治科学家合作研究媒体对公众舆论的影响（反之亦然），以及如何鼓励人们提高新闻来源的多样性。安说：“随着时间的流逝，双方在语言和方法上都相互理解。”

现在有融合的端倪。计划于2021年举行首次会议，将上述两种方法结合起来。大学还创建了一些研究所，将来自不同部门的人员聚集在一起，以弥合鸿沟。例如，弗吉尼亚州费尔法克斯的乔治·梅森大学就有专门的系。计算社会科学的夏令营在全球30多个地方举行，一群热情的年轻学生以及增加的可用工作机会给人们带来了一些希望，即权力斗争可以让位给更多样的合作。

社会聚集

两种方法的结合可能很强大。西雅图华盛顿大学的数据科学家约书亚·布鲁门斯托克（Joshua Blumenstock）和他的同事使用卢旺达数百万人的手机数据来推断他们的社会经济状况，然后将其结果与使用常规调查收集的数据进行比较，从而证实了他们的结果。例如，政策制定者可以使用这种方法将目标对准需要干预的国家贫困地区，或者监测已颁布政策的效果。

但是缺乏沟通的问题仍然存在。哈佛大学的社会科学家琼·多诺万（Joan Donovan）指出了去年发表的一项研究，研究人员在Facebook和VKontakte平台上绘制了网络仇恨团体网络，并展示了网络结构随时间的变化。她说，进行这项研究的物理学家和计算机科学家未能在他们的工作中引用关键的社会科学研究，结果，他们对研究结果的解释并不像可能的那样丰富。

他们还调查了很少的社交媒体平台，而过去的研究表明，仇恨团体会在许多领域跟随有魅力的领导者。团队得出了她认为危险的结论：社交媒体平台可以尝试引导仇恨团体中的讨论，例如通过创建虚假账目或在仇恨集群之间进行工程对抗。她说，这可能通过增加小组中的讨论量并提高其在搜索算法上的排名来适得其反。她认为，更好的策略是通过让搜索引擎限制此类人群的知名度来检查仇恨消息的传播。

美国的治疗师会检查患者的肺部。医疗保健决策通常是通过算法得知的，其中一项研究发现存在种族偏见。

华盛顿特区乔治华盛顿大学的物理学家尼尔·约翰逊（Neil Johnson）是仇恨研究的主要作者，习惯于接受社会科学家的批评。他说他引用了最相关的参考文献。他说，对于搜索算法，社交媒体公司有权操纵它们，“就像他们现在正在压制反疫苗和COVID-19错误信息页面和群组的突出显示一样”。他研究过错误的信息，冲突和极端主义，并说每次发表高调论文都会遭到投诉。

但是他的工作引起了政策制定者的共鸣：组织经常要求他咨询，这些组织喜欢他的工作的定量性质以及能够对干预措施可能产生的影响进行建模的能力。他说：“我们真的可以用我认为他们没有与其他学者互动的经验来看待具体问题。”对于约翰逊而言，他担心太多的社会科学家会在没有经过适当培训的情况下冲向计算方法。

约翰逊并不是唯一对理论对他们的项目的重要性持怀疑态度的科学家。Giangiacomo Bravo受过社会经济学家的培训，现在是瑞典Växjö的Linnaeus大学的计算社会科学家，他说许多社会科学理论太含糊，无法使用大数据进行检验。例如，社会资本的概念有时被定义为社会中允许个人共同努力的共同理解和价值观。他说：“这种社会资本概念的原始表述太模糊而无法检验。” “我怎么测量？”

但是，有些理论更为具体。研究社会规范（控制社会上可接受或不可接受的行为的共同规则）的安德里格托（Andrighetto）说，研究人员花了十年的时间为该主题拼凑了清晰的定义和理论。例如，该理论建议，当社会规范发生变化时，应促使人们对特定情况的反应方式发生变化。人们还认为，社会规范只会在缓慢的社会互动过程中缓慢变化。诸如此类的可测试陈述使Andrighetto可以将计算工作与社会科学理论相结合：她使用在线实验8来测试社会规范的模拟变化是否会影响行为。

她并不孤单地想要利用社会科学来改变世界。瓦茨说，他和其他学术研究人员常常是在追求出版物，而不是现实世界中的解决方案。他说：“当论文发表时，我觉得我的工作已经完成。”

“把这些想法付诸实践是我的工作，而要想出如何将它们转化为现实世界中有意义的干预措施，则是别人的工作。”

瓦茨说，为了实现这种转变，两个阵营的研究人员必须保持合作的动力。有些人已经可以感觉到它的发生。瓦格纳说：“传统的社会科学和计算社会科学实际上随着时间的流逝越来越紧密。”

“在20年内，将没有鸿沟。”