Nature:FB和推特的数据是如何革新社会科学,改变世界的?

大数据文摘出品

来源:nature

编译:张睿毅

2007年,一群有野心的科学家召集了一次会议,讨论新兴的社会科学数据处理的艺术。他们想运用自己的技能来改变世界。在演讲中,马萨诸塞州剑桥市哈佛大学的政治学家加里·金(Gary King)说,数字信息的泛滥“将使人们有可能了解更多有关社会的知识,并最终开始解决(实际上是解决)影响人类富足的主要问题”。

那时,已经有少量的计算社会科学研究完成发表。2006年的一项研究通过创建一个由14,341人使用的人工在线音乐市场,研究了社会影响力对音乐流行的作用。参与者选择了要下载的歌曲,有时带有或不带有有关这些歌曲在其他市场用户中的流行程度的信息。

研究发现,歌曲的受欢迎程度越来越难以预测用户受他人行为的影响,这提供了一种为什么难以预测不可控的成功的解释。


来自卢旺达150万用户的手机数据有助于推断出部分财富和贫困(较黑暗的地区更加贫困)。

两年后,一项研究分析了六个月内100,000名手机用户的移动情况,研究发现人们出行模式简单且高度重复。作者可以计算在任何特定位置找到个人的可能性,并建议确定社区中出行方式的相似性可以帮助进行城市规划,了解疾病的传播或为紧急情况做准备。

同年,科技杂志《连线》(Wired)发表了一篇文章,认为大数据时代将标志着整套科学理论的终结。尽管被广泛批评为过于简单化,但该文章还是触动了研究者的神经:十多年后,社会科学家多次援引《连线》(Wired)文章,以表明社会科学理论的相关性正在受到攻击。

但是大数据的趋势只增不减。对于费城宾夕法尼亚大学的社会学家邓肯·瓦茨(Duncan Watts)而言,社会科学的变化让人想起1990年代生物学的变化,当时高通量技术开始产生大量有关DNA序列和基因表达的数据。他说:“新数据中出现了雪崩式增长,需要以非常不同的方式来考虑数据。”

但是,许多传统的社会科学家对这场革命的最初成果并没有留下深刻的印象,并发现其中的一些方法值得怀疑。怀疑论者将对社交媒体的研究视为对数千名不知情和不同意的参与者进行的实验。2018年,有消息传出,英国咨询公司Cambridge Analytica未经其所有者同意,已从数百万个Facebook帐户中收集了数据。丑闻的余波继续给社交媒体研究带来更多的审查和猜测,随着平台制定新的隐私政策,一些科学家的项目受到了阻碍。

社交不适

大数据领域还因早期解决“玩具”问题的论文而被污名化,这些问题可以从数据中得到回答,但并未解决社会科学中长期存在的基本问题,例如如何解决不平等问题或影响公众舆论。

GESIS莱布尼兹社会科学研究所的计算社会科学家克劳迪亚·瓦格纳(Claudia Wagner)表示:“一开始,很多Twitter研究让社会科学家们并不兴奋。”

一些人认为玩具问题的接纳至少有一部分是逐渐找到根基的新兴领域的产物。Strohmaier说,随着分析因素变得越来越复杂,数据来源也越来越多样化,该领域已经开始解决更重要的问题,例如歧视,不平等和激进化的根源。他说:“只有现在,我们才能获得可以查看重大问题的数据。”


手机数据表明人们坚持简单,可预测的运动方式。

例如去年,来自公共卫生和行为经济学的研究人员在美国卫生保健系统中使用了50,000多名患者的卫生保健记录,分析了一种常用算法,该算法建议有复杂医疗需求的人进行额外的监督和健康干预。该团队使用建模方法表明,该算法系统地歧视了黑人,从而可能影响数以百万计的人们的保障。

然后,研究人员利用美国医疗保健差距来追踪这种偏见的根源,并提出消除偏见的方法。例如,算法不应假设个人医疗保障支出是他们需要多少医疗保障的重要因素:由于无法平等地获得医疗保障,照料黑人美国人的花费通常比白人美国人少,甚至当他们有相同的医疗保障需求时。

但是获取良好数据并不是唯一的挑战:从物理学或计算机科学领域出身的科学家被指控未能检查社会科学家为解释人类行为而制定的理论。“他们倾向于寻找模式,”朱利亚·安德里格托(Giulia Andrighetto)说,他接受过哲学教育,但现在是意大利国家研究理事会下属的意大利认知科学与技术研究所的计算社会科学家。“但是通常他们不会寻找产生这些行为的机制”。

要进行这项工作,需要牢固地掌握社会科学理论。多哈哈马德·本·哈利法大学(Hamad Bin Khalifa University)的计算社会科学家安吉孙(Jisun An)于2010年开始获得计算机科学博士学位,在计算社会科学运动开始盛行之际,她研究社交媒体上的新闻共享模式。

最初,她只与其他计算机科学家合作,而他们努力处理不同的社会科学理论。现在,她与政治科学家合作研究媒体对公众舆论的影响(反之亦然),以及如何鼓励人们提高新闻来源的多样性。安说:“随着时间的流逝,双方在语言和方法上都相互理解。”

现在有融合的端倪。计划于2021年举行首次会议,将上述两种方法结合起来。大学还创建了一些研究所,将来自不同部门的人员聚集在一起,以弥合鸿沟。例如,弗吉尼亚州费尔法克斯的乔治·梅森大学就有专门的系。计算社会科学的夏令营在全球30多个地方举行,一群热情的年轻学生以及增加的可用工作机会给人们带来了一些希望,即权力斗争可以让位给更多样的合作

社会聚集

两种方法的结合可能很强大。西雅图华盛顿大学的数据科学家约书亚·布鲁门斯托克(Joshua Blumenstock)和他的同事使用卢旺达数百万人的手机数据来推断他们的社会经济状况,然后将其结果与使用常规调查收集的数据进行比较,从而证实了他们的结果。例如,政策制定者可以使用这种方法将目标对准需要干预的国家贫困地区,或者监测已颁布政策的效果。

但是缺乏沟通的问题仍然存在。哈佛大学的社会科学家琼·多诺万(Joan Donovan)指出了去年发表的一项研究,研究人员在Facebook和VKontakte平台上绘制了网络仇恨团体网络,并展示了网络结构随时间的变化。她说,进行这项研究的物理学家和计算机科学家未能在他们的工作中引用关键的社会科学研究,结果,他们对研究结果的解释并不像可能的那样丰富。

他们还调查了很少的社交媒体平台,而过去的研究表明,仇恨团体会在许多领域跟随有魅力的领导者。团队得出了她认为危险的结论:社交媒体平台可以尝试引导仇恨团体中的讨论,例如通过创建虚假账目或在仇恨集群之间进行工程对抗。她说,这可能通过增加小组中的讨论量并提高其在搜索算法上的排名来适得其反。她认为,更好的策略是通过让搜索引擎限制此类人群的知名度来检查仇恨消息的传播。


美国的治疗师会检查患者的肺部。医疗保健决策通常是通过算法得知的,其中一项研究发现存在种族偏见。

华盛顿特区乔治华盛顿大学的物理学家尼尔·约翰逊(Neil Johnson)是仇恨研究的主要作者,习惯于接受社会科学家的批评。他说他引用了最相关的参考文献。他说,对于搜索算法,社交媒体公司有权操纵它们,“就像他们现在正在压制反疫苗和COVID-19错误信息页面和群组的突出显示一样”。他研究过错误的信息,冲突和极端主义,并说每次发表高调论文都会遭到投诉

但是他的工作引起了政策制定者的共鸣:组织经常要求他咨询,这些组织喜欢他的工作的定量性质以及能够对干预措施可能产生的影响进行建模的能力。他说:“我们真的可以用我认为他们没有与其他学者互动的经验来看待具体问题。”对于约翰逊而言,他担心太多的社会科学家会在没有经过适当培训的情况下冲向计算方法。

约翰逊并不是唯一对理论对他们的项目的重要性持怀疑态度的科学家。Giangiacomo Bravo受过社会经济学家的培训,现在是瑞典Växjö的Linnaeus大学的计算社会科学家,他说许多社会科学理论太含糊,无法使用大数据进行检验。例如,社会资本的概念有时被定义为社会中允许个人共同努力的共同理解和价值观。他说:“这种社会资本概念的原始表述太模糊而无法检验。” “我怎么测量?”

但是,有些理论更为具体。研究社会规范(控制社会上可接受或不可接受的行为的共同规则)的安德里格托(Andrighetto)说,研究人员花了十年的时间为该主题拼凑了清晰的定义和理论。例如,该理论建议,当社会规范发生变化时,应促使人们对特定情况的反应方式发生变化。人们还认为,社会规范只会在缓慢的社会互动过程中缓慢变化。诸如此类的可测试陈述使Andrighetto可以将计算工作与社会科学理论相结合:她使用在线实验8来测试社会规范的模拟变化是否会影响行为。

她并不孤单地想要利用社会科学来改变世界。瓦茨说,他和其他学术研究人员常常是在追求出版物,而不是现实世界中的解决方案。他说:“当论文发表时,我觉得我的工作已经完成。”

“把这些想法付诸实践是我的工作,而要想出如何将它们转化为现实世界中有意义的干预措施,则是别人的工作。”

瓦茨说,为了实现这种转变,两个阵营的研究人员必须保持合作的动力。有些人已经可以感觉到它的发生。瓦格纳说:“传统的社会科学和计算社会科学实际上随着时间的流逝越来越紧密。

“在20年内,将没有鸿沟。”

相关报道:

https://www.nature.com/articles/d41586-020-01747-1

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487523.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

改变文件权限的用户身份

进程的有效用户ID必须是文件的所有者或超级用户转载于:https://www.cnblogs.com/justart/p/7591010.html

python合并两个属性_合并两个部分包含文件列表及其属性的最有效方法

我有一个系统,该系统运行带有ls或dir命令的变体的自定义cli,并返回工作目录中文件和文件夹的列表。问题是,我可以使用带标志的命令运行命令,该标志返回文件及其时间戳(创建和最后修改的日期),或者返回一个标志返回文件…

格力入局的数控机床,掌握“核心科技”有多难?

来源:脑极体梦想还是要有的,万一要实现了呢?即便不能马上实现,坚持努力也是可以的。2016年,在格力主办的“第二届中国制造高峰论坛”上,董明珠曾放出这样的豪言壮语:两年后,做出最顶…

C#AE创建FeatureDataset/创建数据、集要素集

核心代码 1 IWorkspaceFactory pFactory new AccessWorkspaceFactoryClass();//这里需要在program.cs中添加desktop绑定 2 IWorkspace pWorkspace pFactory.OpenFromFile(temMDBpath, 0);//这里要求具备axLiscense,可以添加控件添加或代码添加 3…

留言板asp mysql_ASP简单入门(制作一个简单的留言板 )

语句……%><2>定义变量dim语句dim a,ba10b”ok!”%>注意&#xff1a;定义的变量可以是数值型&#xff0c;也可以是字符或者其他类型的<3>简单的控制流程语句1. If 条件1 then语句1elseif 条件2 then语句2else语句3endif2.while 条件语句wend3.for count1 to …

深度解析:国产化软硬件全景梳理

本文来源&#xff1a;信创研究框架作者&#xff1a;谢春生、郭雅丽、郭梁良、金兴内容包括产业概括&#xff0c;发展背景、推进节奏和产业全景图&#xff0c;云计算全栈架构、产业链全景图。核心技术&#xff0c;CPU处理器、操作系统、中间件、办公套件、安全保密等。芯片处理器…

适配器模式(类适配器)

java设计模式大体分为23种设计模式&#xff0c;直接通过例子学习设计模式&#xff0c;更易于理解和思考其中的原理和作用&#xff0c;以下给出 适配器模式 的第一种(一个有三种)的demo&#xff0c;叫做类适配器模式&#xff1a; MainRun.java类&#xff0c;是程序运行入口&…

空间连接时计算总和_学习CALCULATE函数(六)丨帕累托之累计求和

(写在前面的话&#xff1a;非常感谢韭菜大神和冬神的指点&#xff0c;万分感谢。)哎&#xff0c;说归说&#xff0c;还是需要继续学习CALCULATE函数&#xff0c;也是蛮无奈的。最近白茶在研究帕累托分析法&#xff0c;本期分享一下帕累托ABC分析法的基础——累计求和。这里简要…

揭秘仿人机器人背后的技术秘密 | 优必选研究院技术专家刘益彰【附PPT】

来源&#xff1a;机器人大讲堂机器人大讲堂直播间037期目前国际上主要有两种控制方式的仿人机器人&#xff1a;一种是基于位置控制的仿人机器人&#xff0c;另一种是基于力矩控制的仿人机器人。由于类人运动的功能的多样性、复杂性以及高维度性&#xff0c;所以仿人机器人的研究…

luoguP1463:反素数ant(打表心得☆)

题目描述对于任何正整数x&#xff0c;其约数的个数记作g(x)。例如g(1)1、g(6)4。如果某个正整数x满足&#xff1a;g(x)>g(i) 0<i<x&#xff0c;则称x为反质数。例如&#xff0c;整数1&#xff0c;2&#xff0c;4&#xff0c;6等都是反质数。现在给定一个数N&#xff0…

席南华院士:数学的意义

本文转自返朴公众号2020年5月30日&#xff0c;中国科学院院士、中国科学院数学与系统科学研究院研究员席南华受邀作远程报告“数学的意义”&#xff0c;从数学的发展史、数学的特性、数学巨匠的一些观点以及数学美的含义等多个角度讲述了数学的意义。本文为报告文字整理版&…

java简单小项目_Java简易抽奖系统小项目

本文实例为大家分享了Java简易抽奖系统的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下需求&#xff1a;实现一个抽奖系统1 注册2 登录3 抽奖必须先注册 再登陆 再抽奖随机产生4个随机数作为幸运卡号用户注册后 登录的时候 用户名密码输入判断只有三次机会需要做…

2017-9-26 NOIP模拟赛

NOIP 2017 全真模拟冲刺 ---LRH&&XXY 题目名称 那些年 铁路计划 毁灭 题目类型 传统 传统 传统 可执行文件名 years trainfare destroy 输入文件名 years.in trainfare.in d…

protobuf java any_protobuf3笔记

Protobuf3笔记文件后缀定义Proto的文件应以.proto为后缀。语法版本Proto文件的首行应指定语法版本&#xff1a;syntax "proto3"; // "proto2"定义字段在消息中&#xff0c;每个字段以下列方式定义&#xff1a;type filed "" tag ";"如…

108页报告一文看懂光刻机,看国产替代如何破局【附下载】

来源&#xff1a;方正证券光刻机是人类文明的智慧结晶&#xff0c;被誉为半导体工业皇冠上的明珠。光刻机作为前道工艺七大设备之首&#xff0c;价值含量极大&#xff0c;在制造设备投资额中单项占比高达23%&#xff0c;技术要求极高&#xff0c;涉及精密光学、精密运动、高精度…

【bzoj 3601】一个人的数论 (莫比乌斯反演+伯努利数)

题解&#xff1a; &#xff08;吐槽&#xff1a;网上题解那个不严谨猜测真是没谁了……关键是还猜得辣么准……&#xff09; 直接化简到求和那一段&#xff1a; $f_{d}(n)\sum_{t|n}\mu(t)t^{d}\sum_{i1}^{\frac{n}{t}}i^{d}$ $设S_{d}(T)\sum_{i1}^{T}i^{d}$ 那这个是什么呢&a…

院士论坛|李德仁:测绘遥感与智能驾驶

来源&#xff1a;测绘学报未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#xff1b;开展互联网&#xff08;城市&#xff09;云脑研究计划&#xff0c;构建互联网&#xff08;城市&#xff09;云脑技术和企业图谱…

ansible编译httpd playbook示例

以下是playbook的内容。它的处理流程是&#xff1a; 1.先在本地下载apr,apr-util,httpd共3个.tar.gz文件。 2.解压这3个文件。 3.安装pcre和pcre-devel依赖包。 4.编译安装apr。 5.编译安装apr-util。 6.编译安装httpd。 ---- hosts: alltasks: - name: download apr,apr-util,…

java jquery post_jquery js post变量set和get for post

我需要从php页面发送一些参数到另一个动态发布电子邮件&#xff0c;如果我发送硬编码的值是好的&#xff0c;但如果我在文本字段上发送值&#xff0c;它不起作用&#xff0c;这里的代码请求发送邮件的页面$otroYa other.val();console.log (other.val()); //shows value ok of…

深度报告:一文看懂生物芯片产业

来源&#xff1a;赛迪顾问生物芯片技术起源于二十世纪八十年代&#xff0c;也被称为“微流控技术”、“芯片实验室”等。生物芯片技术能够在邮票大小的芯片上&#xff0c;进行较为复杂的生物、化学、物理等实验&#xff0c;为制作成本低、样本少、时间短、操作简单的医疗仪器提…