研究人员用数据统计的方法来做文学研究

研究人员用数据统计的方法来做文学研究

大数据与文学,一个是理性工具,一个是感性思维,看起来似乎不沾边。但如今,二者的联系却日渐紧密起来,也由此引发了不少争议。

谁是最爱往外跑的诗人?

唐宋时期最爱往外跑的诗人是谁?答案可能是苏轼。

打开“唐宋文学编年地图”,点击苏轼的名字,地图上立刻显示出密密麻麻的足迹,西到雅安,东到蓬莱、青浦,北到定州,南到海南南部的陵水。从青年时代开始,苏轼的脚步就一直没停过,在他58岁那年甚至一口气走了31个地方,堪称中国古代一股“行走的力量”。

“苏轼一生的轨迹信息高达近万条,遍布全国各地,是我们录入信息最多的一位唐宋诗人。”“唐宋文学编年地图”的建立者、中南民族大学教授王兆鹏告诉《中国科学报》记者。

“唐宋文学编年地图”在今年3月上线,是王兆鹏主持的国家社科基金重大项目“唐宋文学编年系地信息平台”的一个研究成果。这个电子地图的形成花费了五年的时间,100多人的团队参与其中,负责数据的整理编写,融合了地理信息系统、测绘、计算机、文学等多个领域的内容。

目前,这份地图已录入了100多位唐宋诗人的行迹信息,范围北至蒙古乌兰巴托,南至越南清化。点击任何一位诗人的名字,地图上就会出现他一生的行走路线图,再点击任一地点,这位诗人在此创作的诗歌作品就会展示出来。如以地点或年份为关键词进行检索,则会看到某地在某个时间段共有多少位诗人来过、留下了哪些作品。于是从地图上,我们可以看到,李白出生于西域碎叶城(今吉尔吉斯斯坦托克马克市),王维出生于晋中,12岁的孟浩然在襄阳居乡读书,45岁的宋之问则从郑州来到洛阳又到西安,写下了多首诗作。“这张地图的最大亮点就是打通了时空维度。”王兆鹏说。

地图上线后,火爆程度让王兆鹏大吃一惊,他没想到这样一份文学地图引起了大众这么多关注。“本来项目是年底结题,我们还没着急,没想到一下子火了,上线第一天的点击量超过了100万,两天就到了220万。大家一直在问,为什么没有某某诗人,所以我们现在必须要加班加点,尽快将所有诗人的信息传上去。”王兆鹏说。

用大量数据来展现唐宋诗人的故事,不仅有文学专业的教授在做。今年3月,一篇名为《计算机告诉你,唐朝诗人的关系到底是什么样的?》的文章刷爆朋友圈,很快达到了10万 的阅读量。这篇文章来自一位普通的程序员“前进四先生”之手,发布于他的个人微信公众号“前进日志”中。

在对四万多首唐诗进行了数据整理后,“前进四先生”发现在唐朝,两位关系最好的诗人不是李白和杜甫,也不是白居易和元稹,而是陆龟蒙和皮日休。这两位诗人互相提到对方的次数都在百次以上,中国文学史上的第一本唱和诗集《松陵集》也是他俩的作品。从排名前30的引用关系来看,白居易绝对是唐朝诗人朋友圈中的明星。

大数据与小阅读

用数据统计的方法来做文学研究,王兆鹏早在1992年就开始了。“当时我是系里主管研究生工作的副主任,偶然一次机会在杂志上看到一篇定量分析研究生学位教育的文章,我就想古代文学史的研究能不能也用定量分析的方法来做。后来我写了一篇文章《宋代词人历史地位的分析》,就是用量化数据来描述词人的地位,比如什么叫地位很高、比较高或一般。从那时起,我就开始了这个领域的研究。”王兆鹏介绍说。

在国外,也有展现中国历代人物生平资料的数据库,比如由哈佛大学、北京大学、台湾“中研院”合作开发的CBDB数据库,通过字号、亲属关系、生卒年份等数据,展现人物的社会关系网。

对于大数据手段与文学研究的关系,在华东师范大学教授金雯看来,使用电脑算法来分析文本,不是让电脑复制人脑的功能,或者更大规模地完成人脑擅长的任务。人脑和电脑在阅读文本的时候所用的方法和关注的重点不一样,读出来的东西也可能截然不同。不过人脑和电脑在阅读阐释文字的时候也往往可以互为体用、互补短长,文学大数据分析和学者个人的“小阅读”之间存在着许多交融和合作的可能。正因为如此,借助电脑进行文本分析是近年来不断升温的“数字人文”的一个重要分支。

几年前,王兆鹏利用数据分析进行过另一项研究——唐诗宋词排行榜,曾招来过不少争议。

2011年,王兆鹏出版了《唐诗排行榜》一书,运用统计学方法得出了唐诗前100名排行榜,排在榜首的是崔颢的《黄鹤楼》,其次是王之涣的《凉州词》、杜甫的《登高》、王之涣的《登鹳雀楼》和张继《枫桥夜泊》等,被大众熟知的陈子昂的《登幽州台歌》等诗作则名落孙山。2012年,他又出版了《宋词排行榜》,将《念奴娇·赤壁怀古》列为宋词第一名。

“这是通过对历代选本、评点、论文、网络链接总数等指标综合计算而来的。”王兆鹏说,自己的数据采集分为三个方面,一是作家数据,包括生卒年月、创作起始时间、出生地、去世地、活动地点和在社会上扮演的身份等;二是作品数据,即作品的分类、版本、编年、系地等;三是读者数据,包括普通型读者、专家型读者和作家型读者三项。

两本书出版后,立刻有人质疑:“对古典文学的艺术鉴赏也能列排行榜?”“甚至有人说,是不是因为你是湖北人,所以把唐诗宋词第一名都给了写湖北的?”王兆鹏说。但在他看来,这两个排行榜是将现代科学手段引入到古典文学作品的研究赏析中的尝试,是严肃的学术研究。“而且,我评价的不是一首诗的好坏,而是评价它的影响力和知名度。”

但在中国科学院数学与系统科学研究院研究员安鸿志看来,“影响力”仍然是个模糊的指标。“要给唐诗宋词做排名,目的不同,指标不同,得出的结论就可能会截然不同。如果我们要办的是跑步比赛,首先就要确定跑一万米还是一百米,男子还是女子,个人还是接力,一旦确立指标,比如男性100米个人短跑,那么世界第一就是唯一解。可是对于唐诗宋词,会有唯一解吗?同样是看影响力,如果指标是‘哪首唐诗被现代人记住的最多’,那有可能是《静夜思》;如果把指标设为‘哪些诗句在日常生活中使用频率最高’,答案又可能会是‘粒粒皆辛苦’。话说回来,没有唯一解就不能去研究吗?”安鸿志说,“当然也不是,这项研究是有价值的。但你要承认,指标不唯一,得出的结论也不唯一,这才是科学方法、科学态度、科学结论。”

正确利用大数据技术

在王兆鹏看来,哪首诗词排第一名倒也在其次,这些诗词为何能从古至今一直为人们所熟知,这其中有何传播规律,更能引起他的兴趣。 “比如,除了诗本身之外,故事对作品的传播有着非常重要的助推力。”王兆鹏解释说,“崔颢的《黄鹤楼》在古代非常有名,为什么?一个重要原因是李白很欣赏。李白到黄鹤楼后想写一首诗,后来因为 ‘崔颢题诗在上头’便搁笔未写。这在宋代还成了一句俗语 ‘莫因崔颢不题诗’。所以历代唐诗选本,没有不选《黄鹤楼》的。王之涣的《凉州词》也有 ‘旗亭画壁’的故事流传至今。”

此外,这些唐诗宋词大数据还能告诉我们一些其他的信息。“一般认为,北宋王朝的毁灭代表了中国经济文化重心南移的真正分野。但通过大数据,我们可以看到,中国诗坛重心的南移始于晚唐五代,完成于北宋。唐宋诗歌版图南移的时间和社会经济重心南移的时间并不完全一致,这打破了我们一些固有观点。”王兆鹏说。

通过数据整理,王兆鹏还统计出,唐宋诗人创作的优秀作品大多是在落后地区完成的,在失意受贬谪的地区更可能诞生名篇。“而且优秀作品的作者大多不是本地人。比如黄州、惠州打名片爱说苏轼,可苏轼是四川人;写黄鹤楼那么多名篇,可没有一个人是湖北人写的。”

王兆鹏正在做着更多探索。他计划将更多历史信息融入到现有的电子地图中去,比如某年哪些人中了进士、哪些人做了官、他们之间有何相互影响等。“数字技术正在改变我们观察文学、思考文学的方式。以前由于纸本的局限,我们每次只能看一位人物或一个时期。现在利用信息技术,我们可以把大大小小的人物同时放在一个舞台上,就像把树与树之间隔着的围墙打破后展现出一片森林一样,把历史的一个个横截面完整地呈现出来。”

“大数据技术作为人类认识客观世界的一种工具,给我们带来的进步是难以想象的。从研究者的角度来说,以前我们要到图书馆去查阅很多资料,现在只要坐在屋子里,摆上一台电脑,连接上网络,海量的资料就送到了眼前。”安鸿志说,“大数据资料既可影印,又可编辑,我们可以从中查询关键词,提取信息,进而进行修改、识别、对比。大数据技术是时代的象征,各行各业都要适应这个潮流,在文史哲研究领域当然也是如此。”

安鸿志同时也强调,大数据技术是客观的,但一旦有人使用它达到某种目的、得出某种结论时,就有了主观性,涉及到方法、目的以及表达等问题。“在这个时代,谁往大数据库中‘增砖添瓦’都是一种贡献,但对得出的结论要慎重。你也可以对某位研究者得出的结论提出质疑,但不能将其归罪于大数据技术。这两件事情要分清。”

转载于:https://www.cnblogs.com/amengduo/p/9586922.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/416177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云 centos ssh key 客户端 无密码登录 ssh 登录

准备工作:刚购买了阿里云,使用登录账号密码,其次我的mac电脑已经生产了ssh-key啦。使用ssh-key登录阿里云只需要一步设置: ssh-copy-id -i ~/.ssh/id_rsa.pub root139.196.85.194 然后乖乖得输入服务器密码,按下回车。…

[bzoj1036]树的统计

链剖好难调啊~调了半个小时,终于发现线段树写挂了233 唉,我真是个假人~ Description 一棵树上有n个节点,编号分别为1到n,每个节点都有一个权值w。我们将以下面的形式来要求你对这棵树完成一些操作: I. CHANGE u t : 把…

ajax 错误信息error,jquery ajax的error错误信息

项目开发中ajax的异常处理起来算是比较头疼的,因为是异步请求,所以即使ajax异常程序依然会继续执行,导致找ajax的异常比较麻烦。今天处理ajax异常时搜到一篇文章,提到error可以返回ajax异常信息。$.ajax({url: url,type: "po…

变频器服务器电路板维修,变频器电路板维修技巧

变频器电路板维修技巧电路板使电路迷你化、直观化,对于固定电路的批量生产和优化用电器布局起重要作用。下面来跟西欧阿布了解下变频器电路板的维修技巧吧。前市场上国产变频器主要以低压通用型变频器为主,为下文叙述方便,现简要介绍通用型变…

struts基础配置

struts2是针对MVC思想的具体实现,对应于MVC中的C即Controller控制器层,有以下优点: 通过简单、集中的配置来调度业务类,是的配置和修改都很容易。提供简单、统一的表达式语言来访问所有可访问的数据。提供标准、强大的验证框架和国…

施乐700彩机服务器显示c4,施乐彩色数码复印机故障代码大全

施乐彩色数码复印机是办公单位常用的设备之一,但是使用时间较长难免会出现故障,最常见的就是复印机代码报错,以下就是闪租闪修小编整理复印机代码报错含义,希望能对广大用户有所帮助。003-205机器序列号不一致004-415寿命已尽004-…

x3250m6系列服务器,IBM服务器X3250 M6 E3-1230v6 8GB 4x3.5 C110 300W 无驱

品牌: 联想(Lenovo)商品名称:联想(Lenovo) IBM X3250 M6 1U机架式服务器主机 E3-1230V6 标配 8G内存 无硬盘商品编号:1004823156店铺:广州德致商城商品产地:中国大陆内存 :1x8GB UDIMMRAID :标配…

jfinal项目部署服务器,jfinal undertow项目再集成JDK,一键安装系统服务,让部署再快一点...

经常由于本地的开发环境和服务器上的生产环境不同,导致项目部署过程中会遇到各种插曲,现在有了jfinal undertow,终于可以摆脱tomcat等各种配置,但是开发环境的JDK和服务器上的JDK版本不一定一致,比如我面临的情况是&am…

宝塔面板 mongodb 允许外网访问

需要修改一下配置。 将bindIp:127.0.0.1 修改为 0.0.0.0

jsp执行过程

JSP执行过程图解 第一次请求: 当服务器上的一个JSP页面被第一次请求执行时,服务器上的JSP引擎首先将JSP页面文件转译成一个.java文件,也就是servlet,并编译这个java文件生成.class的字节码文件,然后执行字节码文件响应…