文章目录
- 1. 语料库
- 2.建设中的问题
- 3.典型语料库介绍
1. 语料库
- 语料库(corpus)
- 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。
- 基于语料库进行语言学研究-语料库语言学(corpus linguistics)
- 根据篇章材料对语言的研究称为语料库语言学
- 不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识。
- 是新术语:对现行语言学理论进行批评,提出新的理论。
- 研究内容:
- 语料库的建设与编纂
- 语料库的加工和管理技术
- 语料库的使用
- 类型
- 异质的:不同类的
- 同质的:某一类的
- 系统的
- 充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题
- 专用的
- 按语言种类划分
- 单语的
- 双语的或多语
- 按是否标注
- 有词性标注
- 句法结构信息标注(树库
- 语义信息标注
- 生语料/熟语料
- 平衡语料库
- 考虑代表性和平衡性
- 原则
- 语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等
- 平行语料库
- 多语种平行
- 同一种语言的多种语料(不同国家的英语不一样,地方语)
- 共时语料库与
- 是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系
- 历时语料库
- 是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化
- 判断原则
- 是否动态(必须是开放的,动态的)
- 文本是否具有量化的流通度属性
- 所有的语料都应来源于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的。
- 深加工是否基于动态的加工方法:随语料的动态变化采集,并进行动态地加工。
- 是否取得动态的加工结果:语料的加工结果也应是动态的和历时的。
2.建设中的问题
- 静态与动态
- 一种主张认为,应建立动态的或监督语料库(monitor corpus):文本集的收集通常是随遇的,而不是平衡的。
- 而另一种主张认为,应该建立相对静态的、平衡的。其实每种主张均与研究或应用目的密 切相关
- 代表性与平衡性
- 一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。
- 规模
- 第一代少
- 第二代更大
- 语料库的管理和维护
- 错误修正或改善
- 版本升级
- 语料库的检索系统、分析和处理工具的维护
- 汉语语料库开发中存在的问题
- 语料库建设的规范问题——无统一规范,只有建议性的
- 产权保护和国家语料库建设问题——所以没人做
3.典型语料库介绍
- 布朗语料库 (Brown Corpus)
- 第一个根据系统性原则采集样本的标准语料库,
- LLC口语语料库(London-Lund Corpus of Spoken English )
- 口语
- 朗文语料库 (Longman Corpus)–多领域
- 宾夕法尼亚大学(UPenn)树库(Tree Bank)
- 2000年第一版汉语树库
- 扩展
- PropBank
- NomBank (Nominalization Bank)
- UPenn语篇树库
- 北京大学开发的CLKB
- 台湾中研院平衡语料库(Sinica Corpus)
- 布拉格依存树库 (Prague Dependency Treebank, PDT)
- CASIA-CASSIL 语料库
- 词汇知识库
- WordNet (http://wordnet.princeton.edu/ )–按语义关系组织
- 知网(HowNet)
- 概念层次网络 (HNC)(符号复杂)