论文总结2

基于内容的网页特征提取 2001

使用专业网络爬虫获取网页,巨量网页数据保存在分布式的LDAP (轻量级目录服务协议)目录服务器中, 通过轻量级目录服务协议维护管理。分词词典通过提取过滤很多相关领域网页生成,手动更新。特征提取:正文分词然后计算词频;标记:将html文档生成标记树,选取一些重要标记;超链接:压缩链接树,压缩超链接森林。

 

基于Web挖掘的专业文本特征提取方法研究 2007

位置权重,目录和链接。

 

基于模板抽取和丰富特征的药名词典生成 2009

基于上下文的模板提取候选词,再用机器学习筛选。自学习的,英文词汇的。

本文提出抽取上下文模板的步骤如下:
1.E=已有药名的种子集合,T=文本集合(语料)
2.在语料T中,找到E中每个药名的上下文(context),组成集合C    窗口前后设定大小不一样
3.从上下文集合C中,确定引导词      基于IDF的方法,算权重
4.对每个引导词确定的上下文集合,构建有向连通图
5.根据权值剪枝,确定最后包含上下文信息的模板,计算处理后的上下文重复度,按重复度的大小排序,取排名前M个为最终目标模板。

本文从以下几个角度选择药名的词特征:
(1)采取bag ofwords的形式,以每个单词作为特征,不考虑单词之间的顺序关系。一些词在测试集的位置和训练集的位置不一样,但是却表达同样的意思,所以bag ofwords选取特征的方式,可以囊括到这些词。
(2)对候选药名的每一组成单词选择单元、二元、三元词特征。与前面所述相反,存在一些词随着出现位置的变化,意思也会改变,利用单元、二元、三元词特征可以弥补那些位置变化意思也变化的词;
(3)选取边界特征,分别从候选药名左边界开始选取单元、二元、三元词特征,再从右边界选取单元、二元、三元词特征。这里将n.gram与位置信息结合,考虑候选药名边界特征。
(4)以药名的前l到6个字母分别作为特征。字母特征利用了英文单词具有词缀、词干、词根的信息,很多药名虽然不相同,但是却含有相同的词缀、词干、词根。以前面1到6个字母为特征可以捕捉到药名的词缀信息。
(5)以药名的后1到6个字母分别作为特征。如第(4)条同样的原理,这样的选取方法可以捕捉到药名的词根信息。
(6)设置滑动窗口,确定大小S,选取滑动窗口内的部分字母作为特征。如第(4)条同样的原理,这样的选取方法可以捕捉到药名的词干信息。
(7)选取词型特征,将αβγ用大写字母G来代替,将数字0-9用0代替,将I、II、HI用R来替。这里采取正则表达式的方式,可以使希腊字母、数字等特殊符号做统一处理。因为训练集中不可能包含所有的希腊字母或数字,但是具有希腊字母或数字组成的药名却出现在测试集中,为防止将这样的药名漏掉,故用上述第(7)条方式选取特征。

 

元事件与主题事件抽取技术研究综述

元事件抽取研究的主要方法有模式匹配和机器学习两大类。主题事件抽取有基于事件框架的和基于本体的。

给了一些研究现状和发展趋势。

 

面向文本的事件信息抽取方法的研究 2012

研究面向文本的事件信息抽取工作,建立一个事件信息抽取系统。该系统首先过滤包含关键字的原始语料; 然后采用层次聚类( Hierarchical,HCL) 和最长公共子序列算法相结合的方法抽取事件信息,得到最初的模式; 最后通过是否包含关键字进行模式获取,进而提取信息,最终得到事件要素。

事件信息抽取系统分为7 个模块,分别为: 过滤语料、最长公共子序列、句子聚类向量、层次聚类、聚类模式过滤、模式获取和信息提取。

 

一种基于信息熵的web 信息提取的方法研究 2012

提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出有序信息列表,通过设置内容长度阈值,将无关的信息结点过滤掉,只剩下正文信息。

 

自然语言信息抽取中的机器学习方法研究 2005

模式匹配和机器学习,基于规则的和基于统计的,后者有无监督、有监督、半监督。

特征选择

主要有四种策略用于统计学习中的特征选择。

第一种策略称为“包装器方法”(wrapper approach),它的思想是先生成不同特征子集,然后通过执行学习算法和测量结果分类器的准确性对各个子集进行评估。各个特征子集一般通过前向选择或后向删除方法来生成;

第二种策略是将所有可能的特征包含到模型中,但对模型中的参数值引入一个惩罚值,这将导致与无用特征相关的参数将变得非常小,甚至可能为0;

第三个策略是计算特征的某种相关性,然后删除相关性低的特征。测度特征相关性一个最简单的方法是计算一个特征和某类别的互信息。不过,这种相关性测度方法却不能捕捉特征之间的交互性。另外几种方法已经被提出用于确定这种特征间的交互性,如RELIEFF,马尔可夫链(Markov blankets)等方法;

第四个策略是先拟合一个简单的模型,然后分析这个被拟合的模型以确定相关的特征。如Chow描述了一个高效的算法用于对一个数据集拟合一个树结构的贝叶斯网络,这个网络可以被用来分析以删除对类别影响较小的特征。

信息抽取的统计学习方法比较

1最大熵方法

2隐马尔可夫模型方法(HMMs)

3最大熵隐马尔可夫模型方法(MEMMs) 标注偏置问题

4条件随机场方法(Conditional Random Fields) 应用于命名实体识别、文本浅层分析等信息抽取任务的实验,实验结果显示该模型具有良好的性能。

5核(kernel)的方法

当前对各种集成技术(如boosting,bagging和Stacking等)的研究非常热门。性能变好,但是系统变复杂。

弱指导学习

互助训练Co—Training,主动学习(Active Learning)

发展趋势

首先它的模型、算法还需要不断改善。将人工规则加入到统计模型中,特别是如何将各种语义约束规则加入到模型中是需要进一步研究的内容。

再者,目前的各种主动学习方法均是基于单个学习模型的,可以扩展为基于集成(ensemble)的主动学习,一定会进一步减少语料标注的代价。

此外,为多学习器的集成建立一个统一的理论框架。

转载于:https://www.cnblogs.com/chrisnannan/archive/2012/12/05/2802296.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/548206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安裝jpeg-6b png error错误解决方法

默认安裝jpeg-6b shell> wget ftp://ftp.uu.net/graphics/jpeg/jpegsrc.v6b.tar.gz tar zxvf jpegsrc.v6b.tar.gz cd jpeg-6b ./configure –-prefix/usr/local/jpeg6 –enable-shared –enable-static make make install 指定安装目录方式安装jpeg-6b 如果你选择默认安装…

c++11特性move和forward区别

1:move属于强转,左值变右值 2:forward左值变左值,右值变右值(不是强转)

碎语

悠悠大道,莫衷一是。也许,看到的不是真相,听到的,反而是实言。匆匆的人流,滚滚的气息。得不到的一直在强求,在身边的故意不理睬。千篇一律的重复着早中晚,行尸走肉地上演着你我他。了却不断的红…

linux 进程重启脚本

pid(ps aux | grep 进程名 | grep -v grep | awk {print $2}) if [ ! -n "$pid" ] then echo 进程名 process not found. else kill -9 $pid echo 进程名 process[$pid] be killed. fi chmod 777 ./进程名 rm -rf *.log nohup ./进程名 > log.log 2>…

MongoDB与其他数据库的对比

本文转载自:http://book.2cto.com/201211/7897.html 市面上的数据库数量成爆炸式增长,要在它们之间进行权衡是很困难的。幸运的是,它们之中的大多数数据库都能归在几个分类里。本节中,我会描述简单及复杂的键值存储、关系型数据库…

【学习生活杂谈】学习记录

hadoop学习汇总:Hadoop官方的中文文档http://hadoop.apache.org/common/docsHadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.javaeye.com/blog/607175关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.javaeye.com/blog/418…

hadoop和kerberos的整合总结

由于手上负责的hadoop集群需要对公司外部提供服务,所有会有多个部门访问我们的hadoop集群,这个就涉及到了hadoop的安全性。 而hadoop的安全性是很弱的,只提供类似linux文件系统的帐户权限验证,而且可以通过简单的手段冒充用户名&a…

linux系统用户迁移

今天登陆上来发现好久都没有写博客了。 刚刚做了一个linux用户迁移,记录下,以后用到的话,查起来方便。希望对大家有帮助。 环境:我们原先的一台服务器由于过保所以替换新的服务器,但是由于用户数较多,如果一…

vm虚拟远程部署windows驱动

注意打印机是用com1端口,应该提前删除 bcdedit /debug on bcdedit /dbgsettings serial debugport:1 baudrate:115200 bcdedit /dbgsettings 以下两条是配置调式环境系统用 bcdedit /set testsigning on bcdedit /set loadoptions DDISABLE_INTEGRITY_CHECKS 在…

Android:SharedPreferences详解+示例

为什么80%的码农都做不了架构师&#xff1f;>>> 一、简介SharedPreferences是一种轻型的数据存储方式&#xff0c;它的本质是基于XML文件存储key-value键值对数据&#xff0c;通常用来存储一些简单的配置信息。 二、存储位置 在/data/data/<包名>/shared_pre…

类模板的分离式编译错误解决

声明&#xff1a;不谈逻辑是否能被执行成功&#xff0c;就谈编译是否成功. vs的错误: linux下g的错误: 以上错误&#xff0c;改怎么解决呢&#xff1f; 方法1&#xff1a;把实现代码和头文件写在一起 方法2&#xff1a;在.cpp文件中加入模板声明

6421B Lab5 路由和远程访问的配置与故障排除

共2个实验&#xff1a; 实验L5A&#xff1a;配置和管理网络访问 实验L5B&#xff1a;实现DirectAccess&#xff08;略&#xff09; 实验L5A&#xff1a;配置和管理网络访问 共有3个练习 练习1&#xff1a;实现***远程访问解决方案。 练习2&#xff1a;配置一个自定义的网络策略…

c++导出标准win32格式的dll

__declspec(dllexport) unsigned long long __stdcall 函数名(参数列表); 恭喜您&#xff0c;你导出来之后&#xff0c;对方无法调用 然后加入*.def文件 *.def文件内容&#xff1a; LIBRARY EXPORTS 函数名

沫沫金:收集Hibernate使用过程中的小技巧(不断更新)

[2012-12-12] *设置javabean中string字符串的数据库长度 Column(length1000) private String content; [2013-03-22 礼拜五] *保存日期yyyy-MM-dd格式 Temporal(TemporalType.DATE) private Date day; 转载于:https://blog.51cto.com/zl0828/1086585

c++跨平台写法

#if __cplusplus > 201703L || (defined _MSC_VER && _MSC_VER > 1900) #include <string_view> #else #include <boost/utility/string_view.hpp> #include <boost/functional/hash.hpp> #endif

工作中影响提高的一些想法

2019独角兽企业重金招聘Python工程师标准>>> 最近&#xff0c;一直很迷茫&#xff0c;老是觉得效率低下&#xff0c;慢慢发现是自己做事的方式有问题&#xff0c;首先觉得人懒&#xff0c;喜欢动手却不愿意去想&#xff0c;觉得慢慢做过去&#xff0c;问题就解决了&…

用vs编译openssl静态库

Perl Configure VC-WIN64A no-asm --openssldir"D:\openssl_lib" perl Configure VC-WIN32 no-asm --openssldir"D:\openssl_lib"

项目:SQL server 2008构建群集——环境部署

网络拓扑图 windows 2008 (1)操作系统&#xff1a;Microsoft Windows Server 2008 R2 (64)SQL版本 &#xff1a;SQL server 2008 R2 64 位角色: 故障转移群集节点 SQL server 故障转移群集安装域名&#xff1a;test.com主机名&#xff1a;PC1IP: 172.16.0.1 &#xff08;…

X-UA-Compatible,IE8 兼容模式

浏览器市场份额的激烈竞争&#xff0c;给网页设计开发人员带来了兼容性设计的麻烦。单单 IE 浏览器就有好几个主流版本&#xff0c;IE6、IE7、IE8 等等。当然使用诸如 IETester&#xff0c;多版本 IE 共存解决方案之类的第三方集成工具&#xff0c;可以方便代码调试。但我们总需…

两个精彩的比喻:吞吐量和延迟、信号量和互斥锁

本文为转载文章&#xff0c;觉得很有意思&#xff0c;原文在这里。 我们知道&#xff0c;计算机中有很多概念并不容易理解&#xff0c;有些时候一个好的比喻能胜过很多句解释。下面两个是我看到的两个很精彩的比喻&#xff0c;拿出来和大家分享一下。 第一比喻是关于吞吐量(thr…