小世界网络模型代码 c 语言,新的小世界网络模型实现文本特征的提取方法与流程...

371c9ea302423e6c624e1dfe4c429c87.gif

本发明涉及语义网络技术领域,具体涉及新的小世界网络模型实现文本特征的提取方法。

背景技术:

目前常用的文本特征提取方法,包括词频-反文档频率方法—TF-IDF、信息增益方法、互信息等方法;TF-IDF的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况,所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征,而无法用于提取多个类别的文本特征。互信息方法考虑了类别出现概率与集合出现概率之比,那么会造成一个缺陷,那就是类别集合中文本的数量差异会很大程度上影响文本特征提取的准确性。面对海量文本,如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。文本特征指的是最能代表文本主旨的词汇集合,文本特征不仅可以很好的概括文本主要内容和主旨,而且可以降低文本处理的复杂程度。然而目前常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做的贡献、忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。为了满足上述需求,本发明提供了一种新的小世界网络模型实现文本特征的提取方法。

技术实现要素:

针对于常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的不足,本发明提供了一种新的小世界网络模型实现文本特征的提取方法。

为了解决上述问题,本发明是通过以下技术方案实现的:

步骤1:初始化文本语料库模块,对文本W的进行中文分词预处理。

步骤2:给步骤1中分词结果的文本进行位置、词性加权处理。

步骤3:得到的文本词汇集合依据其语义相关度R(c1,c2)会出现聚合现象,构建词汇语义网络模型图。

步骤4:根据图中词汇在整个语义网络图中的重要度构造两函数参数w1(ci)、w2(ci),即可得词汇在整个文本中的地位和贡献度。

步骤5:根据步骤4中的两参数设置合适阈值提取文本中的特征词汇,即为代表文本主旨的特征词汇向量。

本发明有益效果是:

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、克服了信息增益方法只适合用来提取一个类别的文本特征的不足。

3、此算法具有更大的利用价值。

4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。

5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。

6、为后续的文本相似度与文本聚类技术提供良好的理论基础。

7、此方法着重在语义分析的角度来提取文本中的特征词汇,更符合人们的经验值。

8、融合了统计学方法,又综合了关键词在文本中的贡献度,构建的词汇语义网络模型图准确度更高。

9、在词汇语义网络模型中提取关键词,既考虑了邻近节点的密度,又考虑邻近节点边的权重,关键词的提取更好的符合经验值。

9、数据处理更加规范,易于词汇语义网络模型的生成。

10、在关键词的相关度计算过程中,设定了更加严苛的约束条件,构成的词

汇语义网络模型图更加符合实际情况。

附图说明

图1新的小世界网络模型实现文本特征的提取方法的结构流程图

图2中文文本预处理过程流程图

图3 n元语法分词算法图解

图4词汇语义网络模型图

具体实施方式

为了解决常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的问题,结合图1-图4对本发明进行了详细说明,其具体实施步骤如下:

步骤1:初始化文本语料库模块,对文本W的进行中文分词预处理,其具体描述过程如下:

综合分词和删除停用词技术,中文文本预处理过程流程图如图2。。

这里分词方法利用一种基于信息论中文自动分词算法,其具体分词和去停用词步骤如下:

步骤1.1:利用停用表对文本进行去停用词处理。

步骤1.2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:

把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。

步骤1.3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图3所示。

步骤1.4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:

根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为ni。即n条路径词的个数集合为(n1,n2,…,nn)。

得min()=min(n1,n2,…,nn)

在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小。

在统计语料库中,计算每个词的信息量X(Ci),再求解路径相邻词的共现信

息量X(Ci,Ci+1)。既有下式:

X(Ci)=|x(Ci)1-x(Ci)2|

上式x(Ci)1为文本语料库中词Ci的信息量,x(Ci)2为含词Ci的文本信息量。

x(Ci)1=-p(Ci)1lnp(Ci)1

上式p(Ci)1为Ci在文本语料库中的概率,n为含词Ci的文本语料库的个数。

x(Ci)2=-p(Ci)2lnp(Ci)2

上式p(Ci)2为含词Ci的文本数概率值,N为统计语料库中文本总数。

同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|

x(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现信息量,x(Ci,Ci+1)2为相邻词(Ci,Ci+1)共现的文本信息量。

同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1

上式p(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现概率,m为在文本库中词(Ci,Ci+1)共现的文本数量。

X(Ci,Ci+1)2=-P(Ci,Ci+1)2lnp(Ci,Ci+1)2

p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)

步骤1.5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:

有n条路径,每条路径长度不一样,假设路径长度集合为(L1,L2,…,Ln)。

假设经过取路径中词的数量最少操作,排除了m条路径,m

则每条路径权重为:

上式分别为第1,2到路径边的权重值,根据步骤1.4可以一一计算得出,为剩下(n-m)路径中第Sj条路径的长度。

权值最大的一条路径:

步骤2:给步骤1中分词结果的文本进行位置、词性加权处理,其具体描述如下:

αj代表位置权重,其赋值规则为:文本第一行是标题,赋予权值5;段首第一个词等于“摘要”,则赋予权值3;段首第一个词等于“关键字”或“关键词”,则赋予权值5;段首第一个词等于“结论”,赋予权值3;其它,每段首赋予权值1;

βk代表词性权重,其赋值规则为:现代汉语语法中,一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看,名词一般担当主语和宾语的角色,动词一般担当谓语的角色,形容词和副词一般担当定语的角色。词性的不同,造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β1、β2、β3和β4,且β1>β2>β3>β4,其值可以由专家指出。

步骤3:得到的文本词汇集合依据其语义相关度R(c1,c2)会出现聚合现象,构建词汇语义网络模型图,其具体计算过程如下:

基于《知网》的词汇相关度计算方法,文本特征词汇集合中的两两词汇间相关度计算公式为:

上式ρ(ICN)为两词汇本体概念共同的父节点密度,d(ICN)为两词汇本体概念共同的父节点深度,ρmax(S)为义原网状结构中对应父节点所在的树状结构中的最大节点密度值,dmax(S)为义原网状结构中对应父节点所在的树状结构中的树的度。N′=0为两词汇(c1,c2)间无特殊关系,N′>0为两词汇(c1,c2)间有特殊关系,a为由专家给定的特殊关系权重,a∈(0,1),α、β分别为对应的影响系数,α、β∈(0,1),这个可以由实验测出,α+β=1。

联合词汇在文本中的重要度、基于统计方法,构造词汇对文本影响函数y(ci),根据R1(c1,c2)的值,y(ci)需归一化处理:

即为

ni为词汇ci在文本中出现的频数,为文本词汇的总频数,NK为在满足下式约束条件下库中含有词汇ci的文本数,为库中所有文本的数量。

约束条件为:

ni·j为第j文本中词汇ci出现的频数,为第j文本中所有词汇出现的总频数。

综合y(ci)、R1(c1,c2),即可得语义相关度R(c1,c2)

ρ、σ分别为对应因子的影响系数,ρ、σ∈(0,1),ρ+σ=1,其指可以根据实验测出,一般ρ>σ,同理w、w′,不一样的是,也许w′≥w,这个要视具体情况而定。

利用上式构建词汇语义网络模型图,如图4。

步骤4:根据图中词汇在整个语义网络图中的重要度构造两函数参数w1(ci)、w2(ci),即可得词汇在整个文本中的地位和贡献度,其具体计算过程如下:

特征词汇的分支越多,词汇在整个文本中的地位和贡献度越大,可以通过下式计算词汇在整个语义网络图中的重要度;

为特征词汇ci直接子节点的个数,Nt为整个语义网络图中总节点个数。

计算特征词汇相邻边的平均权重w2(ci)

R(ci,cm)为ci与相邻词汇cm的相关度值,L为邻边数。

步骤5:根据步骤4中的两参数设置合适阈值提取文本中的特征词汇,即为代表文本主旨的特征词汇向量,其具体计算过程如下:

相关专家设定w1(ci)、w2(ci)能够满足合适阈值ε、ε′∈(0,1),提取满足下式关系的特征词汇;

wl(Ci)>ε

w2(ci)>ε′

只有同时满足上式两条件,则提取该关键词作为文本特征词汇。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/529635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

米4用linux刷机救转,小米4变砖之后如何刷机自救?大神教你小米4线刷救砖方法...

三:使用miflash工具刷机的步骤本工具适用于小米,华为,联想等手机品牌高通版本,不只是小米专用,教程仅供参考,看完一遍后再刷机。第一步:刷机工具安装1.下载小米手机刷机工具MiPhone2015731&…

com.android.phone已停止运行怎么解决方法,com.android.phone已停止运行怎么解决

在安卓手机上,不少用户都会遇过com.android.phone已停止的弹窗,尤其经常刷机的最明显。导致的原因实在太多,有刷机步骤不对的,乱改系统文件的,这里小编综合网上的情况以及自身经历,给广大安卓用户一个com.a…

android动画放大后缩小,Android 补间动画 scale(缩放)

今天又遇到了关于Android 动画方面的问题,免不了一番疯狂找资料,所幸解决了自己的问题,为了避免以后遇到同样的问题,再次到处找资料,于是决定写篇随笔记录下来,方便自己方便大家^_^;废话就不说了…

android 机器人动画,Android 5.X与Android4.X版本机器人动画的区别以及制作动画的方法...

今天翻了下墙,解决了一直以来的疑惑问题:为什么Android5.0以及6.0的recovery版本,机器人动画怎么就只有一张图片?这个问题,我百思不得其解,看了很多网文,也只是有了个概念。请参考以下文档&…

android .9编译,在Ubuntu 9.04下编译Android源码

一直都是刷官方的版本,准备自己编译一下刷机。首先是下载,Android的源码是托管在Linux Kernel的源码站点,所以版本工具是git。关于git的使用和安装请见我的另一篇文章《在Ubuntu Server上安装Git》。创建一个存放Andorid的目录,然…

android rn框架开发的例子,RN与安卓通信架构篇

本篇文章介绍的搭建Android与Rn之间的简易通信架构,需要了解通信的基本使用的同学可以参考下面的链接开篇先上图 - “简易版的通信架构图”RN与Android之间通信的架构图本架构实现的功能有:自定义通信规则,并以Json作为数据传输格式进行传输实…

go 生成hash_go基础之map-写在前面(一)

为什么分析map在计算机编程语言当中,用的最多的数据结构估计就是map。map以他近乎o(1)的查找效率和修改效率让他在大多数场景下都比较受青睐。map的常规的实现方式都是hash其他数据结构,如java是hash红黑树,而我现在即将要分析的go的实现方式…

大学数学建模大赛是用计算机,北京大学第十届“江泽涵杯”数学建模与计算机应用竞赛试题...

消息来源:http://www.math.pku.edu.cn:8000/news/read.php?newsid8014A题:投篮问题投篮是篮球运动中一项关键性技术,是一项重要的得分手段。在篮球赛中有三种特殊的投篮方式,“三分球”、“两分球”和“一分球(罚篮)”。其中&…

dynamo方程怎么写_【简明自控】为什么特征方程如此重要

简明自动控制——为什么特征方程如此重要。热场视频:自平衡杆-双轴反作用轮倒立摆_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com顶个棍子!具有主动脚轮的全向移动机器人_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com我自行车怎么少…

和佳股份有没有纳米机器人_新高赛复赛入围项目(49)一种纳米硅质绝热材料及其制备方法...

点击上方“蓝字”关注我们“2020中国山东新旧动能转换高价值专利培育大赛”(简称“新高赛”)是由山东省市场监督管理局(知识产权局)主办,由山东省知识产权事业发展中心、知识产权出版社有限责任公司共同承办的以新旧动能转换高价值专利培育为主题的创新大赛。新高赛…

mastercam加工报表生成_2020北京加工中心编程培训工厂教学行业

2020北京加工中心编程培训工厂教学行业河北德玛数控培训自办工厂 全程四轴五轴实践 学生直接面对客户 承揽加工各种异形件复杂件 终身技术支持 可勤工俭学 解决企业各种技术问题,每个校区都有实训车间,实训图档不限、不限、时间不限、并且不另收费&#…

背景调查 跳槽_分享 | 录用背景调查,查的到底是什么?

招聘对于HR而言,是一项常规工作,同时也是一项非常重要的工作,招聘有一系列的步骤和程序,每一道步骤和程序都必不可少,显得那么的重要,这其中包括我们常说的笔试、面试、体检,还包括不常说的正式…

.class文件转换.java_Java中的动态链接VS操作系统动态链接

在操作系统OS中为了优化内存的使用会采用一种动态链接方式,一个文件想要在操作系统中运行必须经过编译、汇编译、链接、装载等步骤。可以参考Java程序是怎么跑起来的。本篇主要讲解Java栈帧中动态链接部分与操作系统的的动态链接的区别与联系操纵系统为什么需要动态…

宏观经济学gdp计算方法_宏观经济学考研的重要考点

宏观经济学考研重要考点西方国民收入核算宏观经济学的特点;国内生产总值;核算国民收入的两种算法(支出法和收入法);国内生产总值;个人可支配收入;国民收入的基本公式;名义GDP和实际GDP。要求:重点掌握本章基本概念及计算。简单国民收入决定理论均衡产出;凯恩斯的消费…

json符号解释大全_牛年汪姓男孩高端大气的名字大全

牛年汪姓男孩高端大气的名字大全 张桉宁起名分享牛年汪姓男孩高端大气的名字大全:给男孩起名有很多的讲究,需要从多个方面考虑。牛年汪姓男孩如何起一个高端大气的好名字,是家长朋友们都十分重视的。给牛年的汪姓男孩起一个高端的名字&#x…

变电站计算机在线监控系统,变电站环境在线监测系统

原标题:变电站环境在线监测系统概述随着计算机技术、网络通讯技术以及电力系统保护技术的发展,配电室的自动化运行水平不断提高,大大减少了人为操作,使配电室的无人值守逐步变成了可能。配电的可靠和安全是整个电能管理系统中的一…

什么意思是谁_舔狗是什么意思?如果不是真的喜欢谁又愿意做舔狗呢出处?

[海峡网]网络上面经常会出现一些新的词句,比如最近舔狗这个词就经常出现在大家的视线中。相信很多小伙伴都知道,最近关于虎牙的包子的事情也是挺多的,不过关于包桑的梗也是很多,那么关于包桑的这句“如果不是真的喜欢,…

计算机控制面板图标显示,Win8桌面如何有计算机/控制面板图标

Win8桌面如何有计算机/控制面板图标2013年06月04日 00:44作者:马承平编辑:马承平文章出处:泡泡网原创分享泡泡网系统工具频道6月4日 全新Windows8系统给我们带来不仅是超炫的动态磁贴展示,更有新增超级按钮项,它大大集…

计算机专业好还是铁道运输管理好,铁道运输管理专业主要是干什么的?

铁道运输管理专业主要是干什么的?铁道运输管理专业主要学什么?学铁道运营管理好就业吗?1、铁道交通运营管理专业主要培养德、智、体、美各方面全面发展,掌握所必需的基本理论和专业知识,有较高的综合素质和较强的铁道交通运营管理…

51单片机基本刷屏测试实验_51单片机开发基础8——实时时钟实验

8.1 实时时钟简介RTC(Real Time Clock),是实时时钟的缩写,实时时钟是日常生活中应用最为广泛的功能。它为人们提供精确的实时时间,或者为电子系统提供精确的时间基准,目前实时时钟芯片大多采用精度较高的晶体振荡器作为时钟源。有…