小世界网络模型代码 c 语言,新的小世界网络模型实现文本特征的提取方法与流程...

371c9ea302423e6c624e1dfe4c429c87.gif

本发明涉及语义网络技术领域,具体涉及新的小世界网络模型实现文本特征的提取方法。

背景技术:

目前常用的文本特征提取方法,包括词频-反文档频率方法—TF-IDF、信息增益方法、互信息等方法;TF-IDF的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况,所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征,而无法用于提取多个类别的文本特征。互信息方法考虑了类别出现概率与集合出现概率之比,那么会造成一个缺陷,那就是类别集合中文本的数量差异会很大程度上影响文本特征提取的准确性。面对海量文本,如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。文本特征指的是最能代表文本主旨的词汇集合,文本特征不仅可以很好的概括文本主要内容和主旨,而且可以降低文本处理的复杂程度。然而目前常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做的贡献、忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。为了满足上述需求,本发明提供了一种新的小世界网络模型实现文本特征的提取方法。

技术实现要素:

针对于常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的不足,本发明提供了一种新的小世界网络模型实现文本特征的提取方法。

为了解决上述问题,本发明是通过以下技术方案实现的:

步骤1:初始化文本语料库模块,对文本W的进行中文分词预处理。

步骤2:给步骤1中分词结果的文本进行位置、词性加权处理。

步骤3:得到的文本词汇集合依据其语义相关度R(c1,c2)会出现聚合现象,构建词汇语义网络模型图。

步骤4:根据图中词汇在整个语义网络图中的重要度构造两函数参数w1(ci)、w2(ci),即可得词汇在整个文本中的地位和贡献度。

步骤5:根据步骤4中的两参数设置合适阈值提取文本中的特征词汇,即为代表文本主旨的特征词汇向量。

本发明有益效果是:

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、克服了信息增益方法只适合用来提取一个类别的文本特征的不足。

3、此算法具有更大的利用价值。

4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。

5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。

6、为后续的文本相似度与文本聚类技术提供良好的理论基础。

7、此方法着重在语义分析的角度来提取文本中的特征词汇,更符合人们的经验值。

8、融合了统计学方法,又综合了关键词在文本中的贡献度,构建的词汇语义网络模型图准确度更高。

9、在词汇语义网络模型中提取关键词,既考虑了邻近节点的密度,又考虑邻近节点边的权重,关键词的提取更好的符合经验值。

9、数据处理更加规范,易于词汇语义网络模型的生成。

10、在关键词的相关度计算过程中,设定了更加严苛的约束条件,构成的词

汇语义网络模型图更加符合实际情况。

附图说明

图1新的小世界网络模型实现文本特征的提取方法的结构流程图

图2中文文本预处理过程流程图

图3 n元语法分词算法图解

图4词汇语义网络模型图

具体实施方式

为了解决常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的问题,结合图1-图4对本发明进行了详细说明,其具体实施步骤如下:

步骤1:初始化文本语料库模块,对文本W的进行中文分词预处理,其具体描述过程如下:

综合分词和删除停用词技术,中文文本预处理过程流程图如图2。。

这里分词方法利用一种基于信息论中文自动分词算法,其具体分词和去停用词步骤如下:

步骤1.1:利用停用表对文本进行去停用词处理。

步骤1.2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:

把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。

步骤1.3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图3所示。

步骤1.4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:

根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为ni。即n条路径词的个数集合为(n1,n2,…,nn)。

得min()=min(n1,n2,…,nn)

在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小。

在统计语料库中,计算每个词的信息量X(Ci),再求解路径相邻词的共现信

息量X(Ci,Ci+1)。既有下式:

X(Ci)=|x(Ci)1-x(Ci)2|

上式x(Ci)1为文本语料库中词Ci的信息量,x(Ci)2为含词Ci的文本信息量。

x(Ci)1=-p(Ci)1lnp(Ci)1

上式p(Ci)1为Ci在文本语料库中的概率,n为含词Ci的文本语料库的个数。

x(Ci)2=-p(Ci)2lnp(Ci)2

上式p(Ci)2为含词Ci的文本数概率值,N为统计语料库中文本总数。

同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|

x(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现信息量,x(Ci,Ci+1)2为相邻词(Ci,Ci+1)共现的文本信息量。

同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1

上式p(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现概率,m为在文本库中词(Ci,Ci+1)共现的文本数量。

X(Ci,Ci+1)2=-P(Ci,Ci+1)2lnp(Ci,Ci+1)2

p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)

步骤1.5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:

有n条路径,每条路径长度不一样,假设路径长度集合为(L1,L2,…,Ln)。

假设经过取路径中词的数量最少操作,排除了m条路径,m

则每条路径权重为:

上式分别为第1,2到路径边的权重值,根据步骤1.4可以一一计算得出,为剩下(n-m)路径中第Sj条路径的长度。

权值最大的一条路径:

步骤2:给步骤1中分词结果的文本进行位置、词性加权处理,其具体描述如下:

αj代表位置权重,其赋值规则为:文本第一行是标题,赋予权值5;段首第一个词等于“摘要”,则赋予权值3;段首第一个词等于“关键字”或“关键词”,则赋予权值5;段首第一个词等于“结论”,赋予权值3;其它,每段首赋予权值1;

βk代表词性权重,其赋值规则为:现代汉语语法中,一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看,名词一般担当主语和宾语的角色,动词一般担当谓语的角色,形容词和副词一般担当定语的角色。词性的不同,造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β1、β2、β3和β4,且β1>β2>β3>β4,其值可以由专家指出。

步骤3:得到的文本词汇集合依据其语义相关度R(c1,c2)会出现聚合现象,构建词汇语义网络模型图,其具体计算过程如下:

基于《知网》的词汇相关度计算方法,文本特征词汇集合中的两两词汇间相关度计算公式为:

上式ρ(ICN)为两词汇本体概念共同的父节点密度,d(ICN)为两词汇本体概念共同的父节点深度,ρmax(S)为义原网状结构中对应父节点所在的树状结构中的最大节点密度值,dmax(S)为义原网状结构中对应父节点所在的树状结构中的树的度。N′=0为两词汇(c1,c2)间无特殊关系,N′>0为两词汇(c1,c2)间有特殊关系,a为由专家给定的特殊关系权重,a∈(0,1),α、β分别为对应的影响系数,α、β∈(0,1),这个可以由实验测出,α+β=1。

联合词汇在文本中的重要度、基于统计方法,构造词汇对文本影响函数y(ci),根据R1(c1,c2)的值,y(ci)需归一化处理:

即为

ni为词汇ci在文本中出现的频数,为文本词汇的总频数,NK为在满足下式约束条件下库中含有词汇ci的文本数,为库中所有文本的数量。

约束条件为:

ni·j为第j文本中词汇ci出现的频数,为第j文本中所有词汇出现的总频数。

综合y(ci)、R1(c1,c2),即可得语义相关度R(c1,c2)

ρ、σ分别为对应因子的影响系数,ρ、σ∈(0,1),ρ+σ=1,其指可以根据实验测出,一般ρ>σ,同理w、w′,不一样的是,也许w′≥w,这个要视具体情况而定。

利用上式构建词汇语义网络模型图,如图4。

步骤4:根据图中词汇在整个语义网络图中的重要度构造两函数参数w1(ci)、w2(ci),即可得词汇在整个文本中的地位和贡献度,其具体计算过程如下:

特征词汇的分支越多,词汇在整个文本中的地位和贡献度越大,可以通过下式计算词汇在整个语义网络图中的重要度;

为特征词汇ci直接子节点的个数,Nt为整个语义网络图中总节点个数。

计算特征词汇相邻边的平均权重w2(ci)

R(ci,cm)为ci与相邻词汇cm的相关度值,L为邻边数。

步骤5:根据步骤4中的两参数设置合适阈值提取文本中的特征词汇,即为代表文本主旨的特征词汇向量,其具体计算过程如下:

相关专家设定w1(ci)、w2(ci)能够满足合适阈值ε、ε′∈(0,1),提取满足下式关系的特征词汇;

wl(Ci)>ε

w2(ci)>ε′

只有同时满足上式两条件,则提取该关键词作为文本特征词汇。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/529635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

米4用linux刷机救转,小米4变砖之后如何刷机自救?大神教你小米4线刷救砖方法...

三:使用miflash工具刷机的步骤本工具适用于小米,华为,联想等手机品牌高通版本,不只是小米专用,教程仅供参考,看完一遍后再刷机。第一步:刷机工具安装1.下载小米手机刷机工具MiPhone2015731&…

android动态更新配置文件,Android如何动态修改Manifest文件

修改manifest文件Android Manifest.xml,添加相应的声明。在这里,我们需要将新定义的活动PrefsActivity注册到manifest文件。同前面一样,在Eclipse中打开AndroidManifest.xml文件会默认进入Eclipse提供的图形化编辑界面。单击Application选项卡…

com.android.phone已停止运行怎么解决方法,com.android.phone已停止运行怎么解决

在安卓手机上,不少用户都会遇过com.android.phone已停止的弹窗,尤其经常刷机的最明显。导致的原因实在太多,有刷机步骤不对的,乱改系统文件的,这里小编综合网上的情况以及自身经历,给广大安卓用户一个com.a…

android动画放大后缩小,Android 补间动画 scale(缩放)

今天又遇到了关于Android 动画方面的问题,免不了一番疯狂找资料,所幸解决了自己的问题,为了避免以后遇到同样的问题,再次到处找资料,于是决定写篇随笔记录下来,方便自己方便大家^_^;废话就不说了…

android 生成泛型对象,java android解析多层含有泛型对象的json数据获取不到泛型类型解析失败解决办法...

####问题描述* java 解析多层含有泛型对象的json数据获取不到泛型类型* 如果将泛型改成实际的类型就能正常解析* 如果不改成实际的类型泛型数据被解析成com.google.gson.internal.LinkedTreeMap* 如果强制转换报错:java.lang.ClassCastException: com.google.gson.internal.Lin…

android 机器人动画,Android 5.X与Android4.X版本机器人动画的区别以及制作动画的方法...

今天翻了下墙,解决了一直以来的疑惑问题:为什么Android5.0以及6.0的recovery版本,机器人动画怎么就只有一张图片?这个问题,我百思不得其解,看了很多网文,也只是有了个概念。请参考以下文档&…

android盒子smb,普通安卓盒子smb方法 - 怀旧游戏长廊 - A9VG电玩部落论坛 - Powered by Discuz!...

本帖最后由 slime525 于 2018-10-20 21:00 编辑1安卓下安装盒子伴侣一键自动安装Optware2win下安装Putty,记下盒子ip端口,账户密码分别是:root,toor。小写!3然后直接输入:ipkg-opt install samba就会自动下…

android .9编译,在Ubuntu 9.04下编译Android源码

一直都是刷官方的版本,准备自己编译一下刷机。首先是下载,Android的源码是托管在Linux Kernel的源码站点,所以版本工具是git。关于git的使用和安装请见我的另一篇文章《在Ubuntu Server上安装Git》。创建一个存放Andorid的目录,然…

android reshare.c病毒,恶意软件分析 URL链接扫描 免费在线病毒分析平台 | 魔盾安全分析...

META-INF/MANIFEST.MFtNDfEFTy~s{Cg\V/OxIl[Mf"JC E_UcB1$^x6"i]6U#3D5Tmw>20#&hG;bVl*XK]xJU"#k})ek?w&);ViFd0iCFvye{(jB9w%^!yEj2,DGAW|^8ws%bD*eQ6n]fI_w3_nP_gxWll)zf[}l[[Rpn7x7?vbxfuVzgOj^x^lZ,b;%TK7k^mro)AYQJ2o^sL/EDh"^qND9V|Gn(…

imeoptions android,软键盘小记Android:imeOptions

1.actionUnspecified 未指定,对应常量EditorInfo.IME_ACTION_UNSPECIFIED.2.actionNone 没有动作,对应常量EditorInfo.IME_ACTION_NONE3.actionGo 去往,对应常量EditorInfo.IME_ACTION_GO4.actionSearch 搜索,对应常量EditorInfo.IME_ACTION_SEARCH5.actionSend 发送,对应常量E…

android rn框架开发的例子,RN与安卓通信架构篇

本篇文章介绍的搭建Android与Rn之间的简易通信架构,需要了解通信的基本使用的同学可以参考下面的链接开篇先上图 - “简易版的通信架构图”RN与Android之间通信的架构图本架构实现的功能有:自定义通信规则,并以Json作为数据传输格式进行传输实…

android 查询所有图片和视频,Android系统详解之获取图片和视频的缩略图

从Android 2.2开始系统新增了一个缩略图ThumbnailUtils类,位于framework的android.media.ThumbnailUtils位置,可以帮助我们从mediaprovider中获取系统中的视频或图片文件的缩略图,该类提供了三种静态方法可以直接调用获取。1.static Bitmap c…

node将图片转换成html文件,node+puppeteer将整个网页html转换为图片并保存【滚动截屏】...

Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包,用来模拟 Chrome 浏览器的运行。demo只支持将简单不需要翻页,不需要登陆的页面转换为图片需要node环境,以及npm或cnpm包管理工具(自行百度)开始进入一个新的项目目录&#xff0…

html hover效果下拉个框,关于下拉菜单(CSS)中,“:hover”样式的设置问题?

各位大大,请帮忙解决一下这个问题,先谢谢!由于之前的代码不是全部帖出,可能造成一点信息误解。以下是针对这个问题另外写的代码:.nav {width: 50px;height: 50px;overflow:hidden;background-color: #09F;transition: …

计算机基础知识离线作业答案,浙大远程教育计算机离线作业1.计算机基础知识题...

浙大远程教育计算机离线作业1.计算机基础知识题第1章 计算机基础知识(单选题)这些题目必须做一遍,来自统考题库(期末考试题也多半出在这里),参考答案在另一个Word文档中(上传自己做的答案后才可以下载…)。据说,统考题库中大约有10,000测试题…

go 生成hash_go基础之map-写在前面(一)

为什么分析map在计算机编程语言当中,用的最多的数据结构估计就是map。map以他近乎o(1)的查找效率和修改效率让他在大多数场景下都比较受青睐。map的常规的实现方式都是hash其他数据结构,如java是hash红黑树,而我现在即将要分析的go的实现方式…

大学数学建模大赛是用计算机,北京大学第十届“江泽涵杯”数学建模与计算机应用竞赛试题...

消息来源:http://www.math.pku.edu.cn:8000/news/read.php?newsid8014A题:投篮问题投篮是篮球运动中一项关键性技术,是一项重要的得分手段。在篮球赛中有三种特殊的投篮方式,“三分球”、“两分球”和“一分球(罚篮)”。其中&…

dynamo方程怎么写_【简明自控】为什么特征方程如此重要

简明自动控制——为什么特征方程如此重要。热场视频:自平衡杆-双轴反作用轮倒立摆_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com顶个棍子!具有主动脚轮的全向移动机器人_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com我自行车怎么少…

用户计算机可以通过电话拨号,用户计算机可以通过大型局域网、小型局域网、无线连接、电话拨号和()等方式接入Internet。...

_在保险合同中,用于体现保险利益载体的保险对象条款,被称为()条款。何为C/H比?原料中的C/H比与原性能的关系是什么?选址意见书、规划条件、建设用地规划许可证、建设工程规划许可证的有效期为()福建木偶戏颇负盛名,以(…

和佳股份有没有纳米机器人_新高赛复赛入围项目(49)一种纳米硅质绝热材料及其制备方法...

点击上方“蓝字”关注我们“2020中国山东新旧动能转换高价值专利培育大赛”(简称“新高赛”)是由山东省市场监督管理局(知识产权局)主办,由山东省知识产权事业发展中心、知识产权出版社有限责任公司共同承办的以新旧动能转换高价值专利培育为主题的创新大赛。新高赛…