基于在线百科知识库的多义词词义消歧项目

WordMultiSenseDisambiguation

WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多义项获取与特定句子词语语义消歧.
项目地址:https://github.com/liuhuanyong/WordMultiSenseDisambiguation

项目介绍

一词多义是中文信息处理中一个特别常见的现象,经典的"苹果是水果还是公司"问题一直是困扰大家的一个实际问题,本项目将对这一问题进行尝试,提出相应的技术路线,并结合在线百度百科获取义项,经过义项聚类,义项语义表示,语义相似度计算等方式,对特定语句中的词语语义判定进行尝试.

项目思路

以下是本项目的技术路线图,本项目需要加载预训练词向量,文件太大,没有给出,各位可自行添加.

image

项目效果

python wordsense_detect.py,运行中文词语语义消歧脚本.
1, 指定需要进行词义消歧的词语word
2, 指定需要极刑词义消歧词语所在的句子

例子:

enter an sent to search:苹果发布新产品了
enter an word to identify:苹果
sent_embedding_res:
[('公司', 0.4309597564421702), ('物品', 0.39608141793731144), ('歌曲', 0.37937766923800026)]
wds_embedding_res:
[('歌曲', 0.37504538578806157), ('果树', 0.3572757418314274), ('物品', 0.3479904634206044)]
****************************************************************************************
enter an sent to search:最近连降大雨,种苹果的果农损失惨重
enter an word to identify:苹果
sent_embedding_res:
[('角色', 0.23535153116801097), ('果树', 0.22943442305363207), ('歌曲', 0.21173595044037458)]
wds_embedding_res:
[('物品', 0.24051958779817326), ('人物', 0.20978448328069915), ('果树', 0.20251385230085645)]
****************************************************************************************
enter an sent to search:小米上市了
enter an word to identify:小米
sent_embedding_res:
[('公司', 0.3901701093980004), ('主角', 0.365504574048325), ('母亲', 0.29381689724140836)]
wds_embedding_res:
[('公司', 0.4342258273055104), ('动物', 0.3777650235830843), ('精灵', 0.35332623481158437)]
****************************************************************************************
enter an sent to search:小米和玉米放在一起煮粥会很好吃
enter an word to identify:小米
sent_embedding_res:
[('特色小吃', 0.5558542842056945), ('草本', 0.4466804204905287), ('犬', 0.291238012852016)]
wds_embedding_res:
[('特色小吃', 0.3718067960513453), ('草本', 0.26636323574527104), ('犬', 0.20866931168592512)]
****************************************************************************************
enter an sent to search:小辣椒开花了,很好看
enter an word to identify:小辣椒
sent_embedding_res:
[('茄科', 0.4904365572878336), ('植物', 0.2402877631447203), ('品牌', 0.10335075207027959)]
wds_embedding_res:
[('茄科', 0.5541452367707211), ('植物', 0.2990925606278592), ('角色', 0.19372604287529646)]
****************************************************************************************
enter an sent to search:小辣椒,三星,苹果都是特别畅销的手机品牌
enter an word to identify:小辣椒
sent_embedding_res:
[('品牌', 0.7590410310876141), ('歌曲', 0.5101141696340716), ('女友', 0.4695221792163845)]
wds_embedding_res:
[('品牌', 0.5786736513059438), ('植物', 0.407433638956153), ('角色', 0.34862850174224996)]
****************************************************************************************

总结

1,本项目提出并实现了一个依靠在线百科知识库的特定句子下词语语义消歧的方法.
2,本项目由于需要在线访问百度百科,执行效率不如访问本地知识库快.
3,本路线中有三个核心点,一个是对义项的聚类,二是对义项的语义表示,三是词语上下文与义项语义表示相似度的计算.
4,义项的聚类使用的是预训练词向量相似度阈值的方法,进行连续聚类.这个方法可以有更好的方法代替.
5,义项的语义表示由其所对应词条中的keywords与description中的描述信息经过关键词提取而来,这个可以尝试从对应的infobox结构化信息进行加强.
6,语义相似度的计算用了两种方法,一种是sent_embedding,即词向量做avg后直接cosine相似度,另一种是wds_embedding,做的是jaccard的一类变体相似度做的.这两这两种方法都有改善的空间.
7,将百科,HOWNET等语义知识库加入,对第二个核心点进行加强,可能会带来性能的提升.

any question?
请联系我:
邮箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然语言处理项目: https://liuhuanyong.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文本查询TextQuery类文件编写

读取用户指定的任意文本文件,然后允许用户从该文件中查找单词。查询的结果是该单词出现的次数,并列出每次出现所在的行。如果某单词在同一行中多次出现,程序将只显示该行一次。行号按升序显示,即第 7 行应该在第 9 行之前输出&…

什么是小样本学习?这篇综述文章用166篇参考文献告诉你答案

一只小狐狸带你解锁 炼丹术&NLP 秘籍来源:机器之心什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。数据是机器学习领域的重要资源,在数据缺少的…

CCKS 2018 | 前沿技术讲习班

时间:8月14日-15日地点:南开大学泰达学院大报告厅日程安排时间主题特邀讲者8月14日上午(8:30 – 10:00)Deep Knowledge Graph Reasoning(10:30-12:00)Exploiting and Reasoning With Open Knowledge GraphW…

Java必考题目之JVM面试题目和答案

JVM内存模型 首先我们来了解一下JVM的内存模型的怎么样的: 1.堆:存放对象实例,几乎所有的对象实例都在这里分配内存 堆得内存由-Xms指定,默认是物理内存的1/64;最大的内存由-Xmx指定,默认是物理内存的1/4…

听说读论文也有trick?这篇文章告诉你深度学习论文阅读最佳姿势

2020年的今天,我们的专业是deep learning,但是我们要keep learning,每天早上一睁眼,arxiv每天更新上百篇的论文,著名微博博主爱可可-爱生活保持也在推送最新的deep learning资讯和论文。我们不缺少计算机视觉论文&…

屏幕Screen类文件编写

注意&#xff1a; inline 定义的函数必须放在 .h 文件中&#xff0c;否则编译器报错&#xff01; 其次&#xff0c;注意写全称在 .h 里&#xff0c;如 std:: screen.h 头文件 #ifndef SCREEN_H #define SCREEN_H #include<string> #include<iostream>class Scre…

机器翻译自动评估-BLEU算法详解

机器翻译自动评估-BLEU算法详解 版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/qq_31584157/article/details/77709454 </div><link rel"stylesheet" href"https://csdnimg.cn/re…

论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

本文转载自公众号&#xff1a;机器之心。选自arXiv作者&#xff1a;Yue Zhang、Jie Yang机器之心编译参与&#xff1a;路、王淑婷近日&#xff0c;来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文&#xff0c;介绍了一种新型中文命名实体识别方法&#xff0c;该方法利…

最全MySQL面试60题和答案

Mysql中有哪几种锁&#xff1f; 1.表级锁&#xff1a;开销小&#xff0c;加锁快&#xff1b;不会出现死锁&#xff1b;锁定粒度大&#xff0c;发生锁冲突的概率最高&#xff0c;并发度最低。 2.行级锁&#xff1a;开销大&#xff0c;加锁慢&#xff1b;会出现死锁&#xff1b;…

中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)

ChineseHumorSentiment chinese Humor Detection or Computation based on corpus and nlp methods, 基于语料库与NLP方法的中文幽默计算与检测项目 项目地址:https://github.com/liuhuanyong/ChineseHumorSentiment 项目介绍 幽默多指令人发笑的品质或者具有发笑的能力&…

账户Account类文件编写(static成员使用)

static类成员是该类所有成员共享一份的数据&#xff0c;一处修改了&#xff0c;全部变更&#xff1b; static成员函数只能调用static成员数据&#xff1b; static const整形int&#xff0c;char&#xff0c;可以在类内声明和初始化&#xff0c;类外不必再声明&#xff08;跟编译…

百度机器阅读理解比赛赛后总结

百度机器阅读理解比赛赛后总结 <!-- 文章内容 --><div data-note-content"" class"show-content"><div class"show-content-free"><p>2018年4-5月间&#xff0c;笔者参加了百度举办的<a href"https://links.jia…

课程 | 《知识图谱》第二期重磅来袭!

参团&#xff0c;咨询&#xff0c;查看课程&#xff0c;请点击【阅读原文】↓↓

All in Linux:一个算法工程师的IDE断奶之路

一只小狐狸带你解锁 炼丹术&NLP 秘籍在合格的炼丹师面前&#xff0c;python可能被各种嫌弃前不久卖萌屋的lulu写了一篇vim的分享《算法工程师的效率神器——vim篇》&#xff0c;突然想起来自己也有一篇攒了几年灰的稿子&#xff0c;在小伙伴的怂恿下跟小夕强行翻新了一下&a…

2019 阿里Java 4轮面试题,含必考题答案参考!

Java一面 hashmap源码问题 HashMap底层结构 put操作讲一下 HashMap、HashMap如何保证线程安全、ConcurrentHashMap JVM有哪些回收算法&#xff0c;对应的收集器有哪些&#xff1f; jvm g1的内存模型讲一下&#xff0c;G1和CMS收集器的区别&#xff1f;以及G1收集器对CMS的改…

技术动态 | 自底向上构建知识图谱全过程

本文转载自公众号&#xff1a;阿里技术。“The world is not made of strings , but is made of things.”——辛格博士&#xff0c;from Google.知识图谱&#xff0c;是结构化的语义知识库&#xff0c;用于迅速描述物理世界中的概念及其相互关系&#xff0c;通过将数据粒度从d…

数据结构--单链表single linked list数据结构C++实现

2018年2月开始学习的 C Primer&#xff0c;到今天2019年3月已经整整一年了&#xff0c;非常感谢在一起交流的小伙伴&#xff0c;是你们的无私帮助和分享使得我能跨越很多技术的坑&#xff0c;感谢你们&#xff01;期待我们2019年一起拿下《数据结构与算法》以及Python入门。 …

搜索中的 Query 理解及应用

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&#xf…

GAN原理,优缺点、应用总结

<h1 class"csdn_top" id"gan原理优缺点应用总结"><a name"t0"></a>GAN原理&#xff0c;优缺点、应用总结</h1> <br> 本文已投稿至微信公众号–机器学习算法全栈工程师&#xff0c;欢迎关注</article><p&…

java程序员进阶必读书单

以下是我推荐给Java开发者们的一些值得一看的好书&#xff0c;从java基础开始到高级&#xff0c;以及从高级进阶到架构等的书单。 基本都是经典之作&#xff0c;可以利用工作闲暇的时间&#xff0c;系统阅读。 本文作者&#xff0c;优知学院创始人 陈睿 优知学院是IT人在线进…