ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存

ChineseSemanticKB

ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

项目地址

https://github.com/liuhuanyong/ChineseSemanticKB

项目介绍

语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在:
1、具有落地场景的自然语言处理任务都是业务高度相关,一个业务需求刚进去,需要解决的是业务的词汇问题,无基础词库,无项目冷启动;
2、规则和正则启动下的工业级应用,规则的扩展、泛化都需要底层的词汇网络做支撑;
3、目前包括搜索、问答、舆情监控、事件分析等应用,与标签体系的运作关系密切,而这与先验的底层词汇库依赖性很强;
4、自然语言场景越来越关注推理层面,即所谓的“认知”层面,认知背后的各种逻辑关系库,是驱动这一决策的根本途径;
5、当前,面向中文开源词库的工作存在少量、分散的状态,无论从规模,还是质量,都需要进一步聚合;
因此,我从过往的开源工作中进一步抽离和整理,形成了中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,用于相关下游任务。

项目放于dict当中,可直接下载,不建议二次建库共享,尊重开源。

词库的类别

词库类型词库规模词库举例词库应用
抽象关系库346,048座椅,抽象,家具事件抽象与泛化,人民币贬值到货币贬值,再到美元贬值,可支持查询扩展、推荐等任务
反义关系库34,380开心@苦恼可用于句子改写,开心改苦恼,支持数据增强,句子生成
同义关系库424,826开心@高兴可用于查询扩展、数据增强,也可结合抽象关系库完成推荐等任务
简称关系库136,081北京大学@北大可用于句子标准化、句子改写、实体消歧等任务
程度副词222极其,2.0可用于情感强度计算,带情感色彩的句子生成
否定词586不,无,没有可用于情感计算等任务
节日时间词54春节、五四节可用于时间词识别等任务
量比词7占比、环比、同比可用于金融领域指标类数据提取任务
数量介词24大约、达到、超过可用于金融事件抽象或主干化的搭配词处理任务
停用词3,861?、的、着常规的文本特征提取等任务
修饰副词222所、有所可结合程度副词完成情感强度计算等任务
情态词77肯定、应该、大概可用于句子主观性计算、舆情与可信度计算

总结

1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库,总规模数目一百余万; https://github.com/liuhuanyong/ChineseSemanticKB
2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库,在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;
3、中文常用语义常用词典,均来源于公开文本+人工整理+机器抽取形成,其中若有质量不高之处,可积极批评指正;
4、中文开源事业还是要坚持做下去,尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。

If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480289.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

POJ 1577 Falling Leaves(二叉查找树)

题目链接:http://poj.org/problem?id1577 题目大意: 二叉查找树按照叶子节点,从下往上抹去该树,给出抹除字符序列,求该二叉树,并前序打印 解题思路: 最后抹除的是根节点,把抹除的…

最新阿里内推高级Java面试题

阿里Java一面题目 osi七层网络模型,五层网络模型,每次层分别有哪些协议 死锁产生的条件, 以及如何避免死锁,银行家算法,产生死锁后如何解决 如何判断链表有环 虚拟机类加载机制,双亲委派模型&…

智能投顾-用户画像、投资组合选择、推荐引擎、大数据挖掘

智能投顾面面观之AI慕课 原文地址:https://www.jianshu.com/p/437c895794e0?utm_campaignharuki&utm_contentnote&utm_mediumreader_share&utm_sourceweixin “最后编辑于 2017.11.14 21:49”>2017.11.13 11:47* 自我介绍 大家好,我是…

论文浅尝 | KG Embedding with Iterative Guidance from Soft Rules

论文链接:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16369/16011发表会议:AAAI 2018摘要知识图谱表示学习旨在将实体和关系嵌入到向量空间,同时保留知识图谱的内在结构。传统方法主要基于关系三元组学习知识图谱的嵌入…

人工智能轨道交通行业周刊-第69期(2023.12.11-12.24)

本期关键词:集装箱智能管理、智慧工地、智能应急机器人、车辆构造、大模型推理 1 整理涉及公众号名单 1.1 行业类 RT轨道交通人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟VSTR铁路与城市轨道交通RailMetro轨…

可信知识实证在UGC时代情报应用中的思考与探索

可信知识实证在UGC时代情报应用中的思考与探索 在当前互联网高度发达、可发布信息源和信息渠道猛增且多元化的大背景下,信息形态变得广泛且多模。从传统的纸质文档,到中期的电子结构化文档、电子非结构化文本,再到如今的语音信息、图片信息、…

Google | 创造Youtube单次上线最高收益!解决推荐中的信息茧房困境

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一下Google在WSDM 2019的一篇将强化学习应用于Youtube推荐的论文,作者宣称是获得了Youtube近两年来单次上线的最高收益。文章仔细介绍了RL在Youtube上的实践方案细节…

POJ 2785 有多少种4个数相加等于0的方案(二分查找 or hash)

文章目录1.二分查找法1.1 思路:1.2 AC代码2.hash查找法2.1 思路:2.2 Wrong Answer 代码2.3 Time Limit Exceeded 代码2.4 偷懒失败,hash_map在poj中不存在2.5 哈希表二叉查找树(超时)2.6 AC代码(哈希数组法…

2018最新阿里Java技术三面(已拿Offer):JVM+高并发性能+单点登录+微服务

一面 1.自我介绍 2.谈一个你觉得你学到最多的项目,使用了什么技术,挑战在哪里 3.Spring的bean的作用域?(比如:singleton,prototype等) 4.Spring的IOC实现原理?没有无参构造函数能…

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

动机在远程监督任务中,除了语料的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。当前研究的另一个问题是,句子特征抽取器采用随机初始化的方法&#xff0…

事理逻辑为核心的自然语言处理理论实践与工业探索项目

项目介绍 知识推理是人工智能的高级阶段,基于已有知识,运用知识推理机技术,完成限定领域决策行为,能够在充分减少人为劳动的同时,产生经济效益。例如,基于已知知识进行知识推理,采用如事件驱动传…

关于知识图谱,我们接下来该研究什么?斯坦福教授们给出了答案

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒(南京大学硕士生,知识图谱方向)编 | 北大小才女小轶本文整理了斯坦福大学 CS 520 知识图谱研讨会课程的第 10 集的内容,主要是关于知识图谱未来的研…

POJ 2967 (水题,考察putchar()按位输入)

题目链接:http://poj.org/problem?id2967 题目大意: 给定系列长度,求是否有规定的三角形 (不是所有的都可以组成三角形&&有至少一种组合可以组成三角形)-> 打印通过,否则打印拒绝。 题目有时…

四大银行(工建农中)大数据进展如何?

原文地址:https://cloud.tencent.com/developer/article/1052576 中国建设银行中国建设银行信息技术管理部资深经理林磊明▼▼1、银行压力越来越大从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大…

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

链接:https://arxiv.org/pdf/1808.06876.pdf动机Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好的神经网络做出错误的判断,并且可能以很高的置信度输出。很多…

BAT面试进阶:最全Memcached面试30题含答案

【memcached面试题目】 Memcached服务在企业集群架构中应用场景? Memcached服务在不同企业业务应用场景中的工作流程? Memcached服务分布式集群如何实现? Memcached服务特点及工作原理是什么? Memcached内存管理机制原理? Memcached的…

一份从入门到精通NLP的完整指南 | NLPer

该小博主介绍本人:笔名zenRRan,方向自然语言处理,方法主要是深度学习。未来的目标:人工智能之自然语言处理博士。写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶的小牛找到…

论文浅尝 | 基于知识库的类型实体和关系的联合抽取

链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdfGitHub项目地址:https://github.com/INK-USC/DS-RelationExtraction动机现有的利用远程监督进行实体关系抽取的方法中存在以下三个问题:1、依赖事先训练的命名实体识别工具,而…

Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引

CognitiveInference Cognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在…

POJ 2255 Tree Recovery(已知前序中序,求后序)

1. 题目链接:http://poj.org/problem?id2255 2. 题目大意: 给定二叉树的前序和中序序列,输出其后序序列 3. 思考过程: 4. AC代码 /*** description: 给出前序和中序二叉树节点序列,求后序二叉树节点输出序列* auth…