基于中文主观性知识库的句子主观性计算项目

ChineseZhuguanDectection

项目地址:https://github.com/liuhuanyong/ZhuguanDetection
Chinese Subjective Dectection based on subjective knowlegebase, 基于中文主观性知识库的句子主观性评定方法。

#项目介绍
主观性是中文舆情和文本挖掘一个必不可少的一项环节。
对于英文而言,我调研过textblob的主观性接口,对于输入一个句子,textblob用的是词语主观性词典+加权的打法,相应的介绍可以查看我的总结材料(documents下的pdf文件)
而针对目前github开源平台上还缺少有对中文句子主观性评定的接口,本项目将尝试弥补这一空缺。
本项目将从中文自身的特点出发,通过总结并挖掘中文句子主观性线索知识库和客观性线索知识库,提供一个面向中文句子的主观性判定方法。

主观性字典

  1. degree_words.txt:程度副词,221个
  2. deny_words.txt:否定副词,29个
  3. lianci_words.txt:连词,93个
  4. nengyuan_words.txt:能愿副词,719个
  5. pingjia_words.txt:评价词,6846个
  6. qingtai_words.txt:情态动词,29个
  7. rencheng_words.txt:人称代词,32个
  8. senti_words:情感词,2090个
  9. tanci_words:叹词,139个
  10. yiwen_words:疑问代词,26个
  11. yuqi_words:语气词,17个
  12. zhishi_words.txt:指示代词,64个
  13. zhuangtai_words.txt:状态词,49个
  14. zhuzhang_words.txt:主张词,235个

主观性计算规则

  1. 文本分句
  2. 计算每个句子的主观性。
  3. 每个句子主观性计算方式:主观线索词*主观线索词权重,做加权累加和平均
  4. 每个句子主观性求平均
  5. 输出文本主观性

使用方式:

from zhuguang import *
handler = ZhuguanDetect()
sent = '''你要分析的文本'''
score = handler.detect(sent)
print(score)

效果

content = '今天天气晴朗'
score = 0.0
**********************
content = '江龙船艇:台风“山竹”造成直接经济损失400万至500万'
score = 0.09375
**********************
content = '中华人民共和国万岁'
score = 0.200
**********************
content = '这两天经济不景气,恐怕这单子有得毁掉了'
score = 0.2092
**********************
content = '9月底美联储再次加息几乎板上钉钉,央行大概率小幅跟随加息,与此同时的定向降准对冲显得更为重要。预计10月前后可能再次实施定向降准措施。'
score = 0.237
**********************
content = '预计明后两天江西会有大到暴雨'
score = 0.36
**********************
content = '我喜欢你'
score = 0.767
*****************************

总结

1)本项目以词汇知识库的方式,通过总结归纳出主观性线索词,并加以规则进行计算。
2) 从上面的效果来看,还像是那么回事,但还有提升空间。
3) 主观性配合情感得分,相信能够在舆情分析上起到一定作用。
4)词库欢迎补充。send mail to: lhy_in_blcu@126.com

项目地址:https://github.com/liuhuanyong/ZhuguanDetection
If any question about the project or me ,see https://liuhuanyong.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480605.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如果你不小心打开了这篇文章,请你看完后关掉,不要转发,不要留言,不要问怎么了,不要说你还好吗,也不要给予任何问候。因为我还当,这里是那个三年前,只有陌生听众的地方。今天&#xf…

机器阅读(一)--整体概述

https://plmsmile.github.io/2019/03/30/54-mrc-models/ 主要包含:机器阅读的起因和发展历史;MRC数学形式;MRC与QA的区别;MRC的常见数据集和关键模型 发展动机 传统NLP任务 1) 词性分析 part-of-speech tagging :判断词…

论文浅尝 | 用图网络做小样本学习

链接: https://arxiv.org/abs/1711.04043本文提出了用 GNN(GraphNeural Network) 来解决 Few-Shot Learning 场景的分类问题。在 Few-Shot Learning 中,每个类别的训练样本数据较少,如果直接训练一个多分类模型,会由于每个类别的样…

10种C++排序算法

文章目录1.插入排序2.冒泡排序3.选择排序4.希尔排序5.归并排序6.快速排序6.1.快速排序(改进)7.堆排序8.计数排序9.桶排序9.1.桶排序(改进)10.基数排序题目:LeetCode 912. 排序数组(10种排序) 下…

史上最强Dubbo面试28题答案详解:核心功能+服务治理+架构设计等

1.Dubbo是什么? Dubbo 是一个分布式、高性能、透明化的 RPC 服务框架,提供服务自动注册、自动发现等高效服务治理方案, 可以和 Spring 框架无缝集成。 RPC 指的是远程调用协议,也就是说两个服务器交互数据。 2.Dubbo的由来&…

文档主题分析项目

TopiCluster 基于Kmeans与Lda模型的多文档主题聚类,输入多篇文档,输出每个主题的关键词与相应文本,可用于主题发现与热点分析 。 项目地址:https://github.com/liuhuanyong/TopicCluster If any question about the project or me ,see https://liuhuanyong.github…

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡

一只小狐狸带你解锁 炼丹术&NLP 秘籍正文来源:机器之心前言要获得优秀的模型,首先需要清洗数据。这是一篇如何在 Python 中执行数据清洗的分步指南。在拟合机器学习或统计模型之前,我们通常需要清洗数据。用杂乱数据训练出的模型无法输出…

深度学习技术在机器阅读理解应用的研究进展

深度学习解决机器阅读理解任务的研究进展:https://blog.csdn.net/malefactor/article/details/52832134 深度学习技术在机器阅读理解应用的研究进展:https://www.imooc.com/article/30060 /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 …

论文浅尝 | 基于开放世界的知识图谱补全

Citation: Baoxu Shi and Tim Weninger (2017). Open-World Knowledge Graph Completion 6, AAAI 2018传统的知识库补全算法如TransE等都是基于Close world assumption 的,也是就说补全的实体必须在知识图谱内。然而事实上大规模的知识图谱是一直进化的,…

CCKS2018参会总结项目

CCKS2018Summary 项目地址:https://github.com/liuhuanyong/CCKS2018Summary self summary after attending ccks2018 (2018全国知识图谱与语义计算大会) 介绍 全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic C…

快速排序quicksort算法优化

1.基本想想 快速排序使用分治的思想 通过一趟排序将待排序列分割成两部分,其中一部分所有元素均比基准大,另一部分均比基准小 分别对这两部分元素继续进行排序,以达到整个序列有序 2.快排的步骤 1.选择基准 在待排序列中,按…

阿里P8架构师谈:Dubbo的详细介绍、设计思路、以及4大适用场景

Dubbo是什么? Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。 简单的说,dubbo就是个服务框架,如果没有分布式的需求,其实是不需要用的,只有…

巨省显存的重计算技巧在TF、Keras中的正确打开方式

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:苏剑林(来自追一科技,人称“苏神”)前言在前不久的文章《BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)》中介绍了一个叫做“重计算”的…

论文浅尝 | 用可微的逻辑规则学习完成知识库推理

Citation:Fan Yang,Zhilin Yang, William W. Cohen. Differentiable Learning of Logical Rules for Knowledge Base Reasoning. ICLR 2017.动机本文提出了一个可微的基于知识库的逻辑规则学习模型。现在有很多人工智能和机器学习的工作在研究如何学习一阶逻辑规则&…

一点关于cloze-style问题的简谈

一个小任务:给出一个问题和诺干个候选句子,从候选句子中选出答案,有没有好的实现方案? 一个小任务:类似于:“中国最大的内陆湖是哪个?”给出候选句子1.”中国最大的内陆湖,就是青海湖…

中文词语概念上下位图谱项目

HyponymyExtraction 项目地址:https://github.com/liuhuanyong/HyponymyExtraction HyponymyExtraction and Graph based on KB Schema, Baike-kb and online text extract, 基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位…

POJ 1007 DNA排序解题

题目链接 http://poj.org/problem?id1007 C代码实现 #include<string> #include<iostream> using namespace std; struct DNAdata //定义结构体 {char name[51];double sum;DNAdata(){sum 0;} }; void swapDNA(DNAdata *a, DNAdata *b) {DNAdata tempDNA;tempDN…

DeepMatch:用于推荐广告的深度召回匹配算法库

一只小狐狸带你解锁 炼丹术&NLP 秘籍前言今天介绍一下我们的一个开源项目DeepMatch&#xff0c;提供了若干主流的深度召回匹配算法的实现&#xff0c;并支持快速导出用户和物品向量进行ANN检索。非常适合同学们进行快速实验和学习&#xff0c;解放算法工程师的双手&#xf…

史上最全Spring面试71题与答案

1.什么是spring? Spring是个java企业级应用的开源开发框架。Spring主要用来开发Java应用&#xff0c;但是有些扩展是针对构建J2EE平台的web应用。Spring框架目标是简化Java企业级应用开发&#xff0c;并通过POJO为基础的编程模型促进良好的编程习惯。 2.使用Spring框架的好处…

论文浅尝 | 近期论文精选

本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接&#xff0c;感谢 PaperWeekly&#xff01;TheWebConf 2018■ 链接 | https://www.paperweekly.site/papers/1956■ 解读 | 花云程&#xff0c;东南大学博士&#xff0c;研究方向为自然…