面向中文自然语言处理的60余类系统开源实践项目与工业探索索引

项目介绍

面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处理入门学习者的一个较为全面的学习资源,欢迎大家使用,并提出批评意见。

项目地址: liuhuanyong.github.io

工业项目

项目类型中文名称技术点
技术博客技术落地与探索博客技术博客、技术探索与应用实践
技术公众号数地工场技术文章面向事理图谱、知识库构建、社会计算等技术落地探索
现代打油诗集现代诗集《听说》65首现代诗集,打油诗
自然语言处理语义平台数地工场信息抽取、舆情分析、语义计算、信息采集类、问句解析类api
7*24小时实时抽象事理学习、搜索与关联推理系统学迹实证学习,信息检索、问答搜索,知识推理
寻链系统事理图谱Demo前因后果模式的搜索展示
全行业实例事理搜索与关联推理系统数地搜搜实时系统,事理应用,事件追踪,事件检索
在工业落地过程中与业界共享的图谱数据 开放知识图谱资源知识库数据,知识图谱,开放共享

实践项目


学习心得

项目名称中文名称项目技术点
KnowledgeGraphSlides知识图谱CCKS会议报告合集(2013-2018)知识图谱, 学习资源
CCKS2018SummaryCCKS2018会议总结知识图谱,个人心得
CCL2018SummaryCCL2018参会总结自然语言处理,心得

语言资源构建

项目名称中文名称项目技术点
ChineseSemanticKB中文处理的12类、百万规模的语义常用词典中文处理的12类、百万规模的语义常用词典,支持句子扩展、转写、事件抽象与泛化
MiningZhiDaoQACorpus知道类问答社区数据集语言资源库,语料库,580万问题,983万问答对
CausalCollocation频繁因果词对库语言资源库,因果对
ChineseNLPCorpus中文自然语言处理处理用语言资源语言资源库,语义库,常用词典, 语言资源观, 语料库
SentimentWordExpansion情感词扩展SOPMI
BaikeInfoExtraction百科信息抽取Urllib,xpath
SougouWordCollector搜狗词库自动构建Urllib,Scrapy
BaikeKnowledgeSchema百科知识体系构建Urllib,xpath,递归,知识库本体概念

自然语言处理基本组件

项目名称中文名称项目技术点
WordSegment分词HMM, MAXCUT,Ngram
HuanNLP自然语言处理组件HMM, maxent, CRF
Pinyin2Chinese拼音转文字Trie树,HMM, bigram
QueryCorrection查询纠错edit-distance
ChineseCixing中文词形查询字形,音形
ChineseAntiword中文反义词查询反义词

信息抽取

项目名称中文名称项目技术点
WordMultiSenseDisambiguation中文多义词词义消歧百科知识库,词义语义表示,词义语义相似度计算
TextFeatureExtraction文本特征提取IG,CHI ,DF,MI
WordCollocation搭配抽取MI
KeyInfoExtraction关键信息提取TFIDF,TextRank
EventTriplesExtraction事件三元组提取dependency parser

知识图谱与事理图谱

项目名称中文名称项目技术点
EventKGNELL学迹事理实时知识库终身学习事件知识库,实时学习,事件概念,事理逻辑,语言资源
AbstractKnowledgeGrap抽象知识图谱抽象知识图谱,抽象实体,抽象状态,抽象动作
GoodsKG电商商品概念与销售知识图谱商品概念,商品类知识
ZhidaoChatbot基于问答社区的逻辑知识问答问答社区,逻辑问答
EventPredictBasedOnEG基于事理图谱的未来事件预测事理图谱,事件预测
QAonMilitaryKG军事知识图谱与问答项目知识图谱,军事,基于模板问答方式
TravelKnowledgeGraph出行知识图谱路径规划,推荐,知识模型
PersonRelationKnowledgeGraph中文人物关系图谱bootstrapping, 远程监督, 训练数据回标, 关系抽取
CrimeKgAssitant法律罪行智能助手知识图谱, 智能预判, 自动问答
QASystemOnKG医疗知识图谱与自动问答知识图谱构建及自动问答
ComplexEventExtraction复合事件图谱复合事件,条件事件、反转事件抽取
CausalityEventExtraction因果事件图谱因果图谱,因果事件抽取
SequentialEventExtration顺承事件图谱动宾短语提取,事件图谱
LanguageKnowledgeGraph语言政策知识图谱Neo4j,Echarts,D3js
HyponymyExtraction上下位关系图谱模式匹配,上下位概念表示
MusicLyricChatbot歌词对对碰es搜索,歌词知识库

文本挖掘与社会计算

项目名称中文名称项目技术点
IdealWordCloudKit自定义形状词云项目wordcloud, tfidf, 可视化
WeiboIndexSpyder微博指数采集selenium,xpath
BaiduIndexSpyder百度指数采集xpath,selenium
AliIndexSpyder阿里指数采集selenium,xpath
DocSentimentAnalysis基于句法依存的情感分析Template, Dependencyparser
LearningBasedSentiment基于深度学习的情感分析CNN,RNN,ML
TextGrapher文本结构化图谱表示EventExtraction,知识表示
ImportantEventExtractor文本重要性计算textrank
ZhuguanDetection文本主观性计算subjective knowledge base
SentenceSimilarity句子相似度计算distance, hash, haiming ,eidtdistance
TopicCluster文本话题聚类LDA,Kmeans
EventMonitor特定事件追踪新闻采集,事件监测架构,scrapy
PoemMining中国古代诗词挖掘语料库构建,文本挖掘
LawCrimeMining司法文本挖掘语料库构建,文本挖掘
ChineseHumorSentiment中文幽默情绪计算语料库构建,幽默分类与情绪计算
LanguagePlatform集成自然语言处理技术的语言平台Neo4j,Echarts,Django

深度学习与语义表示

项目名称中文名称项目技术点
ChineseTextualInference中文文本蕴含/推理Textual entailment, keras, 文本分类
SiameseSentenceSimilaritysiamese相似问句匹配siamese lstm network, keras, 文本分类
MedicalNamedEntityRecognition中文电子病例命名实体识别keras, bi-lstm-crf
ChineseEmbedding中文向量大全(字符向量、词向量、拼音向量、依存向量、词性向量)SKIP-GRAM,Co-Matrix
Word2Vector词向量表示CBOW, SKIP-GRAM,Co-Matrix
Sentence2Vector句子向量表示CBOW
Seq2SeqTranslation端到端的翻译模型keras, lstm

作者简介

刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。目前主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余个,在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。

邮箱:lhy_in_blcu@126.com

地址:北京市海淀区中关村南四街4号

github:https://github.com/liuhuanyong


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479228.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android官方开发文档Training系列课程中文版:分享文件之分享一个文件

原文地址:http://android.xsoftlab.net/training/secure-file-sharing/share-file.html 一旦APP设置通过URI的方式共享文件,你需要响应其它APP请求这些文件的请求。响应这些请求的一种方式是,在服务端APP上提供一个文件选择接口,…

大众点评搜索基于知识图谱的深度学习排序实践

1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜索)…

论文浅尝 \ 联合知识图谱实例和本体概念的通用表示学习

论文笔记整理:周虹廷,浙江大学研究生。研究方向:知识图谱,图表示学习等。论文链接:http://web.cs.ucla.edu/~yzsun/papers/2019_KDD_JOIE.pdf本文是发表在KDD 2019上的关于知识图谱表示学习的论文。现有知识图谱表示模…

手握顶会顶刊论文,自信满满面试算法岗竟被刷?

2020国内深度学习框架领域百花齐放。各大公司也都陆续推出了自己的框架,大大推动了深度学习的发展。深度学习俨然已经渗入到我们生活中的每个角落,给生活带来极大便利。深度学习能够针对生产生活所面临的复杂问题,给出高准确率、操作简易、成…

爬取热门网站的热榜,集中展示

爬取热门网站的热榜,集中展示;Integrate and display hot billboard or ranked topic from hot Chinese websites 抓取知乎热榜数据存入列表 #!/usr/bin/env python # encoding: utf-8__author__ HZTimport requests import re from bs4 import Beaut…

Android官方开发文档Training系列课程中文版:分享文件之请求一个共享文件

原文地址:http://android.xsoftlab.net/training/secure-file-sharing/request-file.html 当APP需要访问一个被其它APP所共享的文件时,这个APP通常需要发送一个请求给共享文件的那个APP(服务端),在大多数的情况下,这个请求会启动…

LeetCode 110. 平衡二叉树(二叉树高度)

1. 题目 给定一个二叉树,判断它是否是高度平衡的二叉树。 本题中,一棵高度平衡二叉树定义为: 一个二叉树每个节点 的左右两个子树的高度差的绝对值不超过1。 示例 1: 给定二叉树 [3,9,20,null,null,15,7]3/ \9 20/ \15 7 返回 true 。…

人物志 | 美团技术委员会前端通道主席洪磊:爱折腾的斜杠青年

洪磊,2013年加入美团,目前是美团外卖事业部终端组的负责人,也是美团技术委员会前端通道主席。在加入美团之前,洪磊的职业生涯可以用“跌宕起伏”来形容。他就读于中南财经政法大学,曾任职于雅虎中国,先后担…

论文浅尝 | 可建模语义分层的知识图谱补全方法

本文转载自公众号:PaperWeekly。论文作者:蔡健宇,中国科学技术大学,研究方向:知识图谱近些年,知识图谱(Knowledge Graph)在自然语言处理、问答系统、推荐系统等诸多领域取得了广泛且…

美团背后的商业模式是什么?后疫情时代该走向何方?

文 | King James知乎本文已获作者授权,禁止二次转载2020年的疫情,让10年前的一部剧再次进入人们的视线中,那就是《我的团长我的团》传统社区团购和各大互联网巨头都广发英雄帖招聘社区团购的团长,感觉回到了10年前那场“百团大战”…

Android官方开发文档Training系列课程中文版:分享文件之获取文件信息

原文地址:http://android.xsoftlab.net/training/secure-file-sharing/retrieve-info.html 之前的课程讲述了客户端APP试图与含有文件的URI一同运行,APP可以请求服务端APP的文件信息,包括文件的数据类型以及文件的大小。这些数据类型可以帮助…

LeetCode 783. 二叉搜索树结点最小距离(中序遍历)

1. 题目 给定一个二叉搜索树的根结点 root, 返回树中任意两节点的差的最小值。 示例:输入: root [4,2,6,1,3,null,null] 输出: 1 解释: 注意,root是树结点对象(TreeNode object),而不是数组。给定的树 [4,2,6,1,3,null,null] 可表示为下图…

Kubernetes 1.20 版本开始将弃用 Docker,是时候拥抱 Containerd 和 Podman 了!

Kubelet 中对 Docker 支持被弃用,并将在以后的版本中删除。Kubelet 使用一个名为 dockershim 的模块,该模块实现了对Docker的 CRI 支持,在此PR后续版本将删除dockershim。 Kubectl 弃用 --delete-local-data 参数。 名词解释 上面中提到两个名…

开源开放 | OpenKG 更新发布新冠概念、防控和流行病等多个知识图谱

近日,OpenKG 继续更新发布多个新冠知识图谱,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱 V1.1。OpenKG 发布的所有新冠知识图谱都…

客户端单周发版下的多分支自动化管理与实践

背景 目前,互联网产品呈现出高频优化迭代的趋势,需求方希望尽早地看到结果,并给予及时反馈,所以技术团队需要用“小步快跑”的姿势来做产品,尽早地交付新版本。基于以上背景,美团客户端研发平台适时地推行了…

无意中发现了一位清华大佬的代码模版

对于刷题相关的文章,在之前我也推荐过不少,今天在给大家推荐一份算法刷题笔记,这份笔记与以往的刷题有所区别,作者把 Leetcode 一千多道题都进行了系统的整理,并且对于每一道题的代码,都要求 beat 100%。作…

Android官方开发文档Training系列课程中文版:通过NFC共享文件之发送文件到另一台设备

原文地址:http://android.xsoftlab.net/training/beam-files/index.html 导言 Android允许你通过Android Beam文件传输特性在两台设备之间传送大文件。这个特性拥有一个简单的API,允许用户通过简单的设备接触来启动一个传输进程。在响应端,…

LeetCode 998. 最大二叉树 II

1. 题目 向最大二叉树插入一个值; 如果该值大于根节点,则子树必须在该值的左边; 如果该值小于根节点,则该值必须在根节点的右子树 2. 解题 class Solution { public:TreeNode* insertIntoMaxTree(TreeNode* root, int val) {if(…

科大讯飞2020完整事件抽取系统(bert+数据集)

科大讯飞2020完整事件抽取系统(bert数据集) 事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换&#xff0…

应用实践 | 网络智能运维下的知识图谱

本文转载自公众号:网络人工智能园地。让AI更智能,谷歌要用知识图谱让AI像人一样理解世界。让AI更智能,我们要用知识图谱让AI像网络专家一样了解网络。知识图谱引领人工智能从感知阶段演进到认知阶段,成为当前的热点技术之一&#…