项目介绍
面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处理入门学习者的一个较为全面的学习资源,欢迎大家使用,并提出批评意见。项目地址: liuhuanyong.github.io
工业项目
项目类型 | 中文名称 | 技术点 |
---|---|---|
技术博客 | 技术落地与探索博客 | 技术博客、技术探索与应用实践 |
技术公众号 | 数地工场技术文章 | 面向事理图谱、知识库构建、社会计算等技术落地探索 |
现代打油诗集 | 现代诗集《听说》 | 65首现代诗集,打油诗 |
自然语言处理语义平台 | 数地工场 | 信息抽取、舆情分析、语义计算、信息采集类、问句解析类api |
7*24小时实时抽象事理学习、搜索与关联推理系统 | 学迹 | 实证学习,信息检索、问答搜索,知识推理 |
寻链系统 | 事理图谱Demo | 前因后果模式的搜索展示 |
全行业实例事理搜索与关联推理系统 | 数地搜搜 | 实时系统,事理应用,事件追踪,事件检索 |
在工业落地过程中与业界共享的图谱数据 | 开放知识图谱资源 | 知识库数据,知识图谱,开放共享 |
实践项目
学习心得
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
KnowledgeGraphSlides | 知识图谱CCKS会议报告合集(2013-2018) | 知识图谱, 学习资源 |
CCKS2018Summary | CCKS2018会议总结 | 知识图谱,个人心得 |
CCL2018Summary | CCL2018参会总结 | 自然语言处理,心得 |
语言资源构建
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
ChineseSemanticKB | 中文处理的12类、百万规模的语义常用词典 | 中文处理的12类、百万规模的语义常用词典,支持句子扩展、转写、事件抽象与泛化 |
MiningZhiDaoQACorpus | 知道类问答社区数据集 | 语言资源库,语料库,580万问题,983万问答对 |
CausalCollocation | 频繁因果词对库 | 语言资源库,因果对 |
ChineseNLPCorpus | 中文自然语言处理处理用语言资源 | 语言资源库,语义库,常用词典, 语言资源观, 语料库 |
SentimentWordExpansion | 情感词扩展 | SOPMI |
BaikeInfoExtraction | 百科信息抽取 | Urllib,xpath |
SougouWordCollector | 搜狗词库自动构建 | Urllib,Scrapy |
BaikeKnowledgeSchema | 百科知识体系构建 | Urllib,xpath,递归,知识库本体概念 |
自然语言处理基本组件
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
WordSegment | 分词 | HMM, MAXCUT,Ngram |
HuanNLP | 自然语言处理组件 | HMM, maxent, CRF |
Pinyin2Chinese | 拼音转文字 | Trie树,HMM, bigram |
QueryCorrection | 查询纠错 | edit-distance |
ChineseCixing | 中文词形查询 | 字形,音形 |
ChineseAntiword | 中文反义词查询 | 反义词 |
信息抽取
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
WordMultiSenseDisambiguation | 中文多义词词义消歧 | 百科知识库,词义语义表示,词义语义相似度计算 |
TextFeatureExtraction | 文本特征提取 | IG,CHI ,DF,MI |
WordCollocation | 搭配抽取 | MI |
KeyInfoExtraction | 关键信息提取 | TFIDF,TextRank |
EventTriplesExtraction | 事件三元组提取 | dependency parser |
知识图谱与事理图谱
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
EventKGNELL | 学迹事理实时知识库终身学习 | 事件知识库,实时学习,事件概念,事理逻辑,语言资源 |
AbstractKnowledgeGrap | 抽象知识图谱 | 抽象知识图谱,抽象实体,抽象状态,抽象动作 |
GoodsKG | 电商商品概念与销售知识图谱 | 商品概念,商品类知识 |
ZhidaoChatbot | 基于问答社区的逻辑知识问答 | 问答社区,逻辑问答 |
EventPredictBasedOnEG | 基于事理图谱的未来事件预测 | 事理图谱,事件预测 |
QAonMilitaryKG | 军事知识图谱与问答项目 | 知识图谱,军事,基于模板问答方式 |
TravelKnowledgeGraph | 出行知识图谱 | 路径规划,推荐,知识模型 |
PersonRelationKnowledgeGraph | 中文人物关系图谱 | bootstrapping, 远程监督, 训练数据回标, 关系抽取 |
CrimeKgAssitant | 法律罪行智能助手 | 知识图谱, 智能预判, 自动问答 |
QASystemOnKG | 医疗知识图谱与自动问答 | 知识图谱构建及自动问答 |
ComplexEventExtraction | 复合事件图谱 | 复合事件,条件事件、反转事件抽取 |
CausalityEventExtraction | 因果事件图谱 | 因果图谱,因果事件抽取 |
SequentialEventExtration | 顺承事件图谱 | 动宾短语提取,事件图谱 |
LanguageKnowledgeGraph | 语言政策知识图谱 | Neo4j,Echarts,D3js |
HyponymyExtraction | 上下位关系图谱 | 模式匹配,上下位概念表示 |
MusicLyricChatbot | 歌词对对碰 | es搜索,歌词知识库 |
文本挖掘与社会计算
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
IdealWordCloudKit | 自定义形状词云项目 | wordcloud, tfidf, 可视化 |
WeiboIndexSpyder | 微博指数采集 | selenium,xpath |
BaiduIndexSpyder | 百度指数采集 | xpath,selenium |
AliIndexSpyder | 阿里指数采集 | selenium,xpath |
DocSentimentAnalysis | 基于句法依存的情感分析 | Template, Dependencyparser |
LearningBasedSentiment | 基于深度学习的情感分析 | CNN,RNN,ML |
TextGrapher | 文本结构化图谱表示 | EventExtraction,知识表示 |
ImportantEventExtractor | 文本重要性计算 | textrank |
ZhuguanDetection | 文本主观性计算 | subjective knowledge base |
SentenceSimilarity | 句子相似度计算 | distance, hash, haiming ,eidtdistance |
TopicCluster | 文本话题聚类 | LDA,Kmeans |
EventMonitor | 特定事件追踪 | 新闻采集,事件监测架构,scrapy |
PoemMining | 中国古代诗词挖掘 | 语料库构建,文本挖掘 |
LawCrimeMining | 司法文本挖掘 | 语料库构建,文本挖掘 |
ChineseHumorSentiment | 中文幽默情绪计算 | 语料库构建,幽默分类与情绪计算 |
LanguagePlatform | 集成自然语言处理技术的语言平台 | Neo4j,Echarts,Django |
深度学习与语义表示
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
ChineseTextualInference | 中文文本蕴含/推理 | Textual entailment, keras, 文本分类 |
SiameseSentenceSimilarity | siamese相似问句匹配 | siamese lstm network, keras, 文本分类 |
MedicalNamedEntityRecognition | 中文电子病例命名实体识别 | keras, bi-lstm-crf |
ChineseEmbedding | 中文向量大全(字符向量、词向量、拼音向量、依存向量、词性向量) | SKIP-GRAM,Co-Matrix |
Word2Vector | 词向量表示 | CBOW, SKIP-GRAM,Co-Matrix |
Sentence2Vector | 句子向量表示 | CBOW |
Seq2SeqTranslation | 端到端的翻译模型 | keras, lstm |
作者简介
刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。目前主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余个,在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。
邮箱:lhy_in_blcu@126.com
地址:北京市海淀区中关村南四街4号
github:https://github.com/liuhuanyong
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479228.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!相关文章
Android官方开发文档Training系列课程中文版:分享文件之分享一个文件
原文地址:http://android.xsoftlab.net/training/secure-file-sharing/share-file.html
一旦APP设置通过URI的方式共享文件,你需要响应其它APP请求这些文件的请求。响应这些请求的一种方式是,在服务端APP上提供一个文件选择接口,…
大众点评搜索基于知识图谱的深度学习排序实践
1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜索)…
论文浅尝 \ 联合知识图谱实例和本体概念的通用表示学习
论文笔记整理:周虹廷,浙江大学研究生。研究方向:知识图谱,图表示学习等。论文链接:http://web.cs.ucla.edu/~yzsun/papers/2019_KDD_JOIE.pdf本文是发表在KDD 2019上的关于知识图谱表示学习的论文。现有知识图谱表示模…
手握顶会顶刊论文,自信满满面试算法岗竟被刷?
2020国内深度学习框架领域百花齐放。各大公司也都陆续推出了自己的框架,大大推动了深度学习的发展。深度学习俨然已经渗入到我们生活中的每个角落,给生活带来极大便利。深度学习能够针对生产生活所面临的复杂问题,给出高准确率、操作简易、成…
爬取热门网站的热榜,集中展示
爬取热门网站的热榜,集中展示;Integrate and display hot billboard or ranked topic from hot Chinese websites
抓取知乎热榜数据存入列表
#!/usr/bin/env python
# encoding: utf-8__author__ HZTimport requests
import re
from bs4 import Beaut…
Android官方开发文档Training系列课程中文版:分享文件之请求一个共享文件
原文地址:http://android.xsoftlab.net/training/secure-file-sharing/request-file.html
当APP需要访问一个被其它APP所共享的文件时,这个APP通常需要发送一个请求给共享文件的那个APP(服务端),在大多数的情况下,这个请求会启动…
LeetCode 110. 平衡二叉树(二叉树高度)
1. 题目
给定一个二叉树,判断它是否是高度平衡的二叉树。
本题中,一棵高度平衡二叉树定义为:
一个二叉树每个节点 的左右两个子树的高度差的绝对值不超过1。
示例 1:
给定二叉树 [3,9,20,null,null,15,7]3/ \9 20/ \15 7
返回 true 。…
人物志 | 美团技术委员会前端通道主席洪磊:爱折腾的斜杠青年
洪磊,2013年加入美团,目前是美团外卖事业部终端组的负责人,也是美团技术委员会前端通道主席。在加入美团之前,洪磊的职业生涯可以用“跌宕起伏”来形容。他就读于中南财经政法大学,曾任职于雅虎中国,先后担…
论文浅尝 | 可建模语义分层的知识图谱补全方法
本文转载自公众号:PaperWeekly。论文作者:蔡健宇,中国科学技术大学,研究方向:知识图谱近些年,知识图谱(Knowledge Graph)在自然语言处理、问答系统、推荐系统等诸多领域取得了广泛且…
美团背后的商业模式是什么?后疫情时代该走向何方?
文 | King James知乎本文已获作者授权,禁止二次转载2020年的疫情,让10年前的一部剧再次进入人们的视线中,那就是《我的团长我的团》传统社区团购和各大互联网巨头都广发英雄帖招聘社区团购的团长,感觉回到了10年前那场“百团大战”…
Android官方开发文档Training系列课程中文版:分享文件之获取文件信息
原文地址:http://android.xsoftlab.net/training/secure-file-sharing/retrieve-info.html
之前的课程讲述了客户端APP试图与含有文件的URI一同运行,APP可以请求服务端APP的文件信息,包括文件的数据类型以及文件的大小。这些数据类型可以帮助…
LeetCode 783. 二叉搜索树结点最小距离(中序遍历)
1. 题目
给定一个二叉搜索树的根结点 root, 返回树中任意两节点的差的最小值。
示例:输入: root [4,2,6,1,3,null,null]
输出: 1
解释:
注意,root是树结点对象(TreeNode object),而不是数组。给定的树 [4,2,6,1,3,null,null] 可表示为下图…
Kubernetes 1.20 版本开始将弃用 Docker,是时候拥抱 Containerd 和 Podman 了!
Kubelet 中对 Docker 支持被弃用,并将在以后的版本中删除。Kubelet 使用一个名为 dockershim 的模块,该模块实现了对Docker的 CRI 支持,在此PR后续版本将删除dockershim。 Kubectl 弃用 --delete-local-data 参数。 名词解释 上面中提到两个名…
开源开放 | OpenKG 更新发布新冠概念、防控和流行病等多个知识图谱
近日,OpenKG 继续更新发布多个新冠知识图谱,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱 V1.1。OpenKG 发布的所有新冠知识图谱都…
客户端单周发版下的多分支自动化管理与实践
背景 目前,互联网产品呈现出高频优化迭代的趋势,需求方希望尽早地看到结果,并给予及时反馈,所以技术团队需要用“小步快跑”的姿势来做产品,尽早地交付新版本。基于以上背景,美团客户端研发平台适时地推行了…
无意中发现了一位清华大佬的代码模版
对于刷题相关的文章,在之前我也推荐过不少,今天在给大家推荐一份算法刷题笔记,这份笔记与以往的刷题有所区别,作者把 Leetcode 一千多道题都进行了系统的整理,并且对于每一道题的代码,都要求 beat 100%。作…
Android官方开发文档Training系列课程中文版:通过NFC共享文件之发送文件到另一台设备
原文地址:http://android.xsoftlab.net/training/beam-files/index.html
导言
Android允许你通过Android Beam文件传输特性在两台设备之间传送大文件。这个特性拥有一个简单的API,允许用户通过简单的设备接触来启动一个传输进程。在响应端,…
LeetCode 998. 最大二叉树 II
1. 题目
向最大二叉树插入一个值; 如果该值大于根节点,则子树必须在该值的左边; 如果该值小于根节点,则该值必须在根节点的右子树
2. 解题 class Solution {
public:TreeNode* insertIntoMaxTree(TreeNode* root, int val) {if(…
科大讯飞2020完整事件抽取系统(bert+数据集)
科大讯飞2020完整事件抽取系统(bert数据集)
事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换࿰…
应用实践 | 网络智能运维下的知识图谱
本文转载自公众号:网络人工智能园地。让AI更智能,谷歌要用知识图谱让AI像人一样理解世界。让AI更智能,我们要用知识图谱让AI像网络专家一样了解网络。知识图谱引领人工智能从感知阶段演进到认知阶段,成为当前的热点技术之一&#…