基于裁判文书与犯罪案例文本挖掘项目

LawCrimeMining

Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
项目地址:https://github.com/liuhuanyong/LawCrimeMining

项目介绍

正邪不两立,法律与犯罪水火不容,随着我国法制建设不断健全,法规日趋完善,人们的法律意识也越来越强.当前,随着越来越多的法律文本公开,为犯罪案件审理这个方面的挖掘积累了大量的文本内容.因此,通过收集法律与犯罪领域文本,构建起司法领域语料库,并使用自然语言处理技术进行挖掘,具有重要意义,我们将其称为法律智能,引用smp2018司法论坛的发言来说,法律智能包括以下几个应用点:

  1. 面向案例文书的判决预测:根据案件的案情描述,预测最终的判决结果。
  2. 拓扑结构预测的判决预测:通过法官的判案逻辑找到子任务之间的依赖关系。
  3. 引入区分性属性的罪名预测,包括低频罪名、混淆罪名的相应预测:通过引入显式的属性,能对低频罪名进行基于属性的判断,对混淆罪名进行区分;此外还能采用多任务学习及注意力机制训练基于属性的罪名预测模型。
  4. 基于层次结构的案由预测:通过刑事案由(罪名)和民事案由的层次结构,结合案由本身的文本信息,采用序列预测及基于案由名称的注意力机制,训练相应模型。
  5. 基于法律阅读理解的判决预测:由于在民事案件中判决结果需要结合原告的具体诉求,可以建立基于阅读理解机制,模仿「人带着问题找答案」的阅读理解行为进行案件判决的预测。

项目结构

本项目由两个部分组成:
1)司法领域语料库的构建,这个部分细分为两个子库,一个是法律裁判文书,另一个是犯罪案例
2)基于司法领域语料库的挖掘, 尝试进行以下实验:
a) 刑事与民事案件分类
b) 案件语义区域识别
c) 犯罪事实与量刑结果二元抽取
d) 基于犯罪案例的判决预测

脚本结构

1)script_spider:
anliwang_spider.py:案例馆语料采集,案例馆中主要有各种案例,用于构建犯罪案例语料库
sifafwang_spider.py:司法考试网语料采集,该网站中有各类案例,用于构建犯罪案例语料库
courtlaw_spider.py:最高人民法院裁判文书采集,用于构建裁判文书语料库
lawlib_spider.py: 法律图书馆网站裁判文书采集,用于构建裁判文书语料库
2) corpus_lawsuit:
裁判文书语料库的1000个文本样例,执行采集脚本后,可得到108545,量级为十万的裁判文书
3) corpus_crime:
犯罪案例语料库的1000个文本样例,指定采集脚本后,可得到63451, 量级为6万的犯罪案例

基于刑法的因果字典抽取

根据中国人民刑法,对其进行因果处理,形成crime_nanme, cause, crime三个字段的抽取,形成量刑的基础,示例如下:

{
'crime_name': ['故意伤害罪', '组织出卖人体器官罪'],
'cause': ['故意伤害他人身体的'],
'crime': '三年以下有期徒刑、拘役或者管制'
}
{
'crime_name': ['故意伤害罪', '组织出卖人体器官罪'], 
'cause': ['致人死亡或者以特别残忍手段致人重伤造成严重残疾的'], 
'crime': '十年以上有期徒刑、无期徒刑或者死刑'
}
{
'crime_name': ['过失致人重伤罪'],
'cause': ['过失伤害他人致人重伤的'],
'crime': '三年以下有期徒刑或者拘役'
}
{
'crime_name': ['强奸罪'], 
'cause': ['以暴力、胁迫或者其他手段强奸妇女的'],
'crime': '三年以上十年以下有期徒刑'
}
{
'crime_name': ['强制猥亵、侮辱罪、猥亵儿童罪'],
'cause': ['以暴力、胁迫或者其他方法强制猥亵他人或者侮辱妇女的'], 
'crime': '五年以下有期徒刑或者拘役'
}
{
'crime_name': ['非法拘禁罪'], 
'cause': ['非法拘禁他人或者以其他方法非法剥夺他人人身自由的'], 
'crime': '三年以下有期徒刑、拘役、管制或者剥夺政治权利'
}
{
'crime_name': ['非法拘禁罪'], 
'cause': ['致人死亡的'], 
'crime': '十年以上有期徒刑'
}

to be continued…

项目地址:https://github.com/liuhuanyong/LawCrimeMining
If any question about the project or me ,see https://liuhuanyong.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速排序quicksort算法细节优化(一次申请内存/无额外内存排序)

文章目录1.只申请一次内存,避免多次递归调用时反复的申请和释放内存,提高程序运行效率2.不申请内存,在原数组上直接排序优化比较总结对链接中快速排序进行代码优化 https://blog.csdn.net/qq_21201267/article/details/80993672#t6 1.只申请…

在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?

一只小狐狸带你解锁炼丹术&NLP秘籍大数据文摘出品来源:medium编译:一一、AndyICLR是机器学习社群最喜爱的会议平台之一。如今,机器学习领域的会议已成为预印本里论文质量的标志和焦点。但即使这样,论文的发表数量还是越来越庞…

领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?

本文转载自公众号:恒生技术之眼。21世纪以来,人类社会信息资源的开发范围持续扩大,经济、社会信息随着经济活动加剧得到空前的开发,信息资源总量呈爆炸式增长,我们从最初的“信息匮乏”一步踏入到“信息过量”时代。个…

神经网络不应视为模型,推理过程当为机器学习问题一等公民

首发于论智关注专栏写文章神经网络不应视为模型,推理过程当为机器学习问题一等公民编者按:Microsoft Semantic Machines资深研究科学家、UC Berkeley计算机科学博士Jacob Andreas指出,神经网络不应视为模型,因为神经网络的模型和推…

2019最全BAT资深Java面试题答案合集,建议收藏~

马上进入求职招聘高峰,总结了一份BAT(阿里、百度等)资深Java相关的面试题答案合集给到大家。 该板块的各面试章节,后续会持续迭代更新最新一线互联网公司的面试题目,建议收藏该页面,不定期更新查看~ Java…

中国古代诗词文本挖掘项目

PoemMining 项目地址:https://github.com/liuhuanyong/PoemMining Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目 项目介绍 中国古代诗词文化无疑是…

推荐系统的价值观

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 推荐系统作为满足人类不确定性需求的一种有效工具,是具有极大价值的,这种价值既体现在提升用户体验上,又体现在获取商业利润上。对绝大多数公司来说,提升用户体验的最终目标也是为了获…

POJ1003/1004/1005/1207/3299/2159/1083/3094/2388解题(刷一波水题)

POJ 1003 题目链接 http://poj.org/problem?id1003 大意&#xff1a;长度1/21/3…1/n&#xff0c;给定长度值&#xff0c;求n #include<iostream> using namespace std; int main() {float len 0,sum;int n;while(cin >> len && len ! 0){for(n2,sum0;s…

论文浅尝 | 远程监督关系抽取的生成式对抗训练

动机远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据&#xff0c;但是其中噪声太多&#xff0c;影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响&#xff0c;但是仍然无法克服 bag 全部是错误标注的情形。为了换机噪声标注&#xf…

谷歌最强NLP模型BERT官方代码来了!GitHub一天3000星

新智元报道 来源&#xff1a;GitHub 作者&#xff1a;Google Research 编辑&#xff1a;肖琴 【新智元导读】谷歌AI团队终于开源了最强NLP模型BERT的代码和预训练模型。从论文发布以来&#xff0c;BERT在NLP业内引起巨大反响&#xff0c;被认为开启了NLP的新时代。 BERT的官方…

Java经典基础与高级面试36题和答案

在Java面试的首轮&#xff0c;经常会问很多关于Java面试基础以及高级的问题&#xff0c;今天收集相关Java面试36题和答案分享出来。 1.”static”关键字是什么意思&#xff1f;Java中是否可以覆盖&#xff08;override&#xff09;一个private或者是static的方法&#xff1f; …

新闻事件报道重要性判定项目

EventLine 项目地址&#xff1a;https://github.com/liuhuanyong/ImportantEventExtracto An exploration for Eventline (important news Rank organized by pulic time)&#xff0c;针对某一事件话题下的新闻报道集合&#xff0c;通过使用docrank算法&#xff0c;对新闻报道…

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

本文转载自公众号&#xff1a;徐阿衡。梳理一下 MSRA 3 篇关于 QG 的 paper&#xff1a;Two-Stage Synthesis Networks for Transfer Learning in Machine ComprehensionQuestion Answering and Question Generation as Dual TasksA Joint Model for Question Answering and Qu…

卖萌屋算法岗面试手册上线!通往面试自由之路

一只小狐狸带你解锁 炼丹术&NLP 秘籍作为算法工程师&#xff0c;基础知识的重要性自然不必多说。虽然在有些项目中比较难感受到基础的作用&#xff0c;但扎实的coding能力&#xff0c;对算法本质和适用情况的理解&#xff0c;始终是决定工作效率与未来发展的重要feature。这…

NLP-BERT 谷歌自然语言处理模型:BERT-基于pytorch

原文bert的github地址 https://github.com/google-research/bert 谷歌自然语言处理模型BERT&#xff1a;论文解析与python代码 https://github.com/Y1ran/NLP-BERT--ChineseVersion https://daiwk.github.io/posts/nlp-bert.html NLP必读&#xff1a;十分钟读懂谷歌BERT模型…

linux程序运行耗时shell脚本running_time.sh

对一个程序进行多次运行&#xff0c;求其平均运行时间 function timediff() {# time format:date "%s.%N", such as 1502758855.907197692start_time$1end_time$2start_s${start_time%.*}start_nanos${start_time#*.}end_s${end_time%.*}end_nanos${end_time#*.}# …

2019头条抖音Java 3面真题,含面试题答案!

一面&#xff1a; hashmap&#xff0c;怎么扩容&#xff0c;怎么处理数据冲突&#xff1f;怎么高效率的实现数据迁移&#xff1f; Linux的共享内存如何实现&#xff0c;大概说了一下。 socket网络编程&#xff0c;说一下TCP的三次握手和四次挥手 同步IO和异步IO的区别&#…

自然语言处理语言资源项目

项目地址&#xff1a;https://github.com/liuhuanyong/LanguageResources 致力于利用web公开信息,采用爬虫脚本,加工处理形成语言资源包括词汇知识库,领域语料等语言资源,该资源可用于自然语言处理任务. 1、 corpus_resources.py:词库&#xff0c;包括&#xff1a; name:人民日…

深入理解XGBoost

本文的主要内容概览&#xff1a;1 XGBoost简介XGBoost的全称是eXtreme Gradient Boosting&#xff0c;它是经过优化的分布式梯度提升库&#xff0c;旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具&#xff0c;它是目前最快最好的开源 boosting tree工具包&am…

会议 | ESWC2018 见闻

本文转载自公众号&#xff1a;南大Websoft 。 ESWC2018于2018年6月2日在希腊克里特岛上的伊拉克利翁举行。会议包括两天的前会(workshops, tutorials) 和三天的正会&#xff0c;参会人数约300人。KeynotesKeynote1: Structural S…