同步操作将从 qianyu12/LawCrimeMining 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
正邪不两立,法律与犯罪水火不容,随着我国法制建设不断健全,法规日趋完善,人们的法律意识也越来越强.当前,随着越来越多的法律文本公开,为犯罪案件审理这个方面的挖掘积累了大量的文本内容.因此,通过收集法律与犯罪领域文本,构建起司法领域语料库,并使用自然语言处理技术进行挖掘,具有重要意义,我们将其称为法律智能,引用smp2018司法论坛的发言来说,法律智能包括以下几个应用点:
本项目由两个部分组成:
1)司法领域语料库的构建,这个部分细分为两个子库,一个是法律裁判文书,另一个是犯罪案例
2)基于司法领域语料库的挖掘, 尝试进行以下实验:
a) 刑事与民事案件分类
b) 案件语义区域识别
c) 犯罪事实与量刑结果二元抽取
d) 基于犯罪案例的判决预测
1)script_spider:
anliwang_spider.py:案例馆语料采集,案例馆中主要有各种案例,用于构建犯罪案例语料库
sifafwang_spider.py:司法考试网语料采集,该网站中有各类案例,用于构建犯罪案例语料库
courtlaw_spider.py:最高人民法院裁判文书采集,用于构建裁判文书语料库
lawlib_spider.py: 法律图书馆网站裁判文书采集,用于构建裁判文书语料库
2) corpus_lawsuit:
裁判文书语料库的1000个文本样例,执行采集脚本后,可得到108545,量级为十万的裁判文书
3) corpus_crime:
犯罪案例语料库的1000个文本样例,指定采集脚本后,可得到63451, 量级为6万的犯罪案例
根据中国人民刑法,对其进行因果处理,形成crime_nanme, cause, crime三个字段的抽取,形成量刑的基础,示例如下:
{
'crime_name': ['故意伤害罪', '组织出卖人体器官罪'],
'cause': ['故意伤害他人身体的'],
'crime': '三年以下有期徒刑、拘役或者管制'
}
{
'crime_name': ['故意伤害罪', '组织出卖人体器官罪'],
'cause': ['致人死亡或者以特别残忍手段致人重伤造成严重残疾的'],
'crime': '十年以上有期徒刑、无期徒刑或者死刑'
}
{
'crime_name': ['过失致人重伤罪'],
'cause': ['过失伤害他人致人重伤的'],
'crime': '三年以下有期徒刑或者拘役'
}
{
'crime_name': ['强奸罪'],
'cause': ['以暴力、胁迫或者其他手段强奸妇女的'],
'crime': '三年以上十年以下有期徒刑'
}
{
'crime_name': ['强制猥亵、侮辱罪、猥亵儿童罪'],
'cause': ['以暴力、胁迫或者其他方法强制猥亵他人或者侮辱妇女的'],
'crime': '五年以下有期徒刑或者拘役'
}
{
'crime_name': ['非法拘禁罪'],
'cause': ['非法拘禁他人或者以其他方法非法剥夺他人人身自由的'],
'crime': '三年以下有期徒刑、拘役、管制或者剥夺政治权利'
}
{
'crime_name': ['非法拘禁罪'],
'cause': ['致人死亡的'],
'crime': '十年以上有期徒刑'
}
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,请联系我:
邮箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然语言处理项目: https://liuhuanyong.github.io/
刘焕勇,中国科学院软件研究所
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。