同步操作将从 luge-ai/luge-ai 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
数据集简介:
SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。
数据集详情:
名称 | 规模 | 创建日期 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|
MSR | 2368391词,4050469字 | 2005年 | 微软亚洲研究院 | 链接 | SIGHAN2005 | icwb2 result summary |
PKU | 1109947词,1826448字 | 2005年 | 北京大学 | 链接 | SIGHAN2005 | icwb2 result summary |
AS | 5449698词,8368050字 | 2005年 | 台湾中央研究院 | 链接 | SIGHAN2005 | icwb2 result summary |
CityU | 1455629词,2403355字 | 2005年 | 香港城市大学 | 链接 | SIGHAN2005 | icwb2 result summary |
基于该数据集发表的论文:
数据集简介:
微博分词数据集为NLPCC2016使用的数据集,该数据集是复旦大学根据新浪微博的数据标注生成。相对于其他开源数据集,该数据集的语料更为口语化,同时覆盖经济,运动,环境等多种主题的语料。除了训练数据以外,该数据集还提供了相关的未标注语料,以供结合无监督方法的模型使用。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|
30779个句子,652740词,1077854字 | 2016年 | Xipeng Qiu | 链接 | 链接 | N/A |
基于该数据集发表的论文:
数据集简介:
由LDC构建的中文树库。CTBX中X表示版本,随着版本数据规模扩大,以及部分标准修正。CTB1标注数据来自新华日报;CTB2对CTB1进行部分纠正以及进行发布;CTB4标注数据来自新华日报、香港政府新闻处发布的新闻、以及台湾Sinorama magazine;CTB5标注数据来源同CTB4,对规模进行扩大;CTB6增加了来自广播节目的标注数据;CTB7增加了广播新闻、微博数据、以及广播电视谈话类节目数据;CTB8标注数据来源新闻数据、新闻杂志、广播新闻、广播谈话节目、微博、以及网页数据;CTB9标注数据来自新闻数据、新闻杂志、广播新闻、广播谈话节目、微博、论坛、聊天对话、电话数据。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
CTB1 | 100000个词,325篇文章 | 2000年 | -- | LDC | 链接 | 未发布 | N/A |
CTB2 | 100000个词,325篇文章 | 2001年 | Martha Palmer, et al. | LDC | 链接 | 会员下载 | N/A |
CTB4 | 404156词,664663个汉字,15162个句子,838个文件 | 2004年 | Martha Palmer, et al. | LDC | N/A | 会员下载 | N/A |
CTB5 | 507222词,824983个汉字,18782个句子,890个文件 | 2005年 | Martha Palmer, et al. | LDC | 链接 | 会员下载 | N/A |
CTB6 | 781351词,1285149个汉字,28295个句子,2036个文件 | 2007年 | Martha Palmer, et al. | LDC | N/A | 会员下载 | N/A |
CTB7 | 1196329词,1931381个汉字,51447个句子,2448个文件 | 2010年 | Nianwen Xue, et al. | LDC | 链接 | 会员下载 | N/A |
CTB8 | 1620561词,2589848个汉字,71369个句子,3007个文件 | 2013年 | Nianwen Xue, et al. | LDC | N/A | 会员下载 | N/A |
CTB9 | 2084387词,3247331个汉字,132076个句子,3726个文件 | 2016年 | Nianwen Xue, et al. | LDC | N/A | 会员下载 | N/A |
基于该数据集发表的相关论文:
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。