同步操作将从 luge-ai/luge-ai 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
数据集简介:
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下 载 | 评测 |
---|---|---|---|---|---|---|---|
THUCNews | 74万文档数据 | 2012年 | 孙茂松 | 清华大学自然语言处理与社会人文计算实验室 | N/A | 链接 | N/A |
基于该数据集发表的相关论文:
数据集简介:
共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
CNews | 3.92万文档数据 | 2017年 | 刘禹 | 中国科学院自动化研究所综合信息中心 | N/A | 链接 | N/A |
数据集简介:
来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
SogouCS | 114万文档数据 | 2012年 | 王灿辉 | 搜狗实验室 | N/A | N/A |
基于该数据集发表的相关论文:
数据集简介:
由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
FudanTC | 1.8万文档数据 | N/A | 李荣陆 | 复旦大学 | N/A | 链接 | N/A |
基于该数据集发表的相关论文:
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。