1 Star 0 Fork 10

鲁珀特之泪 / luge-ai

forked from luge-ai / luge-ai 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
text-classification.md 4.76 KB
一键复制 编辑 原始数据 按行查看 历史
lugeAi 提交于 2020-09-11 18:26 . 回到首页

 

文本分类

1. THUCNews

  • 数据集简介:

    THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下 载 评测
    THUCNews 74万文档数据 2012年 孙茂松 清华大学自然语言处理与社会人文计算实验室 N/A 链接 N/A
  • 基于该数据集发表的相关论文:

    • Jingyang Li, Maosong Sun. Scalable Term Selection for Text Categorization. Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, 2007, pp. 774-782.
    • Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization. Proc. of the 2006 Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL 2006), Sydney, Australia, 2006, pp. 545-552.

2. CNews

  • 数据集简介:

    共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    CNews 3.92万文档数据 2017年 刘禹 中国科学院自动化研究所综合信息中心 N/A 链接 N/A

3. SogouCS

  • 数据集简介:

    来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    SogouCS 114万文档数据 2012年 王灿辉 搜狗实验室 N/A N/A
  • 基于该数据集发表的相关论文:

    • Canhui Wang, Min Zhang, Shaoping ma, Liyun Ru, Automatic Online News Issue Construction in Web Environment. The 17th International World Wide Web Conference (WWW08), Beijing, April, 2008.

4. FudanTC

  • 数据集简介:

    由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    FudanTC 1.8万文档数据 N/A 李荣陆 复旦大学 N/A 链接 N/A
  • 基于该数据集发表的相关论文:

    • Joachims T. Transductive Inference for Text Classification using Support Vector Machines[C]// Sixteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. 1999:200-209.
    • Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
    • Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015.
    • Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520.
    • Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

回到首页

1
https://gitee.com/wanglibin1314/luge-ai.git
git@gitee.com:wanglibin1314/luge-ai.git
wanglibin1314
luge-ai
luge-ai
master

搜索帮助