1 Star 0 Fork 10

鲁珀特之泪 / luge-ai

forked from luge-ai / luge-ai 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
dependency-parsing.md 7.56 KB
一键复制 编辑 原始数据 按行查看 历史
lugeAi 提交于 2020-09-11 18:26 . 回到首页

 

句法分析

1. Chinese Treebank X.0 (CTBX)

  • 数据集简介:

    由LDC构建的中文树库。CTBX中X表示版本,随着版本数据规模扩大,以及部分标准修正。CTB1标注数据来自新华日报;CTB2对CTB1进行部分纠正以及进行发布;CTB4标注数据来自新华日报、香港政府新闻处发布的新闻、以及台湾Sinorama magazine;CTB5标注数据来源同CTB4,对规模进行扩大;CTB6增加了来自广播节目的标注数据;CTB7增加了广播新闻、微博数据、以及广播电视谈话类节目数据;CTB8标注数据来源新闻数据、新闻杂志、广播新闻、广播谈话节目、微博、以及网页数据;CTB9标注数据来自新闻数据、新闻杂志、广播新闻、广播谈话节目、微博、论坛、聊天对话、电话数据。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    CTB1 100000个词,325篇文章 2000年 -- LDC 链接 未发布 N/A
    CTB2 100000个词,325篇文章 2001年 Martha Palmer, et al. LDC 链接 会员下载 N/A
    CTB4 404156词,664663个汉字,15162个句子,838个文件 2004年 Martha Palmer, et al. LDC N/A 会员下载 N/A
    CTB5 507222词,824983个汉字,18782个句子,890个文件 2005年 Martha Palmer, et al. LDC 链接 会员下载 2009 Conll Shared Tasks
    CTB6 781351词,1285149个汉字,28295个句子,2036个文件 2007年 Martha Palmer, et al. LDC N/A 会员下载 N/A
    CTB7 1196329词,1931381个汉字,51447个句子,2448个文件 2010年 Nianwen Xue, et al. LDC 链接 会员下载 N/A
    CTB8 1620561词,2589848个汉字,71369个句子,3007个文件 2013年 Nianwen Xue, et al. LDC N/A 会员下载 N/A
    CTB9 2084387词,3247331个汉字,132076个句子,3726个文件 2016年 Nianwen Xue, et al. LDC N/A 会员下载 N/A
  • 基于该数据集发表的相关论文:

    • Li, H., Zhang, Z., Ju, Y., & Zhao, H. (2018, April). Neural character-level dependency parsing for Chinese. In Thirty-Second AAAI Conference on Artificial Intelligence.
    • Bohnet, B., Nivre, J. (2012, July). A transition-based system for joint part-of-speech tagging and labeled non-projective dependency parsing. In Proceedings of the 2012 joint conference on empirical methods in natural language processing and computational natural language learning (pp. 1455-1465). Association for Computational Linguistics.
    • Hatori, J., Matsuzaki, T., Miyao, Y., Tsujii, J. I. (2011, November). Incremental joint POS tagging and dependency parsing in Chinese. In Proceedings of 5th international joint conference on natural language processing (pp. 1216-1224).
    • Li, Z., Zhang, M., Che, W., Liu, T., Chen, W., Li, H. (2011, July). Joint models for Chinese POS tagging and dependency parsing. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (pp. 1180-1191). Association for Computational Linguistics.
    • Hatori, J., Matsuzaki, T., Miyao, Y., Tsujii, J. I. (2012, July). Incremental joint approach to word segmentation, POS tagging, and dependency parsing in Chinese. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1 (pp. 1045-1053). Association for Computational Linguistics.
    • Guo, J., Che, W., Yarowsky, D., Wang, H., Liu, T. (2015, July). Cross-lingual dependency parsing based on distributed representations. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) (pp. 1234-1244).

2. HIT-CDT

  • 数据集简介:

    由哈尔滨工业大学发布的依存句法数据集,标注数据来自人民日报和小学语文课本。弧label集合含15个label,标注标准见http://www.ltp-cloud.com/intro#dp_how。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    HIT-CDT 902191词, 49996个句子 2012年 Wanxiang Che, et al. 哈尔滨工业大学 N/A 会员下载 NLPCC 2019 shared tasks
  • 基于该数据集发表的相关论文:

    • Jiang, X., Li, Z., Zhang, B., Zhang, M., Li, S., Si, L. (2018, July). Supervised treebank conversion: Data and approaches. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 2706-2716).

3. PKU-CDT

  • 数据集简介:

    由北京大学发布的依存句法数据集。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    PKU-CDT 14463个句子 2014年 Likun Qiu, et al. 北京大学 链接 N/A N/A
  • 基于该数据集发表的相关论文:

    • Jiang, X., Li, Z., Zhang, B., Zhang, M., Li, S., Si, L. (2018, July). Supervised treebank conversion: Data and approaches. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 2706-2716).

4. HLT-CDT

  • 数据集简介:

    由苏州大学和阿里巴巴共建的依存句法数据集,标注数据来自人民日报、小学语文课本、淘宝商品描述等。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    HLT-CDT 30000个句子 2018年 Lijuan Guo, et al. 苏州大学 & 阿里巴巴 链接 链接 NLPCC 2019 shared tasks
  • 基于该数据集发表的相关论文:

    • Jiang, X., Li, Z., Zhang, B., Zhang, M., Li, S., Si, L. (2018, July). Supervised treebank conversion: Data and approaches. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 2706-2716).
    • Li, Z., Peng, X., Zhang, M., Wang, R., Si, L. (2019, July). Semi-supervised domain adaptation for dependency parsing. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 2386-2395).

回到首页

1
https://gitee.com/wanglibin1314/luge-ai.git
git@gitee.com:wanglibin1314/luge-ai.git
wanglibin1314
luge-ai
luge-ai
master

搜索帮助