1 Star 0 Fork 10

鲁珀特之泪 / luge-ai

forked from luge-ai / luge-ai 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
machine-translation.md 4.88 KB
一键复制 编辑 原始数据 按行查看 历史
lugeAi 提交于 2020-09-11 18:26 . 回到首页

 

机器翻译

1. WMT

  • 数据集简介:

    WMT最早是由爱丁堡大学于2006年组织的机器翻译领域的Workshop,此后每年都会举办欧洲语言和英语的互译比赛。在2017年首次添加中英互译的翻译任务,其中训练数据来自中科院计算所、东北大学等国内研究机构以及联合国双语语料。数据领域包括新闻和会议,共2507万中英双语句对。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    WMT 2507万中英双语句对 2017年 - 爱丁堡大学 链接 链接 链接
  • 基于该数据集发表的相关论文:

    • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS.
    • David R So, Chen Liang, and Quoc V Le. The evolved transformer. arXiv preprint arXiv:1901.11117, 2019.

2. NIST

  • 数据集简介:

    美国国家标准技术研究所每年举办一次NIST机器翻译评测。训练数据来自LDC包括250万中英双语句对,涉及通用网页和新闻领域。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    NIST 250万中英双语句对 - - 美国国家标准技术研究所 && LDC - 链接 链接
  • 基于该数据集发表的相关论文:

    • Tu, Z., Lu, Z., Liu, Y., Liu, X., and Li, H. Coverage-based neural machine translation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (2016).
    • Hao Xiong, Zhongjun He, Xiaoguang Hu, and Hua Wu. 2018. Multi-channel encoder for neural machine translation. AAAI.
    • Wang, Q.; Li, B.; Xiao, T.; Zhu, J.; Li, C.; Wong, D. F.;and Chao, L. S. 2019. Learning deep transformer models for machine translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 1810–1822. Florence, Italy: Association for Computational Linguistics

3. IWSLT

  • 数据集简介:

    IWSLT于2004年首次举办,每年的翻译语言有所不同。2015年的中英训练数据来自TED,有22万口语领域的句对。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    IWSLT 22万中英双语句对 2015 - 布鲁诺·凯斯勒基金会FBK && TED 链接 链接 链接
  • 基于该数据集发表的相关论文:

    • K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder–decoder for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1724–1734, Doha, Qatar, October 2014. Association for Computational Linguistics.
    • Lesly Miculicich, Dhananjay Ram, Nikolaos Pappas, and James Henderson. 2018. Document-level neural machine translation with hierarchical attention networks. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2947–2954.

4. BSTC

  • 数据集简介:

    百度翻译团队2019年发布了全球首个中文-英文演讲场景语音翻译数据集(BSTC)。该数据集总共包含超过50小时的演讲语音和对应的转录文本、时间轴、翻译文本等数据资源,涉及 IT、经济、文化、生物、艺术等演讲主题。

  • 数据集详情:

    名称 规模 创建日期 作者 单位 论文 下载 评测
    BSTC 55小时语音数据 2019年 Hao Xiong 百度翻译 链接 链接 链接
  • 基于该数据集发表的相关论文:

    • Naveen Arivazhagan, Colin Cherry, Te I, Wolfgang Macherey, Pallavi Baljekar, and George Foster. 2019a. Re-translation strategies for long form, simultaneous, spoken language translation. CoRR, abs/1912.03393.

回到首页

1
https://gitee.com/wanglibin1314/luge-ai.git
git@gitee.com:wanglibin1314/luge-ai.git
wanglibin1314
luge-ai
luge-ai
master

搜索帮助