代码拉取完成,页面将自动刷新
同步操作将从 luge-ai/luge-ai 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
数据集简介:
百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建出260068对数据,其中238766对作为训练集、8802对作为验证集以及12500对作为测试集。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
LCQMC | 26万文本数据 | 2018年 | Xin Liu et al. | 哈工大 | 链接 | 链接 | N/A |
基于该数据集发表的相关论文:
数据集简介:
银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的12万问题pair对,是目前最大的银行领域问题匹配数据。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
BQ Corpus | 12万文本数据 | 2018年 | Jing Chen et al. | 哈工大 & WeBank | 链接 | 链接 | N/A |
基于该数据集发表的相关论文:
数据集简介:
谷歌发布的包含 7 种语言释义对的数据集,即:PAWS(英语) 与 PAWS-X(多语),其中中文训练集49401对,开发集2000对,测试集2000对。数据集里包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,对于进一步提升模型对于强负例的判断很有帮助。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
PAWS-X(中文) | 5.33万文本数据 | 2019年 | Yinfei Yang et al. | Google Research | 链接 | 链接 | N/A |
基于该数据集发表的相关论文:
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。