同步操作将从 luge-ai/luge-ai 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
数据集简介:
DuConv是百度发布的基于知识图谱的主动聊天任务数据集,让机器根据构建的知识图谱进行主动聊天,使机器具备模拟人类用语言进行信息传递的能力。数据集的创新性是:强调了bot的主动性,并且在闲聊对话中引入了明确的对话目标,即将对话引导到特定实体上。数据中的知识信息来源于电影和娱乐人物领域有聊天价值的知识信息,如票房、导演、评价等,以三元组SPO的形式组织,对话目标中的话题为电影或娱乐人物实体。数据集中共有3万session,约12万轮对话,其中10万训练集,1万开发集,1万测试集。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
DuConv | 3万session 约12万轮对话 |
2019年 | Wu et al. | 百度 | 链接 | 链接 | 2019 Language and Intelligence Challenge on Dialog |
基于该数据集发表的相关论文:
数据集简介:
面向推荐的对话(Conversational Recommendation)是指集成对话系统和推荐系统的人机交互系统,该系统先通过问答或闲聊收集用户兴趣和偏好,然后主动给用户推荐其感兴趣的内容,比如餐厅、美食、电影、新闻等。真实世界的人机交互同时涉及到多种类型的对话,比如问答、闲聊、任务型对话等。当前业界一般把多种类型的对话分开研究,这其实不符合真实的人机交互。如何自然的融合多类型对话是一个重要的挑战,为了应对这个挑战,我们提出了一个新的任务—多类型对话中的面向推荐的对话,期望系统能够主动且自然地将对话从非推荐对话(比如『问答』)引导到推荐对话,然后基于收集到的用户兴趣及用户实时反馈通过多次交互完成最终的推荐目标。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
DuRecDial | 1万session 16万句 |
2020年 | Liu et al. | 百度 | 链接 | (待公开) | 2020 Language and Intelligence Challenge on Dialog |
基于该数据集发表的相关论文:
数据集简介:
豆瓣多轮对话数据集是北航/微软联合发布的用于评估闲聊对话技术的标准数据集。数据主要来源是豆瓣社交网站上的聊天数据。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
豆瓣多轮对话 | 100万session | 2017年 | Wu et al. | 北航/微软 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
数据集简介:
豆瓣知识对话数据集是首个支持知识对话技术的中文标准数据集。数据主要来源是豆瓣社交网站上的问答以及知识相关的聊天数据。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
豆瓣知识对话 | 2万session | 2018年 | Liu et al. | 计算所/京东 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
数据集简介:
微博对话数据集是 "第一个" 支持闲聊对话技术建模的中文标准数据集。数据主要来源是微博社交网站上的对话。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
微博对话 | 400万单轮对话句对 | 2015年 | Shang et al. | 华为 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
数据集简介:
京东对话数据集是京东发布的用于评估基于知识的特定领域对话技术的标准数据集。数据主要来源是京东客服的对话,数据特点在于数据规模较大,并且客服领域有很好的应用价值。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
京东对话数据 | 100万session | 2019年 | Chen et al. | 京东 | 链接 | 链接 | 链接 |
基于该数据集发表的相关论文:
数据集简介:
情感对话数据集是清华发布的首个支持情感对话建模的中文标准数据集。数据主要来源是前述微博对话数据,通过模型自动地对每条回复句进行情感分类,从而在对话数据中添加了情感标签。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
情感对话数据 | 100万句对 | 2017年 | Zhou et al. | 清华 | 链接 | 链接 | NLPCC 2017 链接 |
基于该数据集发表的相关论文:
数据集简介:
基于句式的中文对话数据集是清华发布的首个支持基于句式功能的对话生成建模的中文标准数据集。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
基于句式的中文对话数据集 | 200万句对 | 2018年 | Ke et al. | 清华 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
数据集简介:
对话问题生成数据集是清华发布的首个支持问题生成技术建模的中文标准数据集。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
对话问题生成数据集 | 50万句对 | 2018年 | Wang et al. | 清华 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
数据集简介:
个性对话数据集是清华发布的首个基于明文个性信息的对话生成技术建模的中文标准数据集。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
个性对话数据集 | 1000万微博句对 | 2018年 | Qian et al. | 清华 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
数据集简介:
为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,清华对话组提出了一个中文的多领域的知识驱动的对话数据集KdConv (Knowledge-driven Conversation),其使用知识图谱为多轮对话中使用的知识进行标注。该数据集包含了来自三个领域(电影、音乐和旅游)的4.5K个对话,86K个句子,平均轮数为19.0。这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
个性对话数据集 | 4.5k多轮对话session | 2020年 | Zhou et al. | 清华 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
数据集简介:
腾讯发布的单轮对话数据,其中每个句对带有通过检索系统得到的top 10回复,用于辅助训练生成模型。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|---|
检索辅助生成对话数据集 | 550万单轮对话 | 2019年 | Cai et al. | 腾讯 | 链接 | 链接 | 无 |
基于该数据集发表的相关论文:
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。