动手做个DialoGPT:生成式多轮对话模型
前段时间刷Arixv的时候,发现清华大学开源了一个大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了,而且还包含了部分多轮对话聊天,总的来说可玩性还是蛮强的。笔者也被它吸引到了,尝试着用它来训练了一个闲聊对话模型,结果看上去还是不错的,在此分享一下自己的经验。 论文名称:《A Large-Scale Chinese Short-Text Conversation Dataset》 论文链接:https://arxiv.org/abs/2008.03946 项目地址:https://github.com/thu-coai/CDial-GPT 1 语料简介 这里简单介绍一下LCCC这个数据集(Large-scale Cleaned Chinese Conversation),具体细节大家可以去Github上看,下载链接也在上面。LCCC分base和large两个版本,base主要是来源于微博对话,large则是在base的基础上融合了其他开源对话语料,按照作者的说法,LCCC经过了严格的清洗过程,所以整体质量看上去还是很不错的。 为了简化任务,所有样本都被处理成双人对话。下面是一些样本示例: A: 等过年咱们回去买点兔头好好吃顿火锅 B: 太原就没看见有好吃的兔头 A: