EVA

2022年8月15日 19:26 • 编程笔记

EVA

主要贡献

构建2021年最大中文对话数据集WDC-Dialogue，有1.4B context-response pairs。
基于Transformer架构，搭建2021年最大中文对话系统，有2.8B的参数量

WDC-Dialogue Dataset

数据收集

Repost 转发
Comment 评论
Q&A 问答

数据清洗

删除平台相关的tag信息，例如Reply to @***
删除URL链接
将超过30轮的切分成小于30轮
将句子中重复超过6次的单词仅保留一份
删除回复过短/过长的对话
删除回复被判定为广告的对话
删除90% 3-gram为高频短语的对话
删除回复为通常反应的对话
删除回复和context一样的对话

另外还维护了一个违禁词表
（1）脏词、敏感词、方言；
（2）特殊主题词，例如罕见病毒或化合物的名称；
（3）名称、未知缩写；
（4）特殊符号和表情符号；
（5）与广告、图片、视频相关的文字等平台标志；

数据分析

Method

Model

典型的Transformer结构。

Tokenization

通过subword构建30000 token的词表。

Pre-Training Details

为了解决一些过短的对话，在EVA预训练中加入了短对话合并的操作。

EVA2.0

Reference

EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training
EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/tech/pnotes/280743.html

pre training 删除

赞 (0)

0 0

mybatis_8_在pom.xml中添加lombok

上一篇 2022年8月15日 19:26

SpringBoot之RestController注解

下一篇 2022年8月15日 19:26

发表回复

登录后才能评论