学术论文网

  • 当前位置:主页 > 如何写论文 > 参考文献 > 正文>自然语言处理:利用集群到集群技术生成更加多样化的新数据

    自然语言处理:利用集群到集群技术生成更加多样化的新数据

    发布日期:2021-02-18 23:06 参考文献

    口语理解(SLU)[1]经常面临领域和需求之间的频繁切换,这往往导致训练数据在数量和质量上的不足。

    数据扩充是一种自动生成新的数据扩充训练集的技术,可以有效缓解上述数据短缺带来的挑战[[2,3]。

    如图1(上)所示,现有的数据增强,如基于Seq2Seq [4,5,6]的重新措辞方法,往往不可避免地会产生无意义的重复数据。这很大程度上是由于现有的逐个数据生成模式。

    相比之下,如图1(底部)所示,逐个数据生成的缺点可以通过群集到群集的生成自然地减轻。

    图1例子:从现有的句子生成新的表达,现有的一个一个复述的方法不能避免生成重复的数据

    我们提出了一种新的集群到集群生成范式来生成新数据,并提出了一种新的数据增强框架C2C-GenDA。C2C-GenDA通过将已有句子重构为表达方式不同但语义相同的新句子来扩展训练集。与以往逐个构建新句子的数据扩充(DA)方法不同,C2C-GenDA采用一种新的聚类到聚类方法来生成新的语料库。

    具体来说,C2C-GenDA联合编码几个已有的语义相同的句子,同时解码几个没有表达的新句子。

    (1)同时生成多个新语篇可以使模型对生成的新句子之间的关系进行建模,减少新句子之间的内部重复。

    (2)对现有的几个句子进行联合编码,使得模型可以更广泛地看到现有的表达,从而减少现有数据的无意义重复。

    给定一组具有相同语义框架的多个句子,即输入聚类,该模型一次生成多个新的句子,即输出聚类。这些输出与输入具有相同的语义框架,但它们有不同的表达方式。

    我们使用前面添加Rank Token的方法作为解码的起点[5],使模型区分不同的输出句子。

    (1)重复感知注意(DAA):它通过注意为模型提供两个方面的信息,即输入聚类中的现有表达和正在解码的其他句子中的表达方法。根据这个信息,我们以类似于覆盖率关注的方式来惩罚重复的表达式生成。

    (2)面向多样化的正则化(dor):我们提出DOR来引导模型从Loss的层面生成各种句子。具体来说,我们使用不同句子中解码单词的分布之间的KL-散度作为损失来约束模型,以避免在不同句子中的相同步骤中解码相同的单词。

    仅仅用很多代模型生成新数据显然是不够的。为了使Cluster2Cluster模型具有生成新表达式的能力,提出了一种分布式聚类配对算法来构造多对多的重复训练数据。

    具体来说,如图3和图4所示,给定一组语义相同的数据,我们首先找到一组表达式与Input Cluster相似的句子,然后贪婪地构造Output Cluster:一次向Output Cluster添加一个句子,这是与Input Cluster和现有Output Cluster最不同的地方。

    我们将原始训练数据分为两部分,一部分用于训练C2C-GenDA模型,另一部分用于数据增强输入。

    如表1所示,我们的方法可以大大提高槽填充模型的基线,并且优于现有的数据增强方法。

    如表2所示,在消融实验中,我们提出的每个模块都在最终的实验结果中发挥了作用。

    表3给出了不同生成模型的生成数据以及Inter和Intra的多样性。结果表明,聚类2聚类的生成方法可以大大提高新数据的多样性。

    表4展示了Cluster2Cluster模型生成的一些例子,我们可以看到Cluster2Cluster模型可以从各个角度生成一些有趣的新表达式。


    网友转发请注明出处转载请保留链接:自然语言处理:利用集群到集群技术生成更加多样化的新数据本文链接http://www.yule868.com/a/cankaowenxian/20210218/28447.html,谢谢合作!868学术论文网


    上一篇:EFood技术防伪:用碳同位素比质谱法鉴别味精酱油真假   下一篇:文档管理软件NoteExpress试用通知


    论主学术论文网 学术论文网专业指导写论文的要点和技巧,指导如何写论文,本科毕业论文,写作大学毕业论文,专为工程类,医学类,教育类,经理类,管理类,会计类,艺术类等原创毕业论文如何写,值得信赖值得靠谱的毕业论文写作网站.
  • 文章总数
  • 3574726访问次数
  • 建站天数
  • XML地图 XML_1地图 备案蜀ICP备16030853号 推荐:火锅底料苗苗鱼