学术论文网

  • 当前位置:主页 > 行业论文 > 实践论文 > 正文>产业实践促进科技创新。JD.COM科技三篇论文入选2021国际计算机科学大会

    产业实践促进科技创新。JD.COM科技三篇论文入选2021国际计算机科学大会

    发布日期:2021-02-19 22:07 实践论文

    由于复杂环境中的噪声,语音增强在人机语音交互系统中起着重要的作用。基于的语音增强算法通常是用机器学习领域常用的模块(如全连接网络、递归神经网络、卷积神经网络等)构建的。).然而,如何将传统语音信号处理中基于专家的最优滤波器设计理论有效地应用到基于机器学习的语音增强系统中仍是一个未解决的问题。

    科技集团《Neural Kalman Filtering for Speech Enhancement基于神经卡尔曼滤波的语音增强算法研究》选题提出了神经卡尔曼滤波语音增强框架。将神经网络和最优滤波理论有机结合,采用监督学习方法训练卡尔曼滤波器的最优权值。

    首先,研究者构建了基于递归神经网络的语音时间序列变化模型。与传统卡尔曼滤波器相比,该模型消除了语音变化服从线性预测模型的不合理假设,可用于对实际语音的非线性变化进行建模。一方面,该算法基于时间序列模型和卡尔曼隐藏状态向量信息,首先获得语音长期包络预测。另一方面,通过融合当前的观测信息,进一步解决了传统信号处理中基于维纳滤波的语音频谱预测问题。系统的最终输出是语音长期包络预测和维纳滤波预测的线性组合。该系统基于传统的卡尔曼滤波理论,直接获得线性组合权重的最优解。通过设计端到端系统,可以同步更新与维纳滤波相关的语音时变网络和噪声估计网络的权重。基于Librispeech语音集、pnl-100非语音和三目噪声集的实验结果表明,该算法在信噪比增益、语音感知质量和语音可懂度方面均优于基于UNET和CRNN框架的传统语音增强算法。

    虽然端到端语音合成技术已经取得了相对自然和韵律化的语音合成效果,但是它并没有使用文本结构信息,而是只使用当前句子的语言特征进行语音合成。一般来说,韵律信息与语境的文本结构密切相关,同一句话在不同的语境中会有完全不同的韵律表达。因此,在合成一段文本时,只利用当前句子的文本特征的端到端系统很难根据上下文信息将一段文本转换成韵律表达丰富的自然语音。

    研究人员没有使用任何显示的韵律控制信息,而是通过BERT语言模型提取待合成句子的上下文句子的跨句特征表示,并将该特征表示作为当前主流端到端语音合成算法的附加输入。本文讨论了两种不同的使用跨句特征的方法。第一种方法是拼接所有上下文句子的跨句特征,作为端到端语音合成系统的整体输入。第二种方式是把所有上下文句子的跨句特征作为一个序列,然后用待合成文本的每个语音单位和这个序列计算关注度。然后,通过计算出的关注度对上下文句子的跨句特征进行加权求和,可以计算出每个语音单元对应的跨句特征。第二种使用跨句特征的方式可以使每个发音单位得到一个对当前单位的发音有帮助的细粒度跨句特征。

    实验结果表明,在端到端语音合成系统中,结合跨句特征后,该研究能有效提高合成段落文本的自然度和表现力。本研究在中英文有声读物数据集上验证了实验结果。此外,在对比测试结果中,与我们的端到端基线模型相比,大多数测试人员更喜欢本研究中结合跨句向量表示的语音合成算法合成的音频。

    在多轮对话系统中,用户倾向于简单口语化的表达,表达中有大量的信息缺失和引用。这些现象使得对话机器人很难理解用户的真实意图,大大增加了系统响应的难度。为了提高对话系统的水平,Query根据用户的历史对话重写用户的话语,以恢复所有被省略和引用的信息。然而,现有的查询重写技术都采用监督学习方法,模型的效果受到标注数据规模的严重限制,这极大地阻碍了该技术在实际业务场景中的落地。此外,用户的意图在重写后是否发生了变化,并没有受到现有作品的关注。如何保证重写后用户意图的一致性,仍然是一个亟待解决的问题。

    JD。COM科技集团选择了论文《Conversational Query Rewriting with Self-supervised Learning 基于自监督学习的对话Query改写》,提出了一种自我监控的查询重写方法。当共现词出现在用户的提问和历史对话中时,共现词会被删除或替换为具有特定概率的代词。最后,查询重写模型根据历史对话恢复用户的原始问题。与监督学习方法相比,自监督学习方法能够以较低的成本获得大量的训练数据,充分发挥模型的表征学习能力。

    研究者进一步提出对Teresa模型进行改进,从两个方面提高重写模型的质量和准确性。首先,在Transformer编码层引入关键词检测模块,提取关键词来指导句子生成。首先,对历史语境的编码输出构建自关注图,得到历史语境中词语之间的关联度。然后使用文本排名算法计算单词的重要性得分;最后,将单词的重要性分数作为先验信息集成到解码器中,以指导模型生成包含更多关键信息的问题。其次,提出了意图一致性模块,在Transformer编码器的输入文本中加入特殊标签[CLS],获得文本内容的意图分布,并通过约束意图分布来保持意图一致性。原上下文(Query)和生成的句子(Target)共享Transformer编码器,得到重写前后的意图分布。我们保持两者的分布一致,从而保证生成句子意图的一致性。

    JD。COM科技集团作为JD.COM对外提供技术服务的核心部门,一直致力于前沿的研究和探索,并继续以科技为先导,帮助城市和行业实现数字化和智能化升级。截至目前,JD.COM科技集团已在AAAI、IJCAI、CVPR、KDD、神经科、ICML、ACL、ICASSP等国际AI顶级会议上发表了近350篇相关论文,在多项国际学术竞赛中获得19项世界第一。我相信,在未来,JD.COM科技集团将继续在语音和语义、计算机视觉、机器学习等领域发挥自己的优势。并用科技帮助实体经济,切实改变大家的生活。


    网友转发请注明出处转载请保留链接:产业实践促进科技创新。JD.COM科技三篇论文入选2021国际计算机科学大会本文链接http://www.yule868.com/a/shijianlunwen/28529.html,谢谢合作!868学术论文网


    上一篇:到2025年,甘肃省将基本建立高水平医学人才培养体系   下一篇:好消息!这三篇论文获奖了


    论主学术论文网 学术论文网专业指导写论文的要点和技巧,指导如何写论文,本科毕业论文,写作大学毕业论文,专为工程类,医学类,教育类,经理类,管理类,会计类,艺术类等原创毕业论文如何写,值得信赖值得靠谱的毕业论文写作网站.
  • 文章总数
  • 3574726访问次数
  • 建站天数
  • XML地图 XML_1地图 备案蜀ICP备16030853号