出门问问论文入选全球语音技术顶会INTERSPEECH 2022
- 时间:
- 浏览:0
如何让AI成为人类的情感?近日,全球语音领域顶级会议INTERSPEECH2022发布了论文清单,并邀请西工大谢磊教授ASLP实验室共同撰写的团队情感语音合成论文,并将在会议上发表。INTERSPEECH在国际上享有很高的声誉,具有广泛的学术影响力,是国际语音通信协会(ISCA)创立的旗舰级国际会议,也是世界上最大的综合性语音领域科技活动,对参与企业和单位存在着严格的准入壁垒,历届INTERSPEECH会议受到全球各地语音研究领域人士的广泛关注。 此次论文的评选,使其在语音合成领域的科研实力和技术创新实力得到了国际学术界的认可。
论文贡献:说话者之间的情感传递语音合成的实现途径如何使AI语音更具人类情感和情感表达?在这篇文章中,我们发表了一篇题为“基于端到端语音合成中韵律补偿的说话人之间情感传递”的论文。说话者间情感转换语音合成主要是将情感从带有情感数据的前说话者转移到没有情感的新目标说话者,从而使目标说话者能够表达训练数据中不存在的各种情感。“情绪转移”是跨演讲场景中最常见的策略。在这项研究中,重要的是从源说话者的情感参考音频中提取与说话者无关的情感嵌入。否则,情感嵌入中保存的说话者信息会影响目标说话者的音色。但是,在消除源说话人音调信息的过程中,通过情感嵌入传递的情感信息往往会减弱,从而使合成对象说话人的情感语音表达变得迟钝。挑战是确保情感嵌入中的情感信息不被破坏。具体来说,在合成语音中,具有足够情感信息的引用embedding常常会泄露说话者的音色,进一步删除引用embedding中的说话者信息可能会削弱过渡后的情感表达。为了解决这一问题,本文提出了一种韵律补偿策略,以补偿由于消除说话者信息而导致的情感信息损失,从而提高合成语音的情感表达能力。
在论文中,通过事先学习过的Automatic Speech Recognition(ASR)模型生成的隐藏表达虽然保持一定的韵律信息,但没有明确的说话者信息,笔者等人参照声音,提出了将ASR模型得到的中间表达作为输入来补偿感情信息的韵律补偿模块(prosody compensation module,PCM)本论文提出的带有韵律补偿的说话者间感情语音合成模型是说话者解耦系数。(speaker disentangling module,SDM),包括说话者嵌入模块和PCM模块。SDM从参考谱中获取与说话者无关的情感嵌入,PCM从AIF中获取额外的情感信息。通过对说话人的音色进行解耦来补偿情感嵌入的情感信息损失。为了有效地从AIF中提取全局韵律信息,还引入了由全局上下文模块globalcontextGC支持的韵律补偿编码器,如图2所示。实验表明,该方法可以有效地减轻情感表达障碍对分离后情感嵌入的影响,在保持目标说话人的声音的同时,提高过渡性情感表达。语音合成的例子
行业应用:打造行业领先的AI配音神器“神奇声音车间”近年来,语音技术积累日趋成熟,逐步为消费者打磨出AI配音产品--“神奇声音车间”。该产品基于内部开发的语音合成系统MeetVoice,其准确的发音和流畅的节奏使其成为短视频创作者喜爱的顶级语音神器。Magic Sound Workshop采用类似的字“Editor”界面,可以轻松实现姿势调整、多语音、多语音、局部移位等全方位编辑,还有行业独有的重读、拖拽等调优功能,让AI语音更加与真人媲美。但是,如何运用神奇工坊的海量数据,将不同风格、不同情感的说话者相互结合,使其拥有更情感丰富、风格多样的发音者,如何让发音者的情感更加生动,才是神奇工坊一直追求的终极产品体验。目前的语音合成系统很大程度上依赖于高质量的声音库进行风格/情感匹配,这种技术可以通过风格/情感传递达到“一人千音”的效果。该技术的实现大大提高了风格化情感语音合成系统的构建效率,降低了系统的构建成本。为了实现“一人千音”的效果,我们还开发了一种“声音转换”,将A的说话方式(节奏和节奏等)转移到B。变换后的音具有B的音色,具有A的节奏和节奏等信息。
(魔术车间产品界面)可以实现“魔术车间”的“声音转换”:1、如果AI合成效果差,比如破声、发音不清/不完整,就可以让你的AI主播学习其他AI主播的广播效果,或者学习你的阅读效果。2、需要在某个地方重读,但AI是轻描淡写的,这次可以利用声音转换功能来尝试达到“知识”的效果。3、想在某个地方拖动声音,但AI读起来比较短快,所以此时就使用语音转换来达到“理解松弛”的效果。4、关键线、AI合成效果还不够,感觉AI配音效果差(比如视频的第一个金色的十秒,用户希望配音会发光)此时,尝试使用语音转换,让你精彩的诠释,赋予神奇的工作室AI音箱力量,让声音更生动、更情感、更情感化。这篇论文是我们探索的一部分,我们希望通过我们的神奇声音研讨会让更多多样化的发音者在线,让每个人都成为声音总监,并为人工智能配音行业的繁荣做出贡献。未来,我们将继续深化语音和声学的研发,逐步进入更多的产品和服务。它使用更智能的技术来创造更亲密的语音体验,并根据情感和“需要”发音。我们将使人机交互更加自然,并将人工智能带入更多人的日常生活。论文:“基于端到端语音合成的Prosody补偿的跨语情感转移”,李涛,王新生,谢基宗,王志浩,江明琪,谢磊