出门问问论文入选全球语音技术顶会INTERSPEECH 2022

时间:2024-03-02 08:52:40
浏览:0

如何让AI成为人类的情感？近日，全球语音领域顶级会议INTERSPEECH2022发布了论文清单，并邀请西工大谢磊教授ASLP实验室共同撰写的团队情感语音合成论文，并将在会议上发表。INTERSPEECH在国际上享有很高的声誉，具有广泛的学术影响力，是国际语音通信协会（ISCA）创立的旗舰级国际会议，也是世界上最大的综合性语音领域科技活动，对参与企业和单位存在着严格的准入壁垒，历届INTERSPEECH会议受到全球各地语音研究领域人士的广泛关注。此次论文的评选，使其在语音合成领域的科研实力和技术创新实力得到了国际学术界的认可。

论文贡献：说话者之间的情感传递语音合成的实现途径如何使AI语音更具人类情感和情感表达？在这篇文章中，我们发表了一篇题为“基于端到端语音合成中韵律补偿的说话人之间情感传递”的论文。说话者间情感转换语音合成主要是将情感从带有情感数据的前说话者转移到没有情感的新目标说话者，从而使目标说话者能够表达训练数据中不存在的各种情感。“情绪转移”是跨演讲场景中最常见的策略。在这项研究中，重要的是从源说话者的情感参考音频中提取与说话者无关的情感嵌入。否则，情感嵌入中保存的说话者信息会影响目标说话者的音色。但是，在消除源说话人音调信息的过程中，通过情感嵌入传递的情感信息往往会减弱，从而使合成对象说话人的情感语音表达变得迟钝。挑战是确保情感嵌入中的情感信息不被破坏。具体来说，在合成语音中，具有足够情感信息的引用embedding常常会泄露说话者的音色，进一步删除引用embedding中的说话者信息可能会削弱过渡后的情感表达。为了解决这一问题，本文提出了一种韵律补偿策略，以补偿由于消除说话者信息而导致的情感信息损失，从而提高合成语音的情感表达能力。

在论文中，通过事先学习过的Automatic Speech Recognition（ASR）模型生成的隐藏表达虽然保持一定的韵律信息，但没有明确的说话者信息，笔者等人参照声音，提出了将ASR模型得到的中间表达作为输入来补偿感情信息的韵律补偿模块（prosody compensation module，PCM）本论文提出的带有韵律补偿的说话者间感情语音合成模型是说话者解耦系数。（speaker disentangling module，SDM），包括说话者嵌入模块和PCM模块。SDM从参考谱中获取与说话者无关的情感嵌入，PCM从AIF中获取额外的情感信息。通过对说话人的音色进行解耦来补偿情感嵌入的情感信息损失。为了有效地从AIF中提取全局韵律信息，还引入了由全局上下文模块globalcontextGC支持的韵律补偿编码器，如图2所示。实验表明，该方法可以有效地减轻情感表达障碍对分离后情感嵌入的影响，在保持目标说话人的声音的同时，提高过渡性情感表达。语音合成的例子

行业应用：打造行业领先的AI配音神器“神奇声音车间”近年来，语音技术积累日趋成熟，逐步为消费者打磨出AI配音产品--“神奇声音车间”。该产品基于内部开发的语音合成系统MeetVoice，其准确的发音和流畅的节奏使其成为短视频创作者喜爱的顶级语音神器。Magic Sound Workshop采用类似的字“Editor”界面，可以轻松实现姿势调整、多语音、多语音、局部移位等全方位编辑，还有行业独有的重读、拖拽等调优功能，让AI语音更加与真人媲美。但是，如何运用神奇工坊的海量数据，将不同风格、不同情感的说话者相互结合，使其拥有更情感丰富、风格多样的发音者，如何让发音者的情感更加生动，才是神奇工坊一直追求的终极产品体验。目前的语音合成系统很大程度上依赖于高质量的声音库进行风格/情感匹配，这种技术可以通过风格/情感传递达到“一人千音”的效果。该技术的实现大大提高了风格化情感语音合成系统的构建效率，降低了系统的构建成本。为了实现“一人千音”的效果，我们还开发了一种“声音转换”，将A的说话方式（节奏和节奏等）转移到B。变换后的音具有B的音色，具有A的节奏和节奏等信息。

（魔术车间产品界面）可以实现“魔术车间”的“声音转换”：1、如果AI合成效果差，比如破声、发音不清/不完整，就可以让你的AI主播学习其他AI主播的广播效果，或者学习你的阅读效果。2、需要在某个地方重读，但AI是轻描淡写的，这次可以利用声音转换功能来尝试达到“知识”的效果。3、想在某个地方拖动声音，但AI读起来比较短快，所以此时就使用语音转换来达到“理解松弛”的效果。4、关键线、AI合成效果还不够，感觉AI配音效果差（比如视频的第一个金色的十秒，用户希望配音会发光）此时，尝试使用语音转换，让你精彩的诠释，赋予神奇的工作室AI音箱力量，让声音更生动、更情感、更情感化。这篇论文是我们探索的一部分，我们希望通过我们的神奇声音研讨会让更多多样化的发音者在线，让每个人都成为声音总监，并为人工智能配音行业的繁荣做出贡献。未来，我们将继续深化语音和声学的研发，逐步进入更多的产品和服务。它使用更智能的技术来创造更亲密的语音体验，并根据情感和“需要”发音。我们将使人机交互更加自然，并将人工智能带入更多人的日常生活。论文：“基于端到端语音合成的Prosody补偿的跨语情感转移”，李涛，王新生，谢基宗，王志浩，江明琪，谢磊

Alpha法律智能操作系统助力律师高效率提炼有效证据

微信内测新功能朋友圈可以修改可见范围了

出门问问论文入选全球语音技术顶会INTERSPEECH 2022

猜你喜欢

AI技术与医疗结合！声音模拟助力患者重塑“语音 ”

华为语音手机_华为语音手机助手叫啥

手机怎么连麦_手机怎么连麦克风说话

重磅 _ 耀海生物重磅推出mRNA科研级样品定制合成一站式解决方案!

酷狗上新能量豆M53运动耳机定制运动曲库，支持语音点歌

游戏语音新利器：腾讯云GME携手Voicemod发布实时变声语音方案

小影科技获TikTok2021年度综合成长力大奖

出门问问论文入选全球语音技术顶会INTERSPEECH 2022

腾讯数据中心节能黑科技吸引外媒关注巧用余热回收助力碳中和（腾讯数据中心创新节能技术获外媒瞩目：余热回收助力实现碳中和目标）

从张勇夫妇第四次IPO看海底捞的企业创新与竞争力提升

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

华为语音手机_华为语音手机助手叫啥

手机点歌软件_手机点歌软件免费版

游戏语音新利器：腾讯云GME携手Voicemod发布实时变声语音方案

荔枝集团音质高保真AI降噪技术领跑世界

出门问问论文入选全球语音技术顶会INTERSPEECH 2022