行业首发场景化 AI 降噪,用极致技术为音质发声
- 时间:
- 浏览:0
降低噪音通讯质量噪音在我们的日常生活中非常常见,如鼠标点击声、键盘声、空调声、厨房餐具碰撞声等。因此,音频质量往往决定着音频和视频通信场景中的通话体验,噪声是决定音频质量是否好的重要因素,如何进行音频噪声处理是工程师们面临的难题。以两个简单的用户场景为例,了解日常生活中经常困扰的时刻。场景1:埃里克在家里进行视频会议,邻居的装饰噪音打断了他,他听不到埃里克的在线会议报告。场景2:莉莉是平台的音乐主播,在现场直播中弹吉他,平台将吉他伴奏的声音识别为噪音,降低噪音,听众的听力体验较差。以上就是我们日常生活中经常遇到的噪声场景,用户在面对这种噪声问题时,难道没有解决的办法吗?其次,ZEGO推出了业内首个“场景化 AI降噪”解决方案,在此次Express SDK3.0升级计划中,对以往的AI降噪功能进行了重大升级,成为业内首个推出场景化 AI降噪解决方案的公司。场景化 AI降噪解决方案可以自动识别不同场景,实现无感知切换,智能调整AI降噪策略,为用户提供最佳降噪效果。此次升级不仅优化了之前的AI降噪效果,还首次引入了音乐场景的智能AI降噪,恢复了高保真的音质。1.对于常见的通信场景,ZEGO提出了一种轻量级的神经网络降噪方法-ZegoAidenoise。ZegoAIDenoise采用传统算法与深度学习相结合的混合方法,为了降低性能开销,采用频域划分子带方式,无限缩小深度学习网络模型,在尽可能小的网络模型中实现更好的降噪效果。在实时处理性能测试中,默认采样率为32kHz,帧长为10ms,而1.4GHz iPhone6的CPU性能开销约为1%,与WebRTC的典型降噪相当。因此,ZegoAidenoise在降噪效果、泛化能力和性能开销方面取得了长足的进步。ZegoAIDenoise对平滑、非平稳噪声具有良好的降噪效果,在保证语音质量和语言清晰度的同时,将性能开销控制在非常低的量级,与传统的降噪算法相媲美,成功地覆盖了大多数中低端机型,保持了纯语音,改善了用户的通话体验。处理声音的类型:主要处理包括消除鼠标、键盘、水龙头、空调、厨房餐具、嘈杂的餐厅、周围风、咳嗽、吹等非人为噪音,以及小房间的人为混响。
在音乐场景中,AI降噪很容易将音乐识别为噪声,并进行降噪处理,这会对音乐造成很大的损害,严重影响用户对音乐场景的体验,所以这个场景化的AI降噪程序还包括了音乐场景的降噪处理。首先,为了提高对音乐场景的识别准确性,我们收集了数十种音乐风格(如轻音乐、古典音乐和流行音乐)和乐器(如吉他、钢琴和小提琴)的数万个音频数据,并对现有数据进行了扩展,以便对模型进行泛化、特征提取和训练。同时,为了减少音乐以外的误判问题,我们收集了丰富的噪声和声乐数据进行了比较训练,以不同信噪比区分音乐,确保最佳音质,最终达到99%的识别率。此外,在非常高的识别率下,音频处理0延迟可以实现,而无需额外的性能成本。为了全面覆盖音乐场景,提升整体体验,采用多帧平滑后处理技术,识别速度可达400ms,让您从伴奏的“第一旋律”中快速识别出音乐。最终,Instant Scene AI降噪采用自主研发的音乐检测算法对Mic输入进行音乐识别,并在声卡、近场弹唱或其他外部设备播放音乐的场景中自动调整降噪级别,确保音乐的高保真度,减少音乐的音质损害。声音类型处理:支持识别具有丰富音乐元素的场景,如伴奏和乐器。
看完以上视频后,可以清楚地看到,在一般降噪处理过程中,音乐/伴奏被错误识别为噪声,进行降噪处理,而在即时场景化 AI降噪处理中,通过智能识别和处理策略的调整,真正恢复音乐场景,避免噪声场景的误判。以上两个用户场景,在访问了即时场景AI降噪解决方案后,都可以得到很大的改善。场景1:在消除在线会议中的非音频噪音后,Eric和同事获得了良好的在线会议体验。场景2:为了避免在弹出式谈话场景中将锚的伴奏识别为噪音的痛苦,Lily确保听众能够收获与锚的声音没有区别的聆听体验。ZEGO发布的场景化 AI降噪解决方案的使用场景可以概括如下:
ZEGO的目的是,无论是稳态还是非稳态噪声环境,一般通信场景还是音乐场景,都能实现降噪效果的飞跃,并以高品质的音频降噪有效提升用户的实时交互体验。目前,ZEGO Express3.0SDK正式提供场景化 AI降噪功能,开发人员可以使用麦克风消除声音,获得高保真音质,改善用户的通话体验。
“RTI ”代表了实现可媲美甚至更好的实时交互场景所需的所有产品和技术的组合,包括核心RTC、IM和直播,以及阿凡达、Al Vision和状态同步。与RTC相比,它支持一个视觉服务系统,该系统强调交互,而不是将信息交换作为唯一目标,而是将用户所需的共享空间和空间数字化,以满足他们的心理需求并确保更好的交互。