近日,在2022年声纹识别挑战赛(CNSRC 2022)说话人检索(Speaker Retrieval,SR)任务中,电竞博彩平台谢湘老师带领的语音识别团队拔得头筹!
CNSRC 2022是国际上最具影响力的声纹识别评测比赛之一,由 Odyssey 2022 会议组委会发起的说话人识别竞赛。本次竞赛的核心目的是验证当前说话人识别 (或称声纹识别) 技术在实际复杂场景下的真实可用性。
该赛事采用的CN-Celeb数据库是一个大型复杂中文数据集,包含了3000名中国名人的话音,场景类型多达11种(娱乐、采访、唱歌、戏剧、电影、vlog、直播、演讲、戏剧、朗诵和广告),是目前已知最为复杂的说话人数据库。CNSRC 2022 设定了两个任务:说话人确认 (Speaker Verification) 和说话人检出 (Speaker Retrieval)。前者验证测试语音是否属于某一声称说话人;后者从50万背景语音中检出目标说话人的10句发音。对于说话人确认任务,依训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track),前者仅允许使用 CN-Celeb 作为训练集,目的是验证算法先进性;后者可利用任何数据进行训练,目的是验证当前技术能达到的性能下界。对于说话人检出任务,仅设立开放赛道 (Open Track),可利用任何数据进行训练。
本次竞赛吸引了132支海内外队伍参赛。历经近四个月的角逐,我校谢湘老师组建的BIT_SV小队 (Team ID T070)尝试了多种模型算法对领域内SOTA模型ECAPA进行改进调优,最终采用数据增广、多尺度卷积、多池化融合等方法,在不同阶段调整不同的超参,使模型可以在复杂且大量的数据池中检索出正确的相同说话人句子,有效地提高了模型的鲁棒性。
图一. CNSRC 2022获奖证书
2022年6月27日,苏欣美同学代表我校参赛队,在CNSRC 2022线上研讨会中做了发言,介绍了冠军队伍的方案。大会主持人公布了说话人检索任务的比赛名次:电竞博彩平台夺得了比赛的第1名,来自工业界的腾讯AI交互部和国音智能公司则分获第2、3名,凸显出我校来自高校学术界的实力(赛事全面报道参见http://cnceleb.org/competition)。
图二. CNSRC 2022说话人检索任务冠、亚、季军线上颁奖场景
图三. CNSRC 2022研讨会线上合影
附记:
我校信息与电子学院通信技术研究所的语音识别研究团队多年来致力于人机语音交互领域的研究,在谢湘老师带领下,该团队承担了多项国家自然科学基金等国家级项目,特别在多语言语音识别、说话人识别等方向潜心研究,积累了丰富经验和先进算法。该团队在近年来的多项比赛中取得了佳绩,如:在2021年全国人机语音通讯学术会议——对话场景下的说话人识别挑战赛中获得第1名;在2021年东方语言识别(Oriental Language Recognition, OLR)挑战赛中,在受限/不受限多语言语音识别两项任务中分获第2名和第3名。这些比赛在国内外语音识别领域均有着较高的知名度。
图四. 2021年全国人机语音通讯会议——对话场景下的说话人识别挑战赛第1名证书
图五. 2021年东方语种识别竞赛获奖证书
图六. 研究团队参加2021年全国人机语音通讯学术会议