X

语音识别重大突破!快商通&新加坡国立大学联合论文入选ACL 2020

近日,快商通Kriston AI Lab和新加坡国立大学联合发表的论文《Modeling Code-Switch Languages Using Bilingual Parallel Corpus(使用平行语料为中英文语码转换建模)》被第58届计算语言学年会 ACL 2020 录用,论文介绍了一种通过机器学习算法建立语言模型的方法,主要用于解决中英混合文本数据缺失问题,是语音识别领域对多语种切换语音识别的首次突破。

ACL是计算语言学和自然语言处理领域最重要的顶级会议,被CCF与清华共同列为顶级A类会议。今年,ACL共接收到超过3000篇投稿,虽未公布录取率,但依照历史平均录取率23.7%来看,被收录的论文代表了人工智能领域的世界领先水平。

多语种切换语音识别现状:需求火热,技术难突破

随着全球化的演进,多语言通信成为越来越普遍的现象。例如在新加坡等东南亚地区,英语作为大部分人的第一外语,会被自然而然地穿插在以中文为主的日常交流中。相对应地,对多语种切换语音识别也成为当下火热的需求。

然而,多语种切换语音识别一直是语音领域面临的重要挑战之一,最主要的原因,是因为多语种切换数据的缺失。

语音识别系统训练,需要语音和文本两方面的数据。通常,多语种切换的表达多在口语交流中出现,因此,文本形式的多语种切换表达资源匮乏。

使用平行语料为中英文语码转换建模

快商通Kriston AI Lab瞄准海外痛点需求,提出了一种基于注意力机制的双语语言建模算法(BLAM),该算法综合考虑两种语言的词序列上下文关系以及两种语言间的语法差异。具体地,文章定义了两种损失函数,分别用于对单一语言的语法进行约束以及对多语种切换表达的语法进行约束。然后将两种约束用于训练基于注意力机制的深度神经网络模型。

这种方法,是现阶段语音识别领域对多语种切换的首次突破,其算法具有以下优点:

1、两种语言均可以作为主语语言,语码转换时两种语言的比例不影响语音识别的性能;

2、语言模型混淆度(PPL)相对目前最好的多语种切换语言模型建模算法能降低20%以上,语音识别词错率相对目前最好的多语种切换语音识别算法能降低25%以上;

3、该算法可用于多语种切换的规范化,即,将两个语种混杂的文本规范化为统一的语种表达;

该算法可进一步扩展,用于句子生成以及机器翻译。

技术全球化布局,构建中国AI影响力

快商通Kriston AI Lab研究多语种切换的核心目的,是希望构建更加便利、更加人性化的语音技术能力,进而破除全球化发展难题,为用户创造更大的价值。这一思想,与公司积极推动技术出海的战略相吻合。

专注人工智能技术近10年,快商通Kriston AI Lab在算法原创和技术开发上都已形成深厚的积累,恰逢全球化背景,公司积极响应海外市场需求,将语音识别、自然语言处理、声纹识别、大数据等方面的核心技术逐渐向外延伸,自2017年以来,先后在新加坡、美国硅谷、俄罗斯莫斯科建立人工智能海外研究院,与俄罗斯科学院达成技术与人才方面的战略合作。

未来,快商通还将持续保持合作共赢的态度,以AI为核心赋能海外市场,探索中国技术国际化路径,在世界范围内构建中国人工智能的影响力。

注:快商通旗下Kriston AI Lab于2012年创建,专注语音识别、自然语言处理、声纹识别大数据分析等人工智能技术的研究和应用,现由IEEE Fellow李海洲教授领导。截至2020年初,Kriston AI Lab团队共申请发明专利400余项,荣获国际算法权威大赛NIST SRE 2018全球前三、中国AI最高奖——吴文俊人工智能科技进步奖。