去年,我们公布了英语会话语音识别领域的一个重大里程碑:一个系统在非常流行评测基准 Switchboard 数据库中取得了 8% 的词错率(WER)。现在,由 Tom Sercu、Steven Rennie、Jeff Kuo 和我本人组成的 IBM 沃森团队很高兴地宣布在同样的任务中我们的系统创造了 6.9% 的词错率新纪录。
要想正确看待这一结果,先让我们回到 1995 年,一个「高性能」的 IBM 识别器实现了 43% 的错误率。在 90 年代末和 00 年代初 DARPA(美国国防先进研究项目局)资助的一系列语音识别评估的推动下,我们的系统稳步提高,并在 2004 年以 15.2% 的词错率赢得了 2004 EARS Rich Transcription 评估比赛第一名。而最近,深度神经网络的出现在帮助我们取得 8% 和 6.9% 的成绩上发挥了关键性的作用。我们项目的最终目标是达到或超过人类准确度,也就是大约 4% 的语音识别词错率。
6.9% 的错误率之所以成为可能,是因为声学和语言建模两方面技术的提高(https://developer.ibm.com/watson/blog/2015/02/09/ibm-watson-now-brings-cognitive-speech-capabilities-developers/)。在声学方面,我们融合了两个强大的深度神经网络,这两个神经网络可以从输入音频中预测依赖于语境的语音。该模型基于来自 Switchboard、Fisher 和 CallHome 公开可用的 2000 个小时的转录音频进行训练。
第一个模型是一个能够记忆过去的声学-语音事件的循环神经网络[1]。自去年以来,通过使用 maxout 激活函数(从前一层执行神经元的空间池化)取代常见的 S 型非线性函数,该模型得到了提升。和 S 型神经元相反,maxout 神经元使用一种我们介绍过的全新形式的 annealed dropout 进行训练,这种形式在训练过程中专门检测相关特征。
我们的第二个模型被称为非常深度卷积神经网络(very deep CNN),它起源于图像分类[4]。如果我们用时间和频率两个维度来考虑音频信号的频谱表征,那么语音就可以被视为图像。与应用在我们之前的系统中的经典 CNN 架构([5]具有大内核(通常为 9×9)的仅一个或两个卷积层)相反,我们的非常深度 CNN 具有小的 3×3 内核的多达 10 个卷积层,这能够保存输入的维数。通过在池化层之前将这些卷积层与线性修正函数(Rectified Linear Unit)非线性进行结合,具有更少参数和更多非线性的同样的接受域( receptive field)被创造了出来。这两个在架构和输入表征上有很大不同的模型表现出了非常好的互补性,它们的组合带来了超越单个最好模型的额外增益。
在语言建模方面,我们使用了一序列越来越精致的语言模型(LM)。其基准是一个在多种公开可用的语料库上进行评估的 n-gram 语言模型,这些语料库包括 Switchboard、Fisher、Gigaword 和 Broadcast News and Conversations。使用一种基于指数类的被称为模型 M(model M)的语言模型对通过使用这种语言模型解码获得的假设进行再评级[7]。模型 M 中的「M」是指「medium(媒介)」,即该模型处于语言模型中「恰到好处的」区域:它既不太大也不太小,它刚刚好。最后,我们再次使用神经网络语言模型对候选句子进行评分以得到最终输出。
我们目前正在研究将这些技术整合进 IBM 沃森最先进的语音转文本服务中。通过将我们的声学和语言模型展示给越来越多的真实世界数据,我们期望能弥合「实验室环境」和部署的服务之间的表现差距。
要了解更多细节,请参考我们发布在 arXiv 上的论文。
1. G. Saon, H. Soltau, A. Emami, and M. Picheny, “Unfolded recurrent neural networks for speech recognition”, in Proc. Interspeech, 2014.
2. I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, “Maxout networks”, arXiv preprint arXiv:1302.4389, 2013.
3. S. Rennie, V. Goel, and S. Thomas, “Annealed dropout training of deep networks”, in Spoken Language Technology (SLT) IEEE Workshop, 2014.
4. K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition”, CoRR arXiv:1409.1556, 2014.
5. G. Saon, H.-K. J. Kuo, S. Rennie, and M. Picheny. “The IBM 2015 English conversational telephone speech recognition system.” *arXiv preprint arXiv:1505.05899*, 2015.
6. T. Sercu, C. Puhrsch, B. Kingsbury, and Y. LeCun, “Very deep multilingual convolutional neural networks for LVCSR”, Proc. ICASSP, 2016.
7. S. F. Chen, “Shrinking exponential language models”, in Proc. NAACL-HLT, 2009.
8. H.-K. J. Kuo, E. Arisoy, A. Emami, and P. Vozila, “Large scale hierarchical neural network language models”, in Proc. Interspeech, 2012.
9. G. Saon, T. Sercu, S. Rennie and H.-K. J. Kuo, “The IBM 2016 English conversational telephone speech recognition system.” *arXiv preprint arXiv:1604.08242*, 2016.