神经网络方法

目前有关语言和语音处理的公共可用的开源软件越来越多,而大多数的语音识别系统仅仅处理封闭的词汇表。但对于处理无限制语音输入的应用程序来说,即使再大的词汇表也无法覆盖所有的词汇。德国亚琛工业大学开发的开源语音识别工具(RWTH ASR,简称RASR),可将词汇表中的词单元组合起来合并成一个新词,从而在识别处理过程中识别外来词汇,完成大词汇量连续语音识别。 本文除了回顾语音识别相关理论背景之外,更重要的是通过RASR工具中的声学模型和解码器开发识别大词汇量语音系统。通过配置相应参数完成语音信号分析,估计高斯混合模型(Gaussian Mixture Models,GMM)和语音决策树,结合深度神经网络(Deep Neural Network,DNN)得到一个开放的词汇自动语音识别(Automatic Speech Recognition,ASR)系统。通过使用SRI LM工具包训练语言模型,最后使用NIST SCTK语音识别评分工具包进行误差分析和评估。本文的重点是使用神经网络(Neural Network,NN)模块训练神经网络声学模型,并详细说明和介绍如何使用RASR开发大词汇量连续语音自动识别系统,重点介绍训练和识别的配置和实现。

首页标题    神经网络方法
浏览量:0