RECONOCIMIENTO DE VOZ EN PRESCENCIA DE RUIDO / SPEECH RECOGNITION IN NOISE ENVIRONMENT / RECONHECIMENTO DE VOZ EM PRESENÇA DE RUÍDO

AUTOR(ES)
DATA DE PUBLICAÇÃO

2001

RESUMO

Este trabalho apresenta um estudo comparativo de três técnicas de melhoria das taxas de reconhecimento de voz em ambiente adverso, a saber: Normalização da Média Cepestral (CMN), Subtração Espectral e Regressão Linear no Sentido da Máxima Verossimilhança (MLLR), aplicadas isoladamente e em concomitância, duas a duas. Os testes são realizados usando um sistema simples: reconhecimento de palavras isoladas (dígitos de zero a nove, e meia), modo dependente do locutor, modelos ocultos de Markov do tipo contínuo, e vetores de atributos com doze coeficientes cepestrais derivados da análise de predição linear. São adotados três tipos de ruído (gaussiano branco, falatório e de fábrica) em nove razões sinal-ruído diferentes. Os resultados experimentais demonstram que o emprego isolado das técnicas de reconhecimento robusto é, em geral, vantajoso, pois nas diversas razões sinal-ruído para as quais os testes são efetuados, quando as taxas de reconhecimento não sofrem um acréscimo, mantém-se as mesmas obtidas quando não se aplica nenhum método de aumento da robustez. Analisando-se comparativamente as implementações isoladas e simultânea das técnicas, constata-se que a simultânea nem sempre é atraente, dependendo da dupla empregada. Apresentam-se, ainda, os resultados decorrentes do uso de modelos ruidosos, observando-se que, embora sejam inegavelmente melhores, sua utilização é inviável na prática. Das técnicas implementadas, a que representa resultados mais próximos ao emprego de modelos ruidosos é a MLLR, seguida pela CMN, e por último pela Subtração Espectral. Estas últimas, embora percam em desempenho para a primeira, apresentam como vantagem a simplicidade e a generalidade. No que concerne as técnicas usadas concomitantemente, a dupla Subtração Espectral e MLLR é a considerada de melhor performance, pois mostra-se conveniente em relação ao emprego isolado de ambos os métodos, o que nem sempre ocorre com o uso de outras combinações das técnicas individuais.

ASSUNTO(S)

normalizacao da media cepestral subtracao espectral cepstral mean normalization maximum likelihood linear regression noise regressao linear no sentido da maxima verossimilhanca spectral subtraction ruido reconhecimento de voz speech recognition

Documentos Relacionados