Adaptação de locutor em sistema de reconhecimento de fala contínua empregando "Eigenvoices"

AUTOR(ES)
DATA DE PUBLICAÇÃO

2004

RESUMO

Neste trabalho realizou-se o estudo da técnica via "eigenvoices"[13] [16][17][18] [30] [31]para adaptação de locutor em um sistema de reconhecimento de fala contínua usando o portugués do Brasil. Dentre as várias técnicas utilizadas para a adaptação de locutor, incluindo as clássicas MAP ("Maximum A Posteriori ) e MLLR ("Maximum Likelihood Linear Regression ), uma nova técnica, chamada "eigenvoice technique", foi proposta por Kuhn visando tornar mais rápido o processo de adaptação de locutor para aplicação em sistemas operando em tempo real. No início, estudos se concentraram nas aplicações com palavras isoladas, mas várias pesquisas estão sendo realizadas para a análise dessa técnica em fala contínua, como é o caso deste trabalho. A característica principal da técnica de adaptação via "eigenvoices" é a representação do novo locutor como uma combinação linear de parâmetros ("eigenvoices") obtidos a partir de modelos dependente de locutor previamente treinados. Dessa forma, o novo locutor é representado como um ponto dentro do espaço cujos eixos são formados pelos "eigenvoices". O algoritmo de máxima verossimilhança MLED ("Maximum Likelihood Eigen Decomposition ) foi usado para o cálculo dos coeficientes da combinação linear para a estimação dos parâmetros do novo locutor. Após a realização de testes com número variado de locuções de adaptação e de iterações do algoritmo, foi observado que: para um bom desempenho dos modelos adaptados, 3 a 5 iterações do algoritmo são necessárias; o mais importante não é o número de locuções de adaptação mas sim o seu conteúdo fonético. Em suma, o estudo revelou que a técnica se mostrou eficiente para a aplicação, porém mais pesquisas são necessárias na área.

ASSUNTO(S)

telecomunicações processamento de sinais reconhecimento automatico da voz sistemas de processamento da fala

Documentos Relacionados