Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models.
AUTOR(ES)
Denis Pirttiaho Cardoso
DATA DE PUBLICAÇÃO
2009
RESUMO
A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados.
ASSUNTO(S)
acustic signal processing digital speech processing reconhecimento de voz speech recognition processamento de sinais acústicos processamento digital de voz
Documentos Relacionados
- IDENTIFICAÇÃO DE MODELOS GARCH USANDO INTELIGÊNCIA COMPUTACIONAL
- ROBUST TEXT-INDEPENDENT SPEAKER IDENTIFICATION USING MULTIPLE CLASSIFIERS IN SUB-BANDS
- Representações hierárquicas de vocábulos de línguas indígenas brasileiras: modelos baseados em mistura de Gaussianas
- Sistemas de adaptação ao locutor utilizando autovozes.
- Microbial gene identification using interpolated Markov models.