Identificação de atividade de voz baseada em vídeo
AUTOR(ES)
Dario Scott
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
30/03/2010
RESUMO
Atualmente, existem diversos trabalhos com as mais variadas abordagens relativas ao processamento de imagens digitais para detecção de atividade de voz (VAD). As suas aplicações perpassam diferentes áreas, como por exemplo, comandos de voz em veículos e videoconferência. A motivação deste trabalho constitui-se na construção de um algoritmo que contribua para o aperfeiçoamento das técnicas de processamento de imagens aplicadas para a detecção de atividade de voz em vídeos. A problemática envolvida já apresenta uma grande diversidade de abordagens. No entanto, o foco deste trabalho situa-se na busca de alternativas para a melhoria na extração de um modelo de cor de pele e não-pele e, a partir daí, extrair um classificador para identificar a atividade de fala com mais precisão. Algoritmos já existentes de identificação de face e de classificação dos lábios foram utilizados e aprimorados. Através da criação de patches abaixo dos olhos, foi criado um modelo para determinar as características individuais de cor de pele por meio de média e desvio padrão dos pixeis dos patches e da região da boca. Os resultados encontrados são apresentados baseados em duas abordagens. A primeira, quando se realiza o treinamento somente com imagens sem fala e uma segunda treinando fala e não fala para determinar o classificador de VAD. Este novo modelo de identificação de atividade de voz apresentou um grau de acerto em torno de 80% para a primeira abordagem e 90% para a segunda além de um baixo custo computacional em tempo real.
ASSUNTO(S)
processamento de imagem detecção de fala modelo de cor de pele voice activity detection image processing skin color model ciencia da computacao
ACESSO AO ARTIGO
http://bdtd.unisinos.br/tde_busca/arquivo.php?codArquivo=1246Documentos Relacionados
- Identificação de transições em vídeo baseada na análise de imagens 2D
- Identificação de Burkholderia pseudomallei baseada em PCR
- Codificação de vídeo baseada em fractais e representações esparsas
- Uma metodologia educacional baseada em vídeo para pessoas com deficiências
- Identificação de nomes ativos em agentes-π baseada em tipos