Localização do locutor em ambiente de videoconferência utilizando sinal de áudio e vídeo
AUTOR(ES)
Dante Augusto Blauth
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
25/03/2010
RESUMO
A localização do locutor ativo em ambientes de videoconferência traz benefícios importantes, como transmitir apenas o sinal relativo a este locutor, reduzindo a quantidade de informações trafegadas na rede, eliminar ruídos indesejados e ainda possibilitar focar a câmera no locutor. Embora essa tarefa não seja inovadora, ainda está sendo aperfeiçoada, visto que ambientes reais de videoconferência possuem ruído, problemas de iluminação, etc., o que torna o objetivo mais difícil de ser alcançado de maneira satisfatória. O presente trabalho apresenta uma metodologia para localização do locutor ativo em videoconferência, utilizando o sinal de áudio capturado por um arranjo de microfones e o sinal de vídeo capturado por uma web-câmera. No tratamento do sinal de vídeo, utiliza-se um algoritmo para detecção de faces, que é modificado para para diminuir seu custo computacional. O sinal de áudio é processado no domínio de frequência, utilizando-se o algoritmo SRP-PHAT para localizar a fonte sonora. A fusão dos dois sinais é feita através de uma função ponderada e o resultado consitui os observáveis de um HMM (Modelo Escondido de Markov), desenhado para melhorar a coerência temporal da localização. O resultado dos experimentos mostra que o método diminuiu em torno de 90% os erros de localização em comparação à localização que utiliza apenas sinal de áudio.
ASSUNTO(S)
locutor ativo videoconferência sinal de áudio sinal de vídeo ciencia da computacao
ACESSO AO ARTIGO
http://bdtd.unisinos.br/tde_busca/arquivo.php?codArquivo=1267Documentos Relacionados
- Processamento e compressão do sinal de video utilizando a transformada wavelet
- Metodo de sincronização de cameras de video utilizando a banda de audio
- Construindo uma oficina virtual de vídeo e videoconferência interativa
- Avaliação dos Trechos Sonoros e Não Sonoros do Sinal de Fala para Identificação de Locutor Independente de Texto
- Um sistema de video-conferencia para educação a distancia baseado em padrões abertos