Proposta e avaliação de mecanismos de combate à poluição em sistemas de compartilhamento de vídeos

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

28/03/2011

RESUMO

A maioria dos sistemas de compartilhamento de vídeo online (SCVOs), como o YouTube e o Yahoo! Vídeo, possuem vários mecanismos para suportar interações entre os usuários. Um destes mecanismos é o recurso de vídeo-resposta no YouTube, que permite ao usuário postar um vídeo em resposta a um outro vídeo. Embora cada vez mais popular, o recurso de vídeo-resposta abre a oportunidade para que usuários não-cooperativos introduzam conteúdo poluído no sistema, causando perda de eficácia e credibilidade do serviço, bem como desperdício de recursos do sistema. Por exemplo, os usuários não-cooperativos, a quem nos referimos como spammers, podem postar vídeos não relacionados em resposta a um outro vídeo (o vídeo respondido), tipicamente um vídeo muito popular, com o objetivo de ganhar visibilidade para seus próprios vídeos. Além disso, os usuários referidos como promotores de conteúdo postam diversos vídeos não relacionados em resposta a um único vídeo com a intenção de aumentar a visibilidade deste último. Trabalhos anteriores sobre a detecção de spammers e promotores de conteúdo no YouTube se basearam principalmente em métodos de classificação supervisionados. A desvantagem da aplicação de soluções supervisionadas para esse problema específico é que, além de extremamente caras (em alguns casos, milhares de vídeos tem que ser vistos e rotulados), o processo de aprendizagem tem de ser continuamente realizado para lidar com as mudanças nas estratégias adotadas pelos usuários não-cooperativos. Neste trabalho, exploramos o uso de estratégias semi-supervisionadas baseadas em múltiplas visões, o que nos permite reduzir significativamente a quantidade de treinamento para detectar usuários não-cooperativos no YouTube, mas mantendo uma eficácia similar àquela obtida utilizando todo o treinamento. Nosso método proposto explora o fato de que, neste problema, existe uma partição natural do espaço de atributos em sub-grupos ou visões , cada uma sendo capaz de classificar usuários, quando dados de treino suficientes estão disponíveis. Além disso, propomos lidar com o problema da combinação de visões como um problema de agregação de rankings, onde rankings baseados na confiança da classificação são combinados para decidir se um exemplo não rotulado deve ser incluído no conjunto de treino. Nossos resultados demonstram que somos capazes de reduzir a quantidade de treino em cerca de 80%, sem perdas significativas na efetividade da classificação. Por fim, desenvolvemos um modelo analítico para estimar os custos associados com a utilização de diferentes métodos para identificar usuários não-cooperativos em SCVOs. Aplicamos este modelo em diversos cenários com o intuito de comparar nosso melhor método proposto (um método híbrido) com um método supervisionado que utiliza todo o conjunto de treino disponível (nosso baseline). Os resultados desta análise mostraram que nosso método possui um custo menor de utilização do que o baseline para grande parte dos cenários analisados.

ASSUNTO(S)

computação teses.

Documentos Relacionados