Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.
AUTOR(ES)
MOURA, M. F.
FONTE
Campinas: Embrapa Informática Agropecuária
DATA DE PUBLICAÇÃO
2010
RESUMO
Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas.
ASSUNTO(S)
recuperação da informação seleção de atributos n-gramas atributos redundantes mineração de textos dados categorizados attribute selection information retrieval n-grams redundant attribute text mining categorical data
ACESSO AO ARTIGO
http://www.infoteca.cnptia.embrapa.br/handle/doc/885611Documentos Relacionados
- Algoritmo narfo para mineração de regras de associação generalizadas não redundantes baseada em uma ontologia difusa
- Proposta de utilização de mineração de textos para seleção, classificação e qualificação de documentos.
- Mil dias, 150 textos.
- Um método para predição de ligações a partir de mineração em textos e métricas em redes sociais
- Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos