Agrupamento e categorização de documentos jurídicos

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

25/03/2011

RESUMO

Este trabalho estuda a aplicação de técnicas de aprendizado de máquina (agrupamento e classificação) à pesquisa de jurisprudência, no âmbito do processo judicial eletrônico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprudência, gerando automaticamente classes que servem ao posterior processo de categorização dos documentos anexados ao processo jurídico. O algoritmo TClus de Aggarwal, Gates e Yu é selecionado para desenvolvimento de exemplo de uso, com propostas de alteração no descarte de documentos e grupos, e passando a incluir a divisão de grupos. A proposta ainda introduz um paradigma "bag of terms and law references"em lugar do "bag of words", quando utiliza, na geração dos atributos, os tesauros do Senado Federal e da Justiça Federal para detectar termos jurídicos nos documentos e expressões regulares para detectar referências legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprudência do Tribunal Regional Federal da 4a Região. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de significância de Wilcoxon e contagem de vitórias e derrotas. Os resultados da categorização foram avaliados por avaliadores humanos. A discussão e análise desses resultados abrangeu a comparação do sucesso e falha na classificação em relação à similaridade do documento com o centróide no momento da categorização, à quantidade de documentos nos grupos, à quantidade e tipo de atributos nos centróides e à coesão dos grupos. Discute-se, ainda, a geração dos atributos e suas implicações nos resultados da classificação. Contribuições deste estudo: confirmação da possibilidade de uso do aprendizado de máquina na pesquisa jurisprudencial, evolução do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divisão de grupos, proposta de novo paradigma bag of terms and law references, através de prototipação do processo proposto com exemplo de uso e avaliações automáticas na fase de clustering, e por especialista humano na fase de categorização.

ASSUNTO(S)

informÁtica processamento de textos (computaÇÃo) categorizaÇÃo (linguÍstica) algoritmos (programaÇÃo) ciencia da computacao

Documentos Relacionados