Agrupamento e categorização de documentos jurídicos
AUTOR(ES)
Luis Otávio de Colla Furquim
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
25/03/2011
RESUMO
Este trabalho estuda a aplicação de técnicas de aprendizado de máquina (agrupamento e classificação) à pesquisa de jurisprudência, no âmbito do processo judicial eletrônico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprudência, gerando automaticamente classes que servem ao posterior processo de categorização dos documentos anexados ao processo jurídico. O algoritmo TClus de Aggarwal, Gates e Yu é selecionado para desenvolvimento de exemplo de uso, com propostas de alteração no descarte de documentos e grupos, e passando a incluir a divisão de grupos. A proposta ainda introduz um paradigma "bag of terms and law references"em lugar do "bag of words", quando utiliza, na geração dos atributos, os tesauros do Senado Federal e da Justiça Federal para detectar termos jurídicos nos documentos e expressões regulares para detectar referências legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprudência do Tribunal Regional Federal da 4a Região. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de significância de Wilcoxon e contagem de vitórias e derrotas. Os resultados da categorização foram avaliados por avaliadores humanos. A discussão e análise desses resultados abrangeu a comparação do sucesso e falha na classificação em relação à similaridade do documento com o centróide no momento da categorização, à quantidade de documentos nos grupos, à quantidade e tipo de atributos nos centróides e à coesão dos grupos. Discute-se, ainda, a geração dos atributos e suas implicações nos resultados da classificação. Contribuições deste estudo: confirmação da possibilidade de uso do aprendizado de máquina na pesquisa jurisprudencial, evolução do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divisão de grupos, proposta de novo paradigma bag of terms and law references, através de prototipação do processo proposto com exemplo de uso e avaliações automáticas na fase de clustering, e por especialista humano na fase de categorização.
ASSUNTO(S)
informÁtica processamento de textos (computaÇÃo) categorizaÇÃo (linguÍstica) algoritmos (programaÇÃo) ciencia da computacao
ACESSO AO ARTIGO
http://tede.pucrs.br/tde_busca/arquivo.php?codArquivo=4264Documentos Relacionados
- CADWeb: categorização automática de documentos digitais
- DocSense - infraestrutura para categorização, atribuição e recuperação semântica de documentos.
- Implicações da categorização e indexação na recuperação da informação tecnológica contida em documentos de patentes
- SeleÃÃo local de caracterÃsticas em agrupamento hierÃrquico de documentos
- Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito