Inferência em assinaturas de amostras em cadeias de memória de alcance variável

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

25/11/2011

RESUMO

A análise de um modelo estocástico que descreva, realisticamente, uma situação prática é um grande desafio, em particular porque os fenômenos reais exibem várias dependências. Neste contexto os modelos markovianos desempenham um papel fundamental, uma vez que permitem soluções mais ecientes. Uma cadeia de Markov fXt; t 2 Zg de ordem k assumindo valores em um alfabeto A nito tem jAjk(jAj .. 1) parâmetros a serem estimados. Esse número cresce exponencialmente em k e, portanto, pode tornar-se inviável mesmo para valores não muito Uma alternativa mais viável do ponto de vista da estimação, é a utilização de Cadeias de Memória de Alcance Variável (VLMC), conhecidas também por Árvores Probabilísticas de Contexto (PCT). O modelo VLMC foi introduzido por Rissanen em 1983. Nesse modelo o tamanho do passado relevante para prever o próximo símbolo muda de uma sequência para outra. Desta forma, o número de parâmetros a serem estimados dimimui muito, uma vez que não precisamos considerar todos os passados de ordem k, mas apenas aqueles relevantes que, em geral, são em número bem menor.grandes de k. A estimação dos parâmetros do modelo VLMC pode ser feita de maneira consistente através do critério de informação Bayesiano (BIC). O estimador BIC consiste em penalisar a máxima verossimilhança pelo número de parâmetros a serem estimados, estabelecendo um equilíbrio entre a verossimilhança e o número de parâmetros do modelo. Nesse trabalho foi utilizada a metodologia BIC para estimar as VLMC s baseado no algoritmo proposto no artigo de Csiszar e Talata(2006). Construímos um programa na linguagem R www.r-project.org) para fazer a estimação das VLMC e utilizamos uma variante desse algoritmo, proposto em Galves et al (2011), para estimar os valores das constantes de penalização C de cada VLMC candidata dada uma amostra da cadeia. Uma constante ótima de penalização é obtida mudando os valores da constante de penalização e escolhendo aquela que agrega um valor signicativo à verossimilhança . Para cada valor de C, temos um valor da penalização da verossimilhança, obtendo assim uma sequência de constantes de penalização Cn >Cn..1 >: : : >Copt, que chamamos de Assinatura da Amostra. E de acordo com a assinatura deixada pela amostra, encontramos um padrão de diferenciação entre textos do Corpus Histórico Tycho Brahe (www.tycho.unicamp.br) através da metodologia das Equações de Estimação Generalizadas (GEE) que vai de encontro à conjectura linguística que diz que houve mudança no ritmo do Português Brasileiro por volta do século 17.

ASSUNTO(S)

estatística teses.

Documentos Relacionados