GROSC: uma proposta de segmentação de caracteres impressos orientada a regiões em níveis de cinza

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

28/10/2011

RESUMO

Os sistemas de Optical Character Recognition (OCR, ou Reconhecimento ótico de caracteres em português) designam genericamente tecnologias para reconhecer caracteres a partir de um arquivo de imagem que contenha textos. Permite, por exemplo, que uma folha de texto impresso, ao ser digitalizada, possa ser convertida em um arquivo de texto editável. Esses sistemas foram muito difundidos ao longo dos últimos anos, com viárias versões comerciais, incluindo os incorporados em aparelhos scanner. Uma das etapas que definem o sucesso ou fracasso deste tipo de sistema é a correta segmentação das linhas de texto e dos caracteres que o constituem. Atualmente ganhou importância a correta segmentação das palavras contidas no texto, para auxiliar possíveis etapas de pós-processamento para a correção de desvios de reconhecimento. Neste trabalho são apresentados dois métodos diferenciados para segmentação de textos. O primeiro método, denominado Segmentação de Linhas e Palavras baseado no Operador de Energia de Teager (SLP-TEO) é utilizado na segmentação de linhas de texto e segmentação de palavras. O TEO e aplicado ao sinal abstraído da projeção linear (horizontal ou vertical) gerada através da imagem binária do texto. Um dos diferenciais do método é que o mesmo pode ser aplicado a textos impressos ou manuscritos, sem nenhum ajuste prévio. Além disso, o mesmo algoritmo é utilizado tanto na segmentação de linhas quanto na segmentação de palavras, impressas ou manuscritas. A base de dados adotada neste projeto (IAM-Database), consagrada em diversas pesquisas de OCR, possui,para todo texto impresso, transcrições manuscritas que também foram alvo do método SLP-TEO. O segundo método, denominado gray-Region Oriented Segmentation of Characters-(gROSC), em português Segmentação de Caracteres Orientado à Regiões em níveis de cinza, é aplicado às imagens das palavras em tons de cinza com a finalidade de segmentação de caracteres. Este método baseia-se nos métodos de segmentação de regiões em que os pixels conectados são visitados e rotulados. Um dos diferenciais do método é que o mesmo deve ser aplicado às imagens em níveis de cinza das palavras segmentadas. Além disso, utilizando o limiar de Otsu e conhecendo-se os níveis de cinza da imagem, o método determina a variação máxima entre tons de cinza que permite ou não visitar o pixel vizinho, agregando-o à região de interesse a ser segmentada. Na base de dados adotada existem três tipos básicos de caracteres problemáticos: caracteres sobrepostos, caracteres conectados e desenho de fontes. O método gROSC é aplicado às imagens de todas as palavras segmentadas anteriormente e os caracteres são segmentados igualmente sem prévia identificação dos possíveis problemas. Os experimentos e resultados encontrados em todas as etapas de segmentação dos textos com ambos os métodos são bastante relevantes e demonstram a eficiência e simplicidade dos métodos propostos.

ASSUNTO(S)

teager energy operator (teo) segmentação de caracteres segmentação de regiões segmentação de linhas e palavras operador de energia de teager engenharia eletrica processamento de palavras processamento de textos (computação) character segmentation region oriented segmentation segmentation of lines and words

Documentos Relacionados