Multi-Lingual Text Localization via Language-Specific Convolutional Neural Networks

Abstract

Localização e Reconhecimento de texto em cena é um tópico em visão computacional que objetiva delimitar regiões candidatas em uma imagem de entrada contendo texto em cena. O desafio desta pesquisa consiste em desenvolver detectores capazes de lidar com diversas fontes de variabilidade tais como tamanho de fontes e cor, fundo complexo, texto em diferentes linguagens, entre outros. Este trabalho apresenta uma comparação entre estratégias para a construção de modelos de classificação baseados em Redes Neurais Convolucionais, para detectar elementos textuais em múltiplas linguagens em imagens, tais como: (i) modelo de classificação construído em um cenário multilíngue; e (ii) modelo de classificação construído em um cenário de linguagem específica. Os experimentos conduzidos neste trabalho indicam que modelos de linguagem específica superam os modelos treinados em um cenário multilíngue, apresentando uma melhoria de 14.79%, 8.94%, e 11.43%, em termos de precisão, revocação e f-measure, respectivamente.

Publication
Anais Estendidos da XXXII Conference on Graphics, Patterns and Images