Localização e Reconhecimento de texto em cena é um tópico em visão computacional que objetiva delimitar regiões candidatas em uma imagem de entrada contendo texto em cena. O desafio desta pesquisa consiste em desenvolver detectores capazes de lidar com diversas fontes de variabilidade tais como tamanho de fontes e cor, fundo complexo, texto em diferentes linguagens, entre outros. Este trabalho apresenta uma comparação entre estratégias para a construção de modelos de classificação baseados em Redes Neurais Convolucionais, para detectar elementos textuais em múltiplas linguagens em imagens, tais como: (i) modelo de classificação construÃdo em um cenário multilÃngue; e (ii) modelo de classificação construÃdo em um cenário de linguagem especÃfica. Os experimentos conduzidos neste trabalho indicam que modelos de linguagem especÃfica superam os modelos treinados em um cenário multilÃngue, apresentando uma melhoria de 14.79%, 8.94%, e 11.43%, em termos de precisão, revocação e f-measure, respectivamente.