Detecção Automática de Texto em Sequências de Vídeo

Nereu, Inês Daniela Cunha

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/99677

Title:	Detecção Automática de Texto em Sequências de Vídeo
Authors:	Nereu, Inês Daniela Cunha
Orientador:	Peixoto, Paulo José Monteiro
Keywords:	Transformada Wavelet de Haar; Transformada de Fourier; detecção de contornos; algoritmo de classificação K-médias; eliminação de falsos positivos; classificação de frames; Haar Wavelet Transform; Fourier Transform; edge analysis; k-means clustering; false positive elimination; text frames classification
Issue Date:	Oct-2012
Place of publication or event:	Coimbra
Abstract:	A detecção de texto é importante uma vez que permite obter informação relevante em imagens digitais, video, bases de dados e páginas web. Contudo, a sua detecção é bastante desafiante uma vez que o texto está frequentemente integrado num fundo complexo. São propostos três métodos para detectar tanto texto gráfico como texto de cena em frames de video. O primeiro baseia-se na Transformada Wavelet de Haar com a decomposição nível um nas sub-bandas LL, HL e HH onde são computadas um conjunto de características que vão alimentar o algoritmo k-médias para classificar as zonas de texto e as sem texto. A média das sub-bandas da Wavelet de Haar e a imagem binária resultante do k-médias permitem a classificação dos pixeis de texto. Os blocos de texto são segmentados com base na análise das projecções horizontais e verticais. Finalmente é introduzido um método para eliminação dos falsos positivos baseado nos contornos intrínsecos e extrínsecos. O segundo método é baseado na Transformada de Fourier no espaço de cores RGB. Neste método as características são calculadas sobre a FT nas sub-bandas R, G e B as quais são passadas enquanto argumento para o algoritmo k-médias e as restantes fases são iguais às do método anterior. O terceiro método detecta contornos para obter o mapa dos contornos nas direcções horizontal, vertical, diagonal direita para cima e diagonal esquerda para cima. Em seguida, as características são calculadas sobre os quatro mapas de contornos para serem o argumento do algoritmo de classificação k-médias. As restantes fases são iguais às dos dois métodos resumidos anteriormente. Por último foi ainda implementado um método de classificação de frames através de três regras formuladas com base no comportamento dos contornos para identificar frames de texto. Todos os métodos foram testados para uma variedade de imagens incluindo imagens com baixo contraste, diferentes fontes e distintos tamanhos de caracteres. Os resultados experimentais demonstram um melhor desempenho para o primeiro método. Text detection is important in the retrieval of texts from digital pictures, video, databases and WebPages. However, it can be very challenging since the text is often embedded in a complex background. I propose three methods for both graphics and scene text detection in video frames. The first is based on Haar Wavelet Transform, this method uses Wavelet single level decomposition LL, HL and HH sub bands for computing features and the computed features are fed to k-means clustering to classify the text pixel from the background of the image. The average of the Wavelet sub bands and the output of k-means clustering helps in classifying true text pixel in the image. The text blocks are detected based on analysis of projection profiles. Finally I introduce a method based on intrinsic and extrinsic edges to eliminate the false positives. The second method is based on Fourier Transform (FT) in RGB space and the features are computed over Fourier Transform on R,G and B sub bands to be fed to k-means, the rest of the steps are like the ones of the first method. The third method applies edge detection to get four edge maps in horizontal, vertical, up-right and up-left direction. Secondly the features are extracted from four edge maps to be fed to k-means. The rest of the steps are also like the ones of the first and second methods. Moreover a text frame classification is proposed based on three visual rules of the edges to indentify a true text frame. The robustness of all the methods is tested by conducting experiments on a variety of images of low contrast, different fonts and size of text in the image. The experimental results show that Haar Wavelet Transform outperforms the other methods.
Description:	Dissertação de Mestrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra.
URI:	https://hdl.handle.net/10316/99677
Rights:	openAccess
Appears in Collections:	FCTUC Eng.Electrotécnica - Teses de Mestrado

Files in This Item:

File	Description	Size	Format
DanielaCunha.pdf		3.75 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

61

checked on Jul 16, 2024

Download(s)

16

checked on Jul 16, 2024

Google Scholar^TM

Check

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM