Methods for Flexible Representation and Coding of 2D and 3D Visual Information

Ferreira, Lino Miguel Moreira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/31011

Title:	Methods for Flexible Representation and Coding of 2D and 3D Visual Information
Authors:	Ferreira, Lino Miguel Moreira
Orientador:	Cruz, Luís Alberto da Silva Assunção, Pedro António Amado de
Keywords:	Conteudo de vídeo; Representação visual; Métodos para calcular a saliência visual; Sumarização de vídeo; Redimensionamento de vídeo; Codificação de sumários de vídeo; Video content; Visual representation; Visual saliency computational methods; Video summary coding
Issue Date:	24-May-2016
Citation:	FERREIRA, Lino Miguel Moreira - Methods for flexible representation and coding of 2D and 3D visual information. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31011
Abstract:	Atualmente existe uma grande diversidade e quantidade de conteúdos multimédia utilizados em diferentes aplicações que exigem ferramentas de gestão eficientes e flexíveis para diferentes fins, tais como adaptação, indexação e pesquisa. No entanto, os formatos de representação atuais são principalmente agnósticos em relação ao conteúdo visual contido nos sinais digitais. Consequentemente, o acesso e o processamento da informação visual com base em algum tipo de relevância para os utilizadores ficam bastante limitados, e as soluções mais eficientes para adaptação de conteúdos devido a restrições dos sistemas de comunicação heterogéneos podem não ser facilmente alcançadas. Neste contexto, o trabalho de investigação realizado nesta Tese é uma contribuição para aumentar a flexibilidade de representação da informação visual existente nos sinais de vídeo e expandir o estado-da-arte relativamente aos métodos associados. Esta dissertação é iniciada por uma revisão bibliográfica dos conceitos básicos utilizados na representação da informação visual, codificada e por codificar. Adicionalmente, apresenta-se uma revisão dos métodos usados para calcular saliências visuais em vídeo 2D/3D. Apresenta-se também um estudo exaustivo dos métodos de segmentação temporal e sumarização de vídeo 2D/3D e uma visão geral dos métodos de redimensionamento de vídeo. Adicionalmente, são descritos de forma global os conceitos básicos de codificação de vídeo incluindo um estudo mais aprofundado da codificação de vídeo escalável e das Regiões de Interesse. Neste trabalho foram desenvolvidos dois métodos para calcular mapas saliência visual em vídeo 3D. Estes métodos, baseiam-se na fusão de quatro mapas saliência intermédios (espaço-temporal, de profundidade e da saliência face), seguido por uma função de ponderação centre-bias, que é usada para modelar a tendência humana para observar objetos localizados no centro da cena. Os métodos propostos foram avaliados com mapas de densidade de fixação, obtidos a partir de experiências de eye-tracking. Os resultados experimentais mostram que os métodos propostos obtêm melhor desempenho do que outros descritos na literatura. Adicionalmente, e tendo em conta os resultados dos métodos de cálculo de mapas saliência visual propostos, foi desenvolvido e avaliado um método de redimensionamento espaço-temporal com base em regiões salientes. O método proposto redimensiona o vídeo original para o tamanho específico de ecrã do dispositivo terminal. A solução proposta de redimensionamento é comparada com outros métodos existentes na literatura e os resultados mostram que a solução proposta alcança resultados competitivos. A representação flexível de informação visual no domínio temporal foi investigada no âmbito sumarização de vídeo. Neste caso, foi estudado e proposto uma abordagem nova para obter versões reduzidas de uma sequência de vídeo de acordo com critérios previamente definidos. Esta abordagem é constituida por duas partes: a segmentação temporal e a extração das tramas-chave. A solução proposta suporta vários formatos de vídeo, podendo ser usados critérios diversos para segmentar o vídeo original e para extrair as tramas-chave, como por exemplo saliências visuais. Diferentes métricas e vídeos foram utilizadas para avaliar o desempenho do modelo. Os resultados demonstram que o modelo proposto supera os métodos semelhantes descritos na literatura. No geral, os temas investigados nesta tese e os resultados de desempenho obtidos a partir de simulações demonstram a validade do trabalho realizado e são motivadoras de novas investigações nestes tópicos. Nowadays, there is a great diversity and quantity of image and video content used in multimedia services and applications, which require efficient and flexible management tools for different purposes, such as adaptation, indexing, searching and browsing. However, the existing representation formats are mostly agnostic in regard to the visual content conveyed by the digital signals. As a consequence, the access and processing of the visual information based on user-driven parameters is rather limited and the most efficient solutions for adaptation and matching heterogeneous constraints in communication systems cannot be easily achieved. In this context, the research work carried out in this Thesis is a contribution to advance state-of-the-art methods capable of providing different types of additional flexibility in the representation of visual information. The Thesis starts with a review of the basic concepts used in representation of the visual information either in raw or coded format. Additionally, a review of visual saliency computation methods for 2D/3D video is presented, where the relevant methods regarding this issue are explained. A comprehensive study of temporal segmentation and video summarisation methods for 2D/3D is first realised. Then an overview of video retargeting methods is presented, describing different methods and including non-content-aware and content-aware retargeting methods. In addition, an overview of coding schemes that are able to cope with flexible representation of visual content is also described. After a brief review of the basic video coding concepts, the study is mainly focused on scalable and ROI video coding. This research work proposes two methods for computing visual saliency maps for 3D video. These, are based on the fusion of four intermediate saliency maps (spatio-temporal, depth and face saliency) followed by a centre-bias weighting function, which is used to model the human tendency to gaze at objects located in the centre of the visual scene. The proposed methods have been evaluated with diverse publicly available datasets which contain several videos and the respective fixation density maps, obtained from eye-tracking experiments. The experimental results show that the proposed methods achieve better performance than other state-of-the-art methods used here. Additionally, and taking into account the output of the proposed visual saliency computation methods, a spatio-temporal retargeting method based on salient regions was developed and evaluated. The proposed method resizes the original video for specific display size. Our retargeting solution is compared against state-of-the-art methods and the results show that the proposed approach achieves competitive results. A flexible representation of visual information in the temporal domain was also investigated in the field of video summarisation. Here, a computational framework to obtain compact versions of video sequences (video summary), according to meaningful criteria is presented. The proposed framework is composed by two modules namely, the temporal segmentation and the key-frame extraction. The proposed solution addresses various video types and formats, several meaningful criteria can be used to segment original video and to select the key-frames, such as visual saliency. Using different performance metrics and publicly available databases, the results demonstrate that the proposed framework outperforms similar state-of-the-art methods. Overall, the topics investigated in this Thesis and performance results obtained from simulations, demonstrate the validity of the work done and provide good insight to further research in these topics.
Description:	Tese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Telecomunicações, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
URI:	https://hdl.handle.net/10316/31011
Rights:	openAccess
Appears in Collections:	FCTUC Eng.Informática - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
Methods for Flexible Representation and Coding of 2D and 3D Visual Information.pdf		7.32 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

303

checked on Oct 8, 2024

Download(s) 50

511

checked on Oct 8, 2024

Google Scholar^TM

Check

Files in This Item:

Page view(s)

Download(s) 50

Google ScholarTM

Google Scholar^TM