Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/32154
Title: Calibration, Structure-from-Motion and Registration Beyond Point Features
Authors: Raposo, Carolina dos Santos 
Orientador: Barreto, João P.
Keywords: Calibration; Structure-from-Motion; 3D Reconstruction; Affine Correspondences; 3D Registration; Calibração; Estrutura por Movimento; Reconstrução planar; Registo
Issue Date: 27-Jun-2017
Citation: RAPOSO, Carolina dos Santos - Calibration, structure-from-motion and registration beyond point features. Coimbra : [s.n.], 2017. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/32154
Project: info:eu-repo/grantAgreement/FCT/SFRH/SFRH/BD/88446/2012/PT 
info:eu-repo/grantAgreement/FCT/5876-PPCDTI/113818/PT 
info:eu-repo/grantAgreement/FCT/5876-PPCDTI/126287/PT 
Abstract: Geometric computer vision is strongly based in point primitives in problems of calibration, Structure-from-Motion (SfM), and registration. The reason for this is that points are the most fundamental primitive that is always present in images. There are other sorts of primitives that can be used, either ones that often arise in man-made environments and that are composition of points, such as lines and planes, or primitives that have a differential character such as affine matches or normals, encoding how surfaces vary locally. In this thesis, we explore these alternative primitives, showing that in the specific contexts of calibration, SfM and registration they can be advantageous with respect to the dominating trend. The first line of work concerns the calibration of heterogeneous sensor arrangements. We start by developing a method for calibrating a camera-depth sensor pair, based on a novel 3D plane registration algorithm, that is able to provide results as accurate as the state-of-the-art using about 1/6 of the input images. This important improvement enables the extension of the calibration approach to the case of non-overlapping Field-of-View (FoV) through mirror reflections, whereas methods that require many more images easily lead to a prohibitive total number of frames to be acquired. By applying a similar extension to the state-of-the-art approach for calibrating camera-Laser RangeFinder (LRF) pairs, we achieve, for the first time, an algorithm that is able to calibrate any sensor arrangement - with or without overlapping FoV - comprising cameras, LRFs and depth sensors, as long as a camera is involved in the system. Plane primitives are also used in the task of SfM and 3D modelling. In these contexts, they lead to advantages over point primitives that include being able to deal with situations of lack of texture, perceptual aliasing, high surface slant, wide-baseline and presence of dynamism in the scene, while providing visually pleasant reconstructions. Thus, and knowing that man-made environments are dominated by planar surfaces, we propose two pipelines that accomplish SfM using these primitives. Experiments clearly demonstrate that all these problems are efficiently tackled with planes, with the proposed pipelines significantly outperforming state-of-the-art point-based approaches in challenging situations. The relations between an Affine Correspondence (AC) and the fundamental geometry have recently been derived [12]. This new result motivated our third topic of research, where we study how ACs constrain the homography and the epipolar geometry. We show that ACs, that are currently discarded after performing point association, contain extremely useful information that can reduce the combinatorics of SfM and enable fast and reliable segmentation of planes. This led to the development of a new monocular Visual Simultaneous Localization and Mapping (vSLAM) pipeline that provides a dense Piecewise Planar Reconstruction (PPR) of the scene and significantly outperforms another competing monocular SfM method. The final subject of research of this thesis is 3D point cloud registration. This is a topic with important applications in object detection and recognition, tracking, Simultaneous Localization and Mapping (SLAM) and even medical endoscopy. We propose to solve the coarse alignment of point clouds in arbitrary initial positions by extracting pairs of oriented points, i.e. points with associated normals. Our method greatly benefits from a new smart indexing technique for extracting pairs of points proposed in the Super4PCS algorithm [79] that works solely with points. A comparison with this method shows that including normals leads to similar or higher accuracies in less than 1/5 of the time when working with noisy depth-camera scans. Speed ups of over 100x are achieved for noise-free datasets.
A visão por computador geométrica é fortemente baseada em primitivas de pontos em problemas de calibração, estrutura por movimento e registo. A razão para isto é que os pontos são a primitiva mais fundamental que está sempre presente nas imagens. Existem outros tipos de primitivas que podem ser usadas, tanto as que surgem em ambientes criados pelo Homem e que são a composição de pontos, tal como linhas e planos, como as que têm um carácter diferencial, tal como correspondências afim e normais que codificam a maneira como as superfícies variam localmente. Nesta tese, exploramos estas primitivas alternativas, mostrando que nos contextos específicos de calibração, estrutura por movimento e registo podem ser vantajosas em relação à tendência dominante. A primeira linha de trabalho diz respeito a calibração de conjuntos de sensores heterogéneos. Começamos por desenvolver um método para calibrar um par câmara-sensor de profundidade, baseado num algoritmo novo de registo de planos 3D, que consegue produzir resultados tão precisos como o estado-da-arte usando acerca de 1/6 das imagens de entrada. Esta melhoria importante permite a extensão do método de calibração para o caso em que os campos de visão dos sensores não se sobrepõem, através de reflexões de espelhos, enquanto que os métodos que necessitam de muitas imagens de calibração facilmente originam um número total de imagens a serem adquiridas que é proibitivo. Aplicando uma extensão semelhante ao método do estado-da-arte em calibração de pares câmara-telémetro laser, obtemos, pela primeira vez, um algoritmo que é capaz de calibrar qualquer conjunto de sensores - com ou sem sobreposição dos campos de visão - contendo câmaras, telémetros laser e sensores de profundidade, desde que uma câmara esteja envolvida no sistema. Primitivas de planos são também usadas nas tarefas de estrutura por movimento e modelação 3D. Nestes contextos, estas primitivas têm vantagens em relação a primitivas de pontos que incluem serem capazes de lidar com situações de falta de textura, aliasing perceptual, declive das superfícies elevado, distância entre câmaras grande e presença de dinamismo na cena, enquanto produzem reconstruções visualmente agradáveis. Assim, e sabendo que os ambientes criados pelo Homem são dominados por superfícies planares, propomos dois esquemas de estrutura por movimento a partir destas primitivas. Os resultados experimentais mostram com clareza que todos estes problemas são eficazmente corrigidos usando planos, e que os esquemas propostos funcionam melhor que os algoritmos do estado-da-arte baseados em pontos em situações desafiantes. As relações entre correspondências afim e a geometria fundamental foram recentemente derivadas em [12]. Este novo resultado motivou o nosso terceiro tópico de investigação, onde estudamos como as correspondências afim restringem a homografia e a geometria epipolar. Mostramos que as correspondências afim, que actualmente são descartadas depois da associação de pontos, contêm informação extremamente útil que pode reduzir a combinatória em estrutura por movimento e permitem uma rápida e fidedigna segmentação de planos. Isto levou ao desenvolvimento de um novo esquema monocular de SLAM (Localização e Mapeamento Simultâneos) visual que origina reconstruções densas da cena em planos e funciona significativamente melhor do que um método competitivo de estrutura por movimento monocular. O último assunto de investigação desta tese é o registo de nuvens de pontos 3D. Este é um tópico com aplicações importantes em detecção e reconhecimento de objectos, seguimento, SLAM e até endoscopia médica. Propomo-nos a resolver o alinhamento grosseiro de nuvens de pontos em posições iniciais arbitrárias através da extracção de pares de pontos orientados, i.e. pontos com normais associadas. O nosso método beneficia bastante de uma nova técnica de indexação inteligente para extrair pares de pontos proposta no algoritmo Super4PCS [79] que trabalha somente com pontos. Uma comparação com este método mostra que incluir normais origina precisões semelhantes ou superiores em menos de 1/5 do tempo, quando trabalhamos com dados ruidosos adquiridos por câmaras de profundidade. Acelerações de mais de 100x são obtidas em datasets sem ruído.
Description: Tese de doutoramento em Engenharia Electrotécnica e de Computadores, na especialidade de Automação e Robótica, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
URI: https://hdl.handle.net/10316/32154
Rights: openAccess
Appears in Collections:FCTUC Eng.Electrotécnica - Teses de Doutoramento

Files in This Item:
Show full item record

Page view(s) 50

489
checked on Mar 26, 2024

Download(s) 50

905
checked on Mar 26, 2024

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.