Deep Learning-based Perception Modules using RGB Data applied in a Dynamic Visual Interface for Brain-actuated Wheelchairs

Pereira, Ricardo Manuel Teixeira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/115738

DC Field	Value	Language
dc.contributor.advisor	Lopes, Ana cristina Barata Pires	-
dc.contributor.advisor	Nunes, Urbano José Carreira	-
dc.contributor.author	Pereira, Ricardo Manuel Teixeira	-
dc.date.accessioned	2024-07-25T22:00:25Z	-
dc.date.available	2024-07-25T22:00:25Z	-
dc.date.issued	2024-07-09	-
dc.date.submitted	2024-07-25	-
dc.identifier.uri	https://hdl.handle.net/10316/115738	-
dc.description	Tese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia	-
dc.description.abstract	This Ph.D. thesis provides contributions in the fields of perception for mobile robotics and intuitive navigation target selection for brain-actuated wheelchairs. The main subject addressed in this Ph.D. thesis is the research and development of the Dynamic Environment-based Visual Interface System (DEVIS) for intuitive navigation target selection applied in brain-actuated wheelchairs. DEVIS features an innovative visual interface designed to provide users with potential environment-based dynamic navigation targets in the form of visual cues during navigation missions of a brain-actuated wheelchair, in which users select their navigation targets through a P300-based Brain-Computer Interface (BCI). To provide users with such environment-based dynamic navigation targets, DEVIS incorporates RGB-based perception modules involving object detection, object tracking, and indoor scene classification, all of which are addressed in this Ph.D. thesis. Experimental assessments of DEVIS were carried out in a dynamic setting with five participants, and very promising accuracy levels were achieved. As concerns the indoor scene classification perception module, this Ph.D. thesis introduces the Global, Object-based, and Semantic Segmentation Feature Fusion Approach (GOS2F2App). It exploits and combines Deep Learning (DL)-based global features, object-based features, and semantic segmentation-based features. The object-based features in our approach are generated from detected object bounding boxes. These features encode the occurrences of recognized objects within an indoor scene, as well as the distance relationships between object classes.The semantic segmentation-based features are generated through semantic segmentation masks, encoding a 2D spatial layout of the segmentation-classes and a segmentation-classes' shape characterization. The GOS2F2App was evaluated on the SUN RGB-D and NYU Depth v2 indoor scene benchmark datasets, where, to the best of our knowledge, state-of-the-art results were achieved on both datasets, presenting evidence of the effectiveness of the proposed GOS2F2App. This Ph.D. thesis also proposes an Object Detection and Tracking (ODT) framework. Firstly, to localize and classify objects within an RGB image, Regions of Interest (RoIs) are proposed via a fast CNN-based object detection network and classified using a DL-based object classification network. RoIs classified as objects of interest are continuously tracked using a Kalman Filter (KF)-based Multiple Object Tracking (MOT) algorithm. To improve the performance of MOT algorithms, which perform data association by solving a linear assignment problem resorting to a cost matrix, eight new data association cost matrix formulations are proposed. They are computed using the intersection over union, Euclidean distances, and bounding boxes ratio metrics between detected and ongoing tracking object bounding boxes. To validate the ODT framework having in view navigation missions performed by mobile assistive robots such as the ISR-InterBot or the RobChair platform, which were developed in the ISR-UC HcMR lab, a dataset representing the object conditions under which robotic platforms may navigate was built, the ISR RGB-D dataset. The reported results show the strengths and limitations of the proposed ODT framework. Overall, reported results demonstrate the feasibility and effectiveness of the GOS2F2App and ODT framework in recognizing the surrounding environment, enabling DEVIS to successfully assist, in an intuitive way, brain-actuated wheelchair users in selecting their navigation targets.	eng
dc.description.abstract	Esta tese de doutoramento propõe contribuições nos domínios da perceção para robótica móvel e seleção intuitiva de alvos de navegação para cadeiras de rodas acionadas pelo cérebro. O principal objetivo desta tese de doutoramento é propor um sistema de interface visual baseado no ambiente dinâmico circundante (DEVIS), para uma seleção intuitiva de alvos de navegação, aplicado em cadeiras de rodas acionadas pelo cérebro. O DEVIS apresenta uma interface visual inovadora projetada para fornecer aos utilizadores possíveis alvos de navegação dinâmicos baseados no ambiente sob a forma de dicas visuais durante missões de navegação de uma cadeira de rodas acionada pelo cérebro, nas quais os utilizadores selecionam os seus alvos de navegação por meio de uma interface cérebro-computador baseada em P300. Para fornecer aos utilizadores alvos de navegação dinâmicos baseados no ambiente circundante, o DEVIS incorpora módulos de perceção baseados em imagens RGB, nomeadamente deteção de objetos, rastreamento de objetos e classificação de ambientes. Todos estes módulos de perceção são abordados nesta tese de doutoramento. Foram realizadas avaliações experimentais do DEVIS num ambiente dinâmico com cinco participantes, tendo sido alcançados níveis de precisão muito promissores.No que diz respeito ao módulo de perceção de classificação de ambientes, esta tese de doutoramento apresenta uma abordagem de fusão de características globais, características baseadas em objectos e características baseadas em segmentação semântica (GOS2F2App). As características globais são baseadas em aprendizagem profunda. As características baseadas em objetos são geradas a partir de caixas delimitadoras dos objetos detetados. Essas características representam as ocorrências de objetos reconhecidos no ambiente, assim como relações de distância entre as classes dos objetos.As características baseadas em segmentação semântica são obtidas através de máscaras de segmentação semântica. Estas representam um layout espacial 2D das classes de segmentação e uma caracterização da forma das classes de segmentação. O GOS2F2App foi avaliado nos conjuntos de dados de referência de ambientes SUN RGB-D and NYU Depth v2, onde, até à data e para o melhor que sabemos, foram alcançados os melhores resultados em ambos os conjuntos de dados. Estes resultados apresentam evidências da eficácia do proposto GOS2F2App. Nesta tese de doutoramento também se apresenta uma abordagem para deteção e rastreamento de objetos (ODT). Para localizar e classificar objetos numa imagem RGB, ODT propõe regiões de interesse (RoIs) por meio de uma rede rápida de deteção de objetos baseada em CNN. Posteriormente, as RoIs propostas são classificadas por uma rede de classificação de objetos baseada em aprendizagem profunda. As RoIs classificadas como objetos de interesse são rastreadas ao longo do tempo através de um algoritmo de rastreamento de múltiplos objetos (MOT) baseado no filtro de Kalman. Para melhorar o desempenho dos algoritmos MOT, em especial aqueles que realizam a associação de dados através de um problema de atribuição linear com recurso a uma matriz de custo, são propostas oito novas formulações de matrizes de custo para associação de dados. Elas são calculadas usando métricas de interseção sobre união, distâncias euclidianas e proporção de caixas delimitadoras entre caixas delimitadoras de objetos detetados e em rastreamento. Para validar a abordagem ODT, com vista a missões de navegação realizadas por robôs móveis de assistência, como o ISR-InterBot ou a plataforma RobChair, ambos desenvolvidos no laboratório ISR-UC HcMR, foi construído um conjunto de dados que representa as condições dos objetos sob as quais as plataformas robóticas navegam, ISR RGB-D. Os resultados obtidos no conjunto de dados ISR RGB-D mostram as capacidades e limitações da abordagem proposta.De uma forma geral, os resultados obtidos demonstraram a viabilidade e eficácia do GOS2F2App e do ODT em reconhecer o ambiente o ambiente circundante, permitindo que o DEVIS auxilie com sucesso, numa maneira intuitiva, os utilizadores de cadeiras de rodas acionadas pelo cérebro na seleção dos alvos de navegação.	por
dc.description.sponsorship	FCT	-
dc.description.sponsorship	FCT	-
dc.description.sponsorship	FCT	-
dc.language.iso	eng	-
dc.relation	info:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDP/00048/2020/PT	-
dc.relation	info:eu-repo/grantAgreement/FCT/9471 - RIDTI/PTDC/EEI-AUT/30935/2017/PT	-
dc.relation	info:eu-repo/grantAgreement/FCT/POR_CENTRO/SFRH/BD/148779/2019/PT	-
dc.rights	embargoedAccess	-
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	-
dc.subject	Deep Learning	eng
dc.subject	Human-Machine Interface	eng
dc.subject	Indoor Scene Classification	eng
dc.subject	Brain-actuated Wheelchairs	eng
dc.subject	Perception	eng
dc.subject	Aprendizagem Profunda	por
dc.subject	Classificação de Ambientes	por
dc.subject	Interface Homem-Máquina	por
dc.subject	Perceção	por
dc.subject	Cadeiras de Rodas acionadas p	por
dc.title	Deep Learning-based Perception Modules using RGB Data applied in a Dynamic Visual Interface for Brain-actuated Wheelchairs	eng
dc.title.alternative	Módulos de Perceção baseados em Aprendizagem Profunda usando dados RGB: aplicação numa Interface Visual Dinâmica para Cadeiras de Rodas acionadas pelo Cérebro	por
dc.type	doctoralThesis	-
degois.publication.location	DEEC	-
degois.publication.title	Deep Learning-based Perception Modules using RGB Data applied in a Dynamic Visual Interface for Brain-actuated Wheelchairs	eng
dc.date.embargoEndDate	2025-07-09	-
dc.peerreviewed	yes	-
dc.date.embargo	2025-07-09	*
dc.identifier.tid	101752229	-
dc.subject.fos	Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática	-
rcaap.embargofct	A tese contém conteúdo que está para ser submetido/publicado em revistas internacionais.	-
thesis.degree.discipline	Engenharia Electrotécnica e de Computadores	-
thesis.degree.grantor	Universidade de Coimbra	-
thesis.degree.name	Doutoramento em Engenharia Electrotécnica e de Computadores	-
uc.degree.grantorUnit	Faculdade de Ciências e Tecnologia - Departamento de Eng. Electrotécnica e de Computadores	-
uc.degree.grantorID	0500	-
uc.contributor.author	Pereira, Ricardo Manuel Teixeira::0000-0001-6672-5395	-
uc.degree.classification	Aprovado com Distinção e Louvor	-
uc.date.periodoEmbargo	365	-
uc.degree.presidentejuri	Barreto, João Pedro de Almeida::0000-0001-5220-9170	-
uc.degree.elementojuri	Leite, Iolanda Margarete dos Santos Carvalho::0000-0002-2212-4325	-
uc.degree.elementojuri	Bernardino, Alexandre José Malheiro::0000-0003-3991-1269	-
uc.degree.elementojuri	Vieira, Miguel Santos Pais::0000-0002-1398-9060	-
uc.degree.elementojuri	Nunes, Urbano José Carreira	-
uc.degree.elementojuri	Silva, Vítor Manuel Mendes da	-
uc.contributor.advisor	Lopes, Ana cristina Barata Pires	-
uc.contributor.advisor	Nunes, Urbano José Carreira	-
uc.contributor.email	uc2013153797@student.uc.pt	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
item.grantfulltext	embargo_20250709	-
item.openairetype	doctoralThesis	-
item.languageiso639-1	en	-
item.fulltext	Com Texto completo	-
item.cerifentitytype	Publications	-
crisitem.project.grantno	INSTITUTE OF SYSTEMS AND ROBOTICS - ISR - COIMBRA	-
Appears in Collections:	UC - Teses de Doutoramento