Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving

Melotti, Gledson

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/114438

DC Field	Value	Language
dc.contributor.advisor	Premebida, Cristiano	-
dc.contributor.advisor	Gonçalves, Nuno Miguel Mendonça da Silva	-
dc.contributor.author	Melotti, Gledson	-
dc.date.accessioned	2024-03-27T17:45:20Z	-
dc.date.available	2024-03-27T17:45:20Z	-
dc.date.issued	2023-04-26	-
dc.date.submitted	2024-03-27	-
dc.identifier.uri	https://hdl.handle.net/10316/114438	-
dc.description	Tese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia	-
dc.description.abstract	In the last recent years, machine learning techniques have occupied a great space in order to solve problems in the areas related to perception systems applied to autonomous driving and advanced driver-assistance systems, such as: road users detection, traffic signal recognition, road detection, multiple object tracking, lane detection, scene understanding. In this way, a large number of techniques have been developed to cope with problems belonging to sensory perception field. Currently, deep network is the state-of-the-art for object recognition, begin SoftMax and SigMoid functions as prediction layers. Such layers often produce overconfidence predictions rather than proper probabilistic scores, which can thus harm the decision-making of “critical” perception systems applied in autonomous driving and robotics. Given this, we propose a probabilistic approach based on distributions calculated out of the Logit layer scores of pre-trained networks which are then used to constitute new decision layers based on Maximum Likelihood (ML) and Maximum a-Posteriori (MAP) inference. We demonstrate that the hereafter called ML and MAP functions are more suitable for probabilistic interpretations than SoftMax and SigMoid-based predictions for object recognition, where our approach shows promising performance compared to the usual SoftMax and SigMoid functions, with the benefit of enabling interpretable probabilistic predictions. Another advantage of the approach introduced in this thesis is that the so-called ML and MAP functions can be implemented in existing trained networks, that is, the approach benefits from the output of the Logit layer of pre-trained networks. Thus, there is no need to carry out a new training phase since the ML and MAP functions are used in the test/prediction phase. To validate our methodology, we explored distinct sensor modalities via RGB images and LiDARs (3D point clouds, range-view and reflectance- view) data from the KITTI dataset. The range-view and reflectance-view modalities were obtained by projecting the range/reflectance data to the 2D image-plane and consequently upsampling the projected points. The results achieved by the proposed approach were presented considering the individual modalities and through the early and late fusion strategies.	eng
dc.description.abstract	Nos últimos anos, as técnicas de aprendizagem de máquina têm ocupado um grande espaço para solucionar problemas nas áreas relacionadas com sistemas de perceção aplicados à direção autónoma e sistemas avançados de assistência ao motorista, tais como: detecção de utilizadores de vias, reconhecimento de sinais de trânsito, deteção de vias, rastreamento de múltiplos objetos, deteção de pista, compreensão de cena. Desta forma, um grande número de técnicas tem sido desenvolvido para lidar com problemas pertencentes ao campo da perceção sensorial. Atualmente, deep network é o estado da arte para reconhecimento de objetos, iniciando funções SoftMax e SigMoid como camadas de previsão. Essas camadas geralmente produzem previsões de excesso de confiança em vez de pontuações probabilísticas adequadas, o que pode prejudicar a tomada de decisões de sistemas de perceção “críticos” aplicados em direção autónoma e robótica. Diante disso, propomos uma abordagem probabilística baseada em distribuições calculadas a partir dos scores (pontuações da saída) da camada Logit de redes pré-treinadas que são então utilizadas para constituir novas camadas de decisão baseadas na inferência de Máxima Verossimilhança (ML) e Máxima a-Posteriori (MAP). Demonstramos que as funções ML e MAP daqui em diante são mais adequadas para interpretações probabilísticas do que previsões baseadas em SoftMax e SigMoid para reconhecimento de objetos, onde a nossa abordagem mostra um desempenho promissor em comparação com as funções usuais de SoftMax e SigMoid, com o benefício de permitir previsões probabilísticas interpretáveis. Outra vantagem da abordagem apresentada nesta tese é que as chamadas funções ML e MAP podem ser implementadas em redes já treinadas, ou seja, a abordagem beneficia da saída da camada Logit de redes pré-treinadas. Assim, não há necessidade de realizar uma nova fase de treino, uma vez que as funções ML e MAP são utilizadas na fase de teste/previsão. Para validar a nossa metodologia, exploramos modalidades distintas de sensores por meio de imagens RGB e dados LiDARs (3D point clouds, range-view e reflectance-view) do conjunto de dados KITTI. As modalidades range-view e reflectance-view foram obtidas projetando os dados de alcance/refletância para o plano de imagem 2D e, consequentemente, upsampling dos pontos projetados. Os resultados alcançados pela abordagem proposta foram apresentados considerando as modalidades individuais e por meio das estratégias de fusão “early” e “late”.	por
dc.language.iso	eng	-
dc.rights	openAccess	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	-
dc.subject	Predições excesso confiança	por
dc.subject	Arquiteturas de redes neurais	por
dc.subject	Sistemas de percepção	por
dc.subject	Sistemas de condução autónoma	por
dc.subject	Detecção de objetos	por
dc.subject	Overconfident predictions	eng
dc.subject	Deep neural network architectu	eng
dc.subject	Perception systems	eng
dc.subject	Autonomous driving systems	eng
dc.subject	Object detection	eng
dc.title	Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving	eng
dc.title.alternative	Reduzindo Predições Com Excesso de Confiança na Percepção de Multimodalidade Para Condução Autónoma	por
dc.type	doctoralThesis	-
degois.publication.location	DEEC	-
degois.publication.title	Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving	eng
dc.peerreviewed	yes	-
dc.identifier.tid	101707134	-
dc.subject.fos	Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática	-
thesis.degree.discipline	Engenharia Electrotécnica e de Computadores	-
thesis.degree.grantor	Universidade de Coimbra	-
thesis.degree.name	Doutoramento em Engenharia Electrotécnica e de Computadores	-
uc.degree.grantorUnit	Faculdade de Ciências e Tecnologia - Departamento de Eng. Electrotécnica e de Computadores	-
uc.degree.grantorID	0500	-
uc.contributor.author	Melotti, Gledson::0000-0002-8988-0205	-
uc.degree.classification	Aprovado com Distinção	-
uc.degree.presidentejuri	Batista, Jorge Manuel Moreira de Campos Pereira	-
uc.degree.elementojuri	Wolf, Denis Fernando	-
uc.degree.elementojuri	Aguiar, António Pedro Rodrigues de	-
uc.degree.elementojuri	Santos, Vitor Manuel Ferreira dos	-
uc.degree.elementojuri	santos, Cristina Manuela Peixoto::0000-0003-0023-7203	-
uc.degree.elementojuri	Premebida, Cristiano::0000-0002-2168-2077	-
uc.degree.elementojuri	Silva, Catarina Helena Branco Simões da	-
uc.contributor.advisor	Premebida, Cristiano::0000-0002-2168-2077	-
uc.contributor.advisor	Gonçalves, Nuno Miguel Mendonça da Silva::0000-0002-1854-049X	-
item.openairetype	doctoralThesis	-
item.fulltext	Com Texto completo	-
item.languageiso639-1	en	-
item.grantfulltext	open	-
item.cerifentitytype	Publications	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
Appears in Collections:	UC - Teses de Doutoramento