Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/114438
Title: Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
Other Titles: Reduzindo Predições Com Excesso de Confiança na Percepção de Multimodalidade Para Condução Autónoma
Authors: Melotti, Gledson
Orientador: Premebida, Cristiano
Gonçalves, Nuno Miguel Mendonça da Silva
Keywords: Predições excesso confiança; Arquiteturas de redes neurais; Sistemas de percepção; Sistemas de condução autónoma; Detecção de objetos; Overconfident predictions; Deep neural network architectu; Perception systems; Autonomous driving systems; Object detection
Issue Date: 26-Apr-2023
Serial title, monograph or event: Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
Place of publication or event: DEEC
Abstract: In the last recent years, machine learning techniques have occupied a great space in order to solve problems in the areas related to perception systems applied to autonomous driving and advanced driver-assistance systems, such as: road users detection, traffic signal recognition, road detection, multiple object tracking, lane detection, scene understanding. In this way, a large number of techniques have been developed to cope with problems belonging to sensory perception field. Currently, deep network is the state-of-the-art for object recognition, begin SoftMax and SigMoid functions as prediction layers. Such layers often produce overconfidence predictions rather than proper probabilistic scores, which can thus harm the decision-making of “critical” perception systems applied in autonomous driving and robotics. Given this, we propose a probabilistic approach based on distributions calculated out of the Logit layer scores of pre-trained networks which are then used to constitute new decision layers based on Maximum Likelihood (ML) and Maximum a-Posteriori (MAP) inference. We demonstrate that the hereafter called ML and MAP functions are more suitable for probabilistic interpretations than SoftMax and SigMoid-based predictions for object recognition, where our approach shows promising performance compared to the usual SoftMax and SigMoid functions, with the benefit of enabling interpretable probabilistic predictions. Another advantage of the approach introduced in this thesis is that the so-called ML and MAP functions can be implemented in existing trained networks, that is, the approach benefits from the output of the Logit layer of pre-trained networks. Thus, there is no need to carry out a new training phase since the ML and MAP functions are used in the test/prediction phase. To validate our methodology, we explored distinct sensor modalities via RGB images and LiDARs (3D point clouds, range-view and reflectance- view) data from the KITTI dataset. The range-view and reflectance-view modalities were obtained by projecting the range/reflectance data to the 2D image-plane and consequently upsampling the projected points. The results achieved by the proposed approach were presented considering the individual modalities and through the early and late fusion strategies.
Nos últimos anos, as técnicas de aprendizagem de máquina têm ocupado um grande espaço para solucionar problemas nas áreas relacionadas com sistemas de perceção aplicados à direção autónoma e sistemas avançados de assistência ao motorista, tais como: detecção de utilizadores de vias, reconhecimento de sinais de trânsito, deteção de vias, rastreamento de múltiplos objetos, deteção de pista, compreensão de cena. Desta forma, um grande número de técnicas tem sido desenvolvido para lidar com problemas pertencentes ao campo da perceção sensorial. Atualmente, deep network é o estado da arte para reconhecimento de objetos, iniciando funções SoftMax e SigMoid como camadas de previsão. Essas camadas geralmente produzem previsões de excesso de confiança em vez de pontuações probabilísticas adequadas, o que pode prejudicar a tomada de decisões de sistemas de perceção “críticos” aplicados em direção autónoma e robótica. Diante disso, propomos uma abordagem probabilística baseada em distribuições calculadas a partir dos scores (pontuações da saída) da camada Logit de redes pré-treinadas que são então utilizadas para constituir novas camadas de decisão baseadas na inferência de Máxima Verossimilhança (ML) e Máxima a-Posteriori (MAP). Demonstramos que as funções ML e MAP daqui em diante são mais adequadas para interpretações probabilísticas do que previsões baseadas em SoftMax e SigMoid para reconhecimento de objetos, onde a nossa abordagem mostra um desempenho promissor em comparação com as funções usuais de SoftMax e SigMoid, com o benefício de permitir previsões probabilísticas interpretáveis. Outra vantagem da abordagem apresentada nesta tese é que as chamadas funções ML e MAP podem ser implementadas em redes já treinadas, ou seja, a abordagem beneficia da saída da camada Logit de redes pré-treinadas. Assim, não há necessidade de realizar uma nova fase de treino, uma vez que as funções ML e MAP são utilizadas na fase de teste/previsão. Para validar a nossa metodologia, exploramos modalidades distintas de sensores por meio de imagens RGB e dados LiDARs (3D point clouds, range-view e reflectance-view) do conjunto de dados KITTI. As modalidades range-view e reflectance-view foram obtidas projetando os dados de alcance/refletância para o plano de imagem 2D e, consequentemente, upsampling dos pontos projetados. Os resultados alcançados pela abordagem proposta foram apresentados considerando as modalidades individuais e por meio das estratégias de fusão “early” e “late”.
Description: Tese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/114438
Rights: openAccess
Appears in Collections:UC - Teses de Doutoramento

Files in This Item:
File SizeFormat
PhD_thesis_GledsonMelotti.pdf23.81 MBAdobe PDFView/Open
Show full item record

Page view(s)

5
checked on Apr 30, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons