Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/114438
DC FieldValueLanguage
dc.contributor.advisorPremebida, Cristiano-
dc.contributor.advisorGonçalves, Nuno Miguel Mendonça da Silva-
dc.contributor.authorMelotti, Gledson-
dc.date.accessioned2024-03-27T17:45:20Z-
dc.date.available2024-03-27T17:45:20Z-
dc.date.issued2023-04-26-
dc.date.submitted2024-03-27-
dc.identifier.urihttps://hdl.handle.net/10316/114438-
dc.descriptionTese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia-
dc.description.abstractIn the last recent years, machine learning techniques have occupied a great space in order to solve problems in the areas related to perception systems applied to autonomous driving and advanced driver-assistance systems, such as: road users detection, traffic signal recognition, road detection, multiple object tracking, lane detection, scene understanding. In this way, a large number of techniques have been developed to cope with problems belonging to sensory perception field. Currently, deep network is the state-of-the-art for object recognition, begin SoftMax and SigMoid functions as prediction layers. Such layers often produce overconfidence predictions rather than proper probabilistic scores, which can thus harm the decision-making of “critical” perception systems applied in autonomous driving and robotics. Given this, we propose a probabilistic approach based on distributions calculated out of the Logit layer scores of pre-trained networks which are then used to constitute new decision layers based on Maximum Likelihood (ML) and Maximum a-Posteriori (MAP) inference. We demonstrate that the hereafter called ML and MAP functions are more suitable for probabilistic interpretations than SoftMax and SigMoid-based predictions for object recognition, where our approach shows promising performance compared to the usual SoftMax and SigMoid functions, with the benefit of enabling interpretable probabilistic predictions. Another advantage of the approach introduced in this thesis is that the so-called ML and MAP functions can be implemented in existing trained networks, that is, the approach benefits from the output of the Logit layer of pre-trained networks. Thus, there is no need to carry out a new training phase since the ML and MAP functions are used in the test/prediction phase. To validate our methodology, we explored distinct sensor modalities via RGB images and LiDARs (3D point clouds, range-view and reflectance- view) data from the KITTI dataset. The range-view and reflectance-view modalities were obtained by projecting the range/reflectance data to the 2D image-plane and consequently upsampling the projected points. The results achieved by the proposed approach were presented considering the individual modalities and through the early and late fusion strategies.eng
dc.description.abstractNos últimos anos, as técnicas de aprendizagem de máquina têm ocupado um grande espaço para solucionar problemas nas áreas relacionadas com sistemas de perceção aplicados à direção autónoma e sistemas avançados de assistência ao motorista, tais como: detecção de utilizadores de vias, reconhecimento de sinais de trânsito, deteção de vias, rastreamento de múltiplos objetos, deteção de pista, compreensão de cena. Desta forma, um grande número de técnicas tem sido desenvolvido para lidar com problemas pertencentes ao campo da perceção sensorial. Atualmente, deep network é o estado da arte para reconhecimento de objetos, iniciando funções SoftMax e SigMoid como camadas de previsão. Essas camadas geralmente produzem previsões de excesso de confiança em vez de pontuações probabilísticas adequadas, o que pode prejudicar a tomada de decisões de sistemas de perceção “críticos” aplicados em direção autónoma e robótica. Diante disso, propomos uma abordagem probabilística baseada em distribuições calculadas a partir dos scores (pontuações da saída) da camada Logit de redes pré-treinadas que são então utilizadas para constituir novas camadas de decisão baseadas na inferência de Máxima Verossimilhança (ML) e Máxima a-Posteriori (MAP). Demonstramos que as funções ML e MAP daqui em diante são mais adequadas para interpretações probabilísticas do que previsões baseadas em SoftMax e SigMoid para reconhecimento de objetos, onde a nossa abordagem mostra um desempenho promissor em comparação com as funções usuais de SoftMax e SigMoid, com o benefício de permitir previsões probabilísticas interpretáveis. Outra vantagem da abordagem apresentada nesta tese é que as chamadas funções ML e MAP podem ser implementadas em redes já treinadas, ou seja, a abordagem beneficia da saída da camada Logit de redes pré-treinadas. Assim, não há necessidade de realizar uma nova fase de treino, uma vez que as funções ML e MAP são utilizadas na fase de teste/previsão. Para validar a nossa metodologia, exploramos modalidades distintas de sensores por meio de imagens RGB e dados LiDARs (3D point clouds, range-view e reflectance-view) do conjunto de dados KITTI. As modalidades range-view e reflectance-view foram obtidas projetando os dados de alcance/refletância para o plano de imagem 2D e, consequentemente, upsampling dos pontos projetados. Os resultados alcançados pela abordagem proposta foram apresentados considerando as modalidades individuais e por meio das estratégias de fusão “early” e “late”.por
dc.language.isoeng-
dc.rightsopenAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/-
dc.subjectPredições excesso confiançapor
dc.subjectArquiteturas de redes neuraispor
dc.subjectSistemas de percepçãopor
dc.subjectSistemas de condução autónomapor
dc.subjectDetecção de objetospor
dc.subjectOverconfident predictionseng
dc.subjectDeep neural network architectueng
dc.subjectPerception systemseng
dc.subjectAutonomous driving systemseng
dc.subjectObject detectioneng
dc.titleReducing Overconfident Predictions in Multimodality Perception for Autonomous Drivingeng
dc.title.alternativeReduzindo Predições Com Excesso de Confiança na Percepção de Multimodalidade Para Condução Autónomapor
dc.typedoctoralThesis-
degois.publication.locationDEEC-
degois.publication.titleReducing Overconfident Predictions in Multimodality Perception for Autonomous Drivingeng
dc.peerreviewedyes-
dc.identifier.tid101707134-
dc.subject.fosCiências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática-
thesis.degree.disciplineEngenharia Electrotécnica e de Computadores-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.nameDoutoramento em Engenharia Electrotécnica e de Computadores-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Eng. Electrotécnica e de Computadores-
uc.degree.grantorID0500-
uc.contributor.authorMelotti, Gledson::0000-0002-8988-0205-
uc.degree.classificationAprovado com Distinção-
uc.degree.presidentejuriBatista, Jorge Manuel Moreira de Campos Pereira-
uc.degree.elementojuriWolf, Denis Fernando-
uc.degree.elementojuriAguiar, António Pedro Rodrigues de-
uc.degree.elementojuriSantos, Vitor Manuel Ferreira dos-
uc.degree.elementojurisantos, Cristina Manuela Peixoto::0000-0003-0023-7203-
uc.degree.elementojuriPremebida, Cristiano::0000-0002-2168-2077-
uc.degree.elementojuriSilva, Catarina Helena Branco Simões da-
uc.contributor.advisorPremebida, Cristiano::0000-0002-2168-2077-
uc.contributor.advisorGonçalves, Nuno Miguel Mendonça da Silva::0000-0002-1854-049X-
item.cerifentitytypePublications-
item.languageiso639-1en-
item.fulltextCom Texto completo-
item.grantfulltextopen-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.openairetypedoctoralThesis-
Appears in Collections:UC - Teses de Doutoramento
Files in This Item:
File SizeFormat
PhD_thesis_GledsonMelotti.pdf23.81 MBAdobe PDFView/Open
Show simple item record

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons