Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110705
Title: AL-DLIME - Active Learning-Based Deterministic Local Interpretable Model-Agnostic Explanations: A Comparison with LIME and DLIME in the Field of Medicine
Other Titles: AL-DLIME - Explicações de diagnóstico com base em modelos locais interpretáveis determinísticos e aprendizagem ativa: Uma Comparação com LIME e DLIME no Domínio da Medicina
Authors: Holm, Sarah Luísa Jenny Martins
Orientador: Macedo, Luís Miguel Machado Lopes
Keywords: Interpretabilidade local; Inteligência artificial explicável; LIME; DLIME; Confiabilidade; Local interpretability; Explainable artificial intelligence; LIME; DLIME; Trustworthiness
Issue Date: 20-Jul-2023
Serial title, monograph or event: AL-DLIME - Active Learning-Based Deterministic Local Interpretable Model-Agnostic Explanations: A Comparison with LIME and DLIME in the Field of Medicine
Place of publication or event: CISUC
Abstract: A inteligência artificial tem suscitado um interesse significativo desde a sua criação devido aos seus vastos potenciais benefícios e aplicações. Contudo, múltiplos acontecimentos acabam por colocar em causa a ética da inteligência artificial, com tópicos de privacidade, proteção de dados, bias, e até segurança a tornarem-se cada vez mais prevalentes em relação a esta tecnologia. Para abordar estas questões, muitos autores defendem que se deve dar maior ênfase a uma inteligência artificial responsável de forma a garantir-se um futuro mais seguro; ou seja, uma inteligência artificial eticamente correta e, consequentemente, confiável. Apesar da sua comprovada accuracy, os modelos que atualmente são mais prevalentes (como, por exemplo, redes neuronais) são fundamentalmente caixas pretas. Assim, de modo a preservar a accuracy destes modelos sem perder a transparência, e por isso, também a confiabilidade de modelos mais simples, como árvores de decisão, foi criada a área de inteligência artifical explicável.Um dos modelos de inteligência artificial explicável mais citados é o LIME. No entanto, a sua natureza não-determinística significa que as explicações sobre uma mesma instância podem variar. Isto pode gerar alguma tensão em áreas de aplicação mais sensíveis, como a medicina, onde os utilizadores não têm necessariamente que compreender a tecnologia subjacente e, portanto, podem duvidar do seu desempenho. Os autores do DLIME esperavam resolver este problema ao criar um modelo determinístico com base no LIME. Apesar deste autores fornecerem uma comparação entre o seu modelo e o LIME, existe, contudo, a possibilidade de melhoria dentro do sistema.O objetivo desta tese é duplo. Em primeiro lugar, pretende introduzir um novo modelo de inteligência artificial explicável, chamado AL-DLIME, que integra aprendizagem ativa no sistema DLIME. Em segundo lugar, visa realizar uma comparação detalhada entre LIME, DLIME e AL-DLIME em aplicações de diagnóstico médico, com foco na avaliação do impacto do comportamento determinístico de DLIME e de AL-DLIME no seu desempenho geral.Para efeitos deste estudo, foram selecionados quatro datasets dentro de algumas das áreas da medicina consideradas de menor precisão em termos de diagnóstico: oncologia e doenças cardiovasculares. Em termos do modelo de caixa preta subjacente, o random forest foi selecionado devido à sua popularidade e bom desempenho geral. O modelo árvore de decisão também foi selecionado de modo a abordar o compromisso entre accuracy e explicabilidade, mais especificamente, averiguar se o uso de um modelo de caixa preta é estritamente necessário. O desempenho de cada modelo foi avaliado usando várias métricas, incluindo accuracy e F1-score para ambos os modelos de aprendizagem computacional e de inteligência artificial explicável. Para os modelos de inteligência artificial explicável, foram selecionadas as métricas de fidelidade ao modelo de caixa preta, a estabilidade do modelo, e exclusão única e incremental. Os resultados mostram que o AL-DLIME obteve melhor desempenho que o random forest em várias ocasiões, alcançando os melhores valores gerais para accuracy e F1-score entre os modelos de inteligência artificial explicável. No entanto, o LIME obteve os maiores valores gerais de fidelidade comparativamente ao random forest, com resultados consistentemente acima de 60%. Por fim, o random forest superou a árvore de decisão em termos de accuracy e F1-score em ambos os testes experimentais, atingindo o resultado mais alto de 99% para accuracy e estando assim ao mesmo nível de outros modelos de aprendizagem computacional de última geração. Este estudo fornece informação sobre os pontos fortes e fracos de cada modelo de inteligência artificial explicável e a sua adequação para aplicações no âmbito de diagnóstico médico. Futuros estudos podem complementar estes resultados ao avaliar os modelos com uma maior seleção de métricas, bem como por meio do uso de outros modelos de aprendizagem computacional.
Artificial intelligence has garnered significant interest since its inception due to its vast potential benefits and applications. However, numerous cases have put into question the ethics of artificial intelligence, with topics of privacy, data protection, bias, and even safety becoming more and more prevalent in regards to this technology. To address these issues, many authors believe that we must place a larger focus on responsible artificial intelligence in order to ensure a safer future; in other words, artificial intelligence that is ethical and, therefore, trustworthy. Despite their proven accuracy, the models that are currently most prevalent (such as neural networks), are inherently black boxes. In order to preserve the accuracy of these models while maintaining the transparency and, thus, the trustworthiness of simpler models such as decision trees, the field of explainable artificial intelligence was created.One of the most cited explainable artificial intelligence models is LIME (Local Interpretable Model-agnostic Explanations). However, its non-deterministic nature signifies that explanations regarding the same instance may vary. This may lead to some tension in sensitive areas of application such as medicine, where the end-users do not understand the underlying technology and, thus, may doubt its efficiency. The authors of DLIME (Deterministic Local Interpretable Model-agnostic Explanations) hoped to assuage this issue by creating a deterministic model based on LIME. While the authors of DLIME provided a comparison between their model and LIME, there is still scope for experimentation and, hopefully, improvement within the framework.The goal of this thesis is twofold. Firstly, it aims to introduce a novel explainable artificial intelligence model that integrates active learning into the DLIME framework: Active Learning-based Deterministic Local Interpretable Model-agnostic Explanations (AL-DLIME). Secondly, it aims to perform a detailed comparison of LIME, DLIME, and AL-DLIME for medical diagnosis applications, with a focus on assessing the impact of DLIME and AL-DLIME's deterministic behavior on their overall performance.For the purposes of this study, four datasets were selected within some of the areas of medicine that are considered to have the least accuracy in terms of diagnosis, oncology and cardiovascular diseases. In terms of the underlying black box model, random forest was selected due to its popularity and overall good performance. The decision tree model was also selected to address the accuracy-explainability tradeoff, more specifically, if the use of a black box model is strictly necessary. The performance of each model was evaluated using several metrics, including accuracy and F1-score for both the machine learning and explainable artificial intelligence models. Regarding solely the explainable artificial intelligence models, the metrics of faithfulness to the black box model, stability of the model through Jaccard’s distance, and single and incremental deletion were selected.The results show AL-DLIME outperformed random forest on several occasions, achieving the best overall results for accuracy and F1-score among the explainable artificial intelligence models. However, LIME obtained the overall highest scores of faithfulness to random forest, with results consistently above 60%. Finally, random forest outperformed decision tree on accounts of both accuracy and F1-score across both experiments, with its highest score of accuracy, 99%, being on par with other state of the art machine learning models. The study provides insights into the strengths and weaknesses of each explainable artificial intelligence model and their suitability for medical diagnosis applications. Further research may expand upon these findings by evaluating the models with a larger array of metrics, as well as through the use of other machine learning models.
Description: Trabalho de Projeto do Mestrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/110705
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File SizeFormat
thesis_sarahholm_final.pdf3.19 MBAdobe PDFView/Open
Show full item record

Page view(s)

53
checked on Jul 17, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons