Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110477
Title: Data Mining: Classificação supervisionada com árvores de decisão
Other Titles: Data Mining: Supervised Classification with decision trees
Authors: Lacerda, Carlos Roberto Bastos
Orientador: Pinto, Luís Miguel Dias
Keywords: Árvores de Decisão; Florestas Aleatórias; Aprendizado de Máquina; Mineração de Dados; Covid-19; Decision Trees; Random Forests; Machine Learning; Data Mining; Covid-19
Issue Date: 12-Sep-2023
Serial title, monograph or event: Data Mining: Classificação supervisionada com árvores de decisão
Place of publication or event: Departamento de Matemática da Universidade de Coimbra
Abstract: Esta tese de mestrado introduz os métodos árvores de decisão e florestas aleatórias para resolver o problema de data mining denominado por classificação supervisionada. Consideremos um dataset de pacientes covid-19 (ou objetos) classificados em duas classes consoante a evolução para óbito ou recuperado. Partindo de um conjunto de características (ou atributos) dos pacientes, como a idade e a pré-existência de outras doenças, o objetivo do problema de classificação supervisionada é encontrar uma função (ou classificador) que estabelece uma relação entre atributos dos pacientes e as respetivas classes. A utilidade fundamental de um classificador reside na possibilidade de classificar um novo objeto, por exemplo, prever a evolução de um novo paciente covid-19. O método árvores de decisão distingue-se pela sua interpretabilidade e performance competitiva, particularmente quando utilizado técnicas ensemble floresta aleatória. A tese está organizada da seguinte forma. O primeiro capítulo apresenta o problema de classificação supervisionada, incluindo o modelo de Bayes e métricas de erro, seguindo-se dois capítulos dedicados aos principais fundamentos teóricos dos métodos estatísticos árvores de decisão e floresta aleatória, entre os quais os conceitos de consistência e decomposição viés-variância. O quarto capítulo ilustra o potencial prático dos métodos usando um conjunto de dados públicos, disponibilizados pelo governo mexicano, de pacientes com covid-19. Esta secção inclui procedimentos de pré-processamento, visualização, divisão dos dados em conjuntos de treino, teste e validação, ajuste dos parâmetros e interpretações do modelo. Por fim, terminamos no capítulo cinco com algumas conclusões.
This master’s thesis introduces decision trees and random forest methods to solve the data mining problem of supervised classification. Let us consider a dataset of covid-19 patients (or objects)classified into two classes based on whether they died or recovered. From a set of patient characteristics(or attributes), such as age and the pre-existence of other diseases, supervised classification aims at developing a function (or classifier) that establishes a relationship between patient attributes and the respective classes. The primary utility of a classifier is the ability to classify a new object, e.g., predicting the evolution of a new covid-19 patient. The decision tree method is known for its interpretability and competitive performance, particularly when combined with ensemble techniques like random forest.This thesis is organized as follows. The first chapter introduces the supervised classification problem, including the Bayes model and error metrics, followed by two chapters on the theoretical foundations of decision trees and random forests, among which the concepts of consistency and bias-variance decomposition .The fourth chapter illustrates the practical potential of the methods using a public dataset of covid-19 patients, provided by the Mexican government. This section includes procedures of preprocessing, visualization, data division into training, testing, and validation sets, parameter tuning and model interpretations. Finally, we finish in chapter five with some conclusions
Description: Dissertação de Mestrado em Matemática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/110477
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File SizeFormat
Mestrado_01_09_2023.pdf561.34 kBAdobe PDFView/Open
Show full item record

Page view(s)

276
checked on May 22, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons