Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados

Soares, Jastin Pompeu

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/83131

Title:	Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
Other Titles:	Exploring different machine learning strategies in pre-processing problems
Authors:	Soares, Jastin Pompeu
Orientador:	Araújo, Helder de Jesus Abreu, Pedro Manuel Henriques da Cunha
Keywords:	Missing Data; Imbalance Data; Imputation; Oversampling; Complexity; Data Distribution; Dados incompletos; Dados não balanceados; Imputação; Sobre-amostragem; Complexidade; Distribuição de dados
Issue Date:	27-Jul-2017
Serial title, monograph or event:	Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
Place of publication or event:	DEI
Abstract:	Com o aumento de volumes de dados, melhorias tecnológicas, e a necessidade crescente em extrairconhecimento de dados, as técnicas de Machine Learning têm sido alvo de grande estudo, focandoseas principais contribuições no desenvolvimento e melhoria dos seus algoritmos. Nesse contexto,a qualidade dos dados é um ponto crucial na obtenção de bons resultados. Incluído na análisede dados, o pré-processamento é uma das etapas da extração de conhecimentos que possibilita amelhoria da qualidade dos dados. Esta dissertação visa contribuir em dois problemas que podemsurgir na fase de pré-processamento: dados incompletos e dados não balanceados.Para resolver o primeiro problema, os investigadores usam tipicamente estratégias brute-forceque, para além do seu elevado custo computacional, não têm em consideração a natureza dosdados e, portanto, não possibilitam a sua generalização para diferentes contextos. Neste trabalho éexplorada a relação entre o desempenho das técnicas de imputação estado-da-arte e a distribuiçãodos dados, procurando desenvolver uma heurística que permita escolher a técnica de imputaçãomais apropriada para cada variável incluída no estudo, evitando a necessidade de testar váriastécnicas. Os resultados mostram que existe uma relação entre a distribuição das variáveis e odesempenho dos algoritmos. Este desempenho parece ser influenciado pela estratégia e taxa degeração dos dados em falta.No segundo problema pretende-se medir o desempenho dos classificadores em contextos de dadosnão balanceados. A abordagem utilizada para proceder à validação cruzada (antes ou depois dopré-processamento) pode levar a desempenhos sobre-otimistas, aquando da aplicação de técnicasde sobre-amostragem para atenuar a diferença entre classes. Este trabalho visa mostrar qual aabordagem mais correta na validação cruzada e relacionar o motivo do sobre-otimismo com acomplexidade dos datasets. Os resultados demostram que a abordagem de validação cruzada maisadequada é aquela onde a divisão do dataset é efetuada antes do pré-processamento, e o sobreotimismoaparenta estar relacionado com a semelhança na complexidade dos conjuntos de treino eteste. With increasing volumes of data, technological improvements, and the need to extract knowledgefrom data, Machine Learning techniques have been subjected to great study, where the main contributionsare currently focused in the development and improvement of algorithms. In this context,data quality is a crucial point to achieve good results. Included in data analysis, preprocessing isone of the stages of knowledge-discovery in databases that enables the improvement of data quality.This dissertation aims to contribute to two problems that may arise in the preprocessing stage:Missing Data and Imbalanced Data.To solve the first problem, researchers typically use brute-force strategies that, in addition totheir high computational cost, do not take into account the nature of the data and therefore donot allow their generalization to different contexts. In this work, the relationship between theperformance of the state-of-art imputation techniques and the data distribution is explored, bytrying to develop a heuristic that allows choosing the most appropriate imputation technique foreach feature included in the study, to avoid the need of testing several techniques. The results showthat there is a relationship between the features’ distributions and the imputation performance.This performance seems to be influenced by the strategy and rate of the missing data generation.In the second problem, the intention is to measure the performance of classifiers in imbalanceddata contexts. The approach used to perform cross-validation (before or after pre-processing)can lead to over-optimistic performances when applying oversampling techniques to attenuate thebetween-class imbalance. This work aims to show the most correct approach of cross-validationand to relate the over-optimistic performance with the datasets’ complexity. The results show thatthe most appropriate cross-validation approach is the one where the dataset splitting is performedbefore the pre-processing stage, and over-optimistic performances seem to be related to the similarityof the complexity of training and test sets.
Description:	Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/83131
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Dissertação-JastinSoares-VersãoFinal.pdf		4.43 MB	Adobe PDF	View/Open

Show full item record

Page view(s) 50

623

checked on Sep 24, 2024

Download(s) 50

868

checked on Sep 24, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s) 50

Download(s) 50

Google ScholarTM

Google Scholar^TM