Research Problems in Data Quality: Addressing Imbalanced and Missing Data

Santos, Miriam Raquel Seoane Pereira Seguro

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/108792

Title:	Research Problems in Data Quality: Addressing Imbalanced and Missing Data
Authors:	Santos, Miriam Raquel Seoane Pereira Seguro
Orientador:	Abreu, Pedro Manuel Henriques da Cunha Santos, João António Miranda dos
Issue Date:	7-Sep-2022
Place of publication or event:	Coimbra
Abstract:	Nowadays, data is deeply entangled in nearly all aspects of our daily lives, from social, business, transportation, energy, and even medical applications. Data is among us, it’s continuously growing, and its potential is immensely powerful. Nevertheless, its only value relies on our ability to understand it and transform it into meaningful insights. This task currently falls upon the shoulders of machine learning algorithms, that due to their ability to establish connections, patterns, and trends we humans cannot see, have become the cornerstone in analyzing, interpreting, and extracting knowledge from data. Traditional machine learning algorithms expect their input data to be well-behaved regarding several factors, such as balanced class distributions, well-represented concepts, and decision boundaries, an adequate training set size, consistent and correctly labeled instances, and a complete set of observed values in all features, among others. However, when applied “in the wild”, machine learning algorithms are inevitably faced with data imperfection, as many of these assumptions are broken, giving rise to several data problems such as imbalanced data, small disjuncts, class overlap, lack of data, noisy data, dataset shift, and missing data. These imperfections may arise either due to errors in the data acquisition, transmission, and collection processes, or due to the intrinsic nature of the domains, and they are responsible for the degradation of classification performance, and the generation of biased predictions. What ultimately determines the success of machine learning applications is therefore their ability to transform imperfect data into smart data, i.e., data of sufficient quality to allow classifiers to draw accurate and reliable inferences on the domain. In order to move from imperfect to smart data, it is critical to develop a thorough data understanding, which comprehends a well-grounded perception of a multitude of aspects regarding the domain and the data at hand. This involves a strong understanding of the bias generated by each data imperfection and how it aligns with the learning bias of classification or preprocessing algorithms, how data imperfections relate to other characteristics of the domains, how they exacerbate each other when appearing in combination, and why certain circumstances are especially harmful to classification tasks. Following this line of thought, this thesis dedicates time and effort to the characterization and understanding of data imperfections. We focus particularly on the problems of imbalanced data and missing data, which currently constitute two major lines of research, and further discuss the issues of small disjuncts and class overlap within the scope of imbalanced data. Accordingly, our main goal is to transfer some thoughts, discuss observations, and produce perceptive insights on working with complex scenarios where these data imperfections occur. This comprises the characterization of the data domains and the bias they may entail; the identification, characterization, and quantification of data imperfections in real-world domains; the identification of proper conditions for the efficient use of classifiers and preprocessing techniques; and the analysis of the bias associated with certain experimental setup hazards – all of which fall onto our notion of data understanding. Nos dias que correm, os dados encontram-se profundamente incorporados em praticamente todos os aspetos da nossa vida quotidiana, desde aplicações sociais, comerciais, de transporte, energia e até médicas. Os dados tornaram-se parte do tecido das nossas vidas, estão a crescer continuamente e têm um potencial transformador enorme. No entanto, o seu valor está irrefutavelmente dependente da nossa capacidade de os interpretar e transformar em informação útil. Atualmente, essa tarefa recai sobre os sistemas de aprendizagem automática que, devido à sua capacidade de estabelecer conexões e identificar padrões e tendências que nós, enquanto humanos, não conseguimos discernir, tornaram-se a pedra basilar da análise, interpretação e extração de conhecimento dos dados. Tradicionalmente, os algoritmos de aprendizagem automática baseiam-se em certas premissas acerca dos dados que têm disponíveis para treinar os seus modelos. Nomeadamente, que a distribuição das classes é equilibrada, que os conceitos existentes estão bem representados e as fronteiras de decisão bem delimitadas, que o tamanho do conjunto de dados é adequado à aprendizagem, que todos os padrões são consistentes e estão corretamente categorizados, e que não existem valores em falta. No entanto, na maioria dos domínios da vida quotidiana, estas premissas são violadas e os sistemas de aprendizagem automática ficam sujeitos a certas imperfeições dos dados, que dão origem a vários problemas como o desequilíbrio de classes, o aparecimento de pequenos disjuntos, a sobreposição de classes, a falta de representatividade nos conjuntos de treino, os dados ruidosos, as alterações dos conceitos entre as fases de treino e teste, e os dados em falta. Estas imperfeições podem surgir tanto devido a erros nos processos de aquisição, transmissão e recolha de dados, bem como devido à própria natureza dos domínios, e são responsáveis pela degradação do desempenho dos algoritmos e pela geração de previsões enviesadas. Em última análise, o que determina o sucesso dos sistemas de aprendizagem automática é a sua capacidade de transformar dados imperfeitos em dados inteligentes, ou seja, dados de elevada qualidade que permitam aos classificadores produzir inferências precisas e confiáveis acerca dos domínios. Para isso, é fundamental que se desenvolva um processo de compreensão dos dados completo e cuidadoso, o que requer uma forte percepção de diversos aspetos relacionados com os domínios e os dados em questão. Esta percepção pressupõe uma grande compreensão do viés gerado por cada imperfeição de dados e de como ele se alinha com o viés de aprendizagem dos algoritmos de classificação ou pré-processamento, de como as imperfeições dos dados se relacionam com outras características dos domínios, de como se exacerbam mutuamente ao surgir em combinação, e o motivo pelo qual certas situações são especialmente prejudiciais para as tarefas de classificação. O principal objetivo desta tese é discutir observações e estabelecer algumas recomendações relativas ao tratamento de domínios complexos afectados pela imperfeição dos dados. Estas tarefas compreendem a caracterização dos domínios de dados e o viés que eles podem introduzir nos sistemas de aprendizagem automática; a identificação, caracterização e quantificação de imperfeições de dados nos contextos da vida quotidiana; o estudo das condições adequadas para o uso eficiente de classificadores e técnicas de pré-processamento; e a análise do viés associado a certas configurações experimentais – todos os processos essenciais a uma compreensão dos dados eficaz.
URI:	https://hdl.handle.net/10316/108792
Rights:	openAccess
Appears in Collections:	FCTUC Eng.Informática - Teses de Doutoramento UC - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
5_versão revista_tese_Miriam_Santos_PhD_Thesis.pdf		11.4 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

315

checked on Apr 24, 2024

Download(s)

224

checked on Apr 24, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM