Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10316/108792
Título: | Research Problems in Data Quality: Addressing Imbalanced and Missing Data | Autor: | Santos, Miriam Raquel Seoane Pereira Seguro | Orientador: | Abreu, Pedro Manuel Henriques da Cunha Santos, João António Miranda dos |
Data: | 7-Set-2022 | Local de edição ou do evento: | Coimbra | Resumo: | Nowadays, data is deeply entangled in nearly all aspects of our daily lives,
from social, business, transportation, energy, and even medical applications.
Data is among us, it’s continuously growing, and its potential is immensely
powerful. Nevertheless, its only value relies on our ability to understand it
and transform it into meaningful insights. This task currently falls upon the
shoulders of machine learning algorithms, that due to their ability to establish connections, patterns, and trends we humans cannot see, have become the cornerstone in analyzing, interpreting, and extracting knowledge from
data.
Traditional machine learning algorithms expect their input data to be well-behaved regarding several factors, such as balanced class distributions, well-represented concepts, and decision boundaries, an adequate training set size,
consistent and correctly labeled instances, and a complete set of observed
values in all features, among others. However, when applied “in the wild”,
machine learning algorithms are inevitably faced with data imperfection, as
many of these assumptions are broken, giving rise to several data problems
such as imbalanced data, small disjuncts, class overlap, lack of data, noisy
data, dataset shift, and missing data. These imperfections may arise either
due to errors in the data acquisition, transmission, and collection processes,
or due to the intrinsic nature of the domains, and they are responsible for
the degradation of classification performance, and the generation of biased
predictions.
What ultimately determines the success of machine learning applications
is therefore their ability to transform imperfect data into smart data, i.e.,
data of sufficient quality to allow classifiers to draw accurate and reliable
inferences on the domain.
In order to move from imperfect to smart data, it is critical to develop a thorough data understanding, which comprehends a well-grounded perception of
a multitude of aspects regarding the domain and the data at hand. This
involves a strong understanding of the bias generated by each data imperfection and how it aligns with the learning bias of classification or preprocessing
algorithms, how data imperfections relate to other characteristics of the domains, how they exacerbate each other when appearing in combination, and why certain circumstances are especially harmful to classification tasks.
Following this line of thought, this thesis dedicates time and effort to the
characterization and understanding of data imperfections. We focus particularly on the problems of imbalanced data and missing data, which currently constitute two major lines of research, and further discuss the issues of small
disjuncts and class overlap within the scope of imbalanced data. Accordingly, our main goal is to transfer some thoughts, discuss observations, and produce perceptive insights on working with complex scenarios where these
data imperfections occur. This comprises the characterization of the data
domains and the bias they may entail; the identification, characterization,
and quantification of data imperfections in real-world domains; the identification of proper conditions for the efficient use of classifiers and preprocessing techniques; and the analysis of the bias associated with certain experimental
setup hazards – all of which fall onto our notion of data understanding. Nos dias que correm, os dados encontram-se profundamente incorporados em praticamente todos os aspetos da nossa vida quotidiana, desde aplicações sociais, comerciais, de transporte, energia e até médicas. Os dados tornaram-se parte do tecido das nossas vidas, estão a crescer continuamente e têm um potencial transformador enorme. No entanto, o seu valor está irrefutavelmente dependente da nossa capacidade de os interpretar e transformar em informação útil. Atualmente, essa tarefa recai sobre os sistemas de aprendizagem automática que, devido à sua capacidade de estabelecer conexões e identificar padrões e tendências que nós, enquanto humanos, não conseguimos discernir, tornaram-se a pedra basilar da análise, interpretação e extração de conhecimento dos dados. Tradicionalmente, os algoritmos de aprendizagem automática baseiam-se em certas premissas acerca dos dados que têm disponíveis para treinar os seus modelos. Nomeadamente, que a distribuição das classes é equilibrada, que os conceitos existentes estão bem representados e as fronteiras de decisão bem delimitadas, que o tamanho do conjunto de dados é adequado à aprendizagem, que todos os padrões são consistentes e estão corretamente categorizados, e que não existem valores em falta. No entanto, na maioria dos domínios da vida quotidiana, estas premissas são violadas e os sistemas de aprendizagem automática ficam sujeitos a certas imperfeições dos dados, que dão origem a vários problemas como o desequilíbrio de classes, o aparecimento de pequenos disjuntos, a sobreposição de classes, a falta de representatividade nos conjuntos de treino, os dados ruidosos, as alterações dos conceitos entre as fases de treino e teste, e os dados em falta. Estas imperfeições podem surgir tanto devido a erros nos processos de aquisição, transmissão e recolha de dados, bem como devido à própria natureza dos domínios, e são responsáveis pela degradação do desempenho dos algoritmos e pela geração de previsões enviesadas. Em última análise, o que determina o sucesso dos sistemas de aprendizagem automática é a sua capacidade de transformar dados imperfeitos em dados inteligentes, ou seja, dados de elevada qualidade que permitam aos classificadores produzir inferências precisas e confiáveis acerca dos domínios. Para isso, é fundamental que se desenvolva um processo de compreensão dos dados completo e cuidadoso, o que requer uma forte percepção de diversos aspetos relacionados com os domínios e os dados em questão. Esta percepção pressupõe uma grande compreensão do viés gerado por cada imperfeição de dados e de como ele se alinha com o viés de aprendizagem dos algoritmos de classificação ou pré-processamento, de como as imperfeições dos dados se relacionam com outras características dos domínios, de como se exacerbam mutuamente ao surgir em combinação, e o motivo pelo qual certas situações são especialmente prejudiciais para as tarefas de classificação. O principal objetivo desta tese é discutir observações e estabelecer algumas recomendações relativas ao tratamento de domínios complexos afectados pela imperfeição dos dados. Estas tarefas compreendem a caracterização dos domínios de dados e o viés que eles podem introduzir nos sistemas de aprendizagem automática; a identificação, caracterização e quantificação de imperfeições de dados nos contextos da vida quotidiana; o estudo das condições adequadas para o uso eficiente de classificadores e técnicas de pré-processamento; e a análise do viés associado a certas configurações experimentais – todos os processos essenciais a uma compreensão dos dados eficaz. |
URI: | http://hdl.handle.net/10316/108792 | Direitos: | openAccess |
Aparece nas coleções: | FCTUC Eng.Informática - Teses de Doutoramento UC - Teses de Doutoramento |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
5_versão revista_tese_Miriam_Santos_PhD_Thesis.pdf | 11.4 MB | Adobe PDF | Ver/Abrir |
Visualizações de página
66
Visto em 18/set/2023
Downloads
16
Visto em 18/set/2023
Google ScholarTM
Verificar
Este registo está protegido por Licença Creative Commons