DSpace Collection:
https://hdl.handle.net/10316/103
2024-03-28T16:33:30ZResearch Problems in Data Quality: Addressing Imbalanced and Missing Data
https://hdl.handle.net/10316/108792
Title: Research Problems in Data Quality: Addressing Imbalanced and Missing Data
Authors: Santos, Miriam Raquel Seoane Pereira Seguro
Abstract: Nowadays, data is deeply entangled in nearly all aspects of our daily lives,
from social, business, transportation, energy, and even medical applications.
Data is among us, it’s continuously growing, and its potential is immensely
powerful. Nevertheless, its only value relies on our ability to understand it
and transform it into meaningful insights. This task currently falls upon the
shoulders of machine learning algorithms, that due to their ability to establish connections, patterns, and trends we humans cannot see, have become the cornerstone in analyzing, interpreting, and extracting knowledge from
data.
Traditional machine learning algorithms expect their input data to be well-behaved regarding several factors, such as balanced class distributions, well-represented concepts, and decision boundaries, an adequate training set size,
consistent and correctly labeled instances, and a complete set of observed
values in all features, among others. However, when applied “in the wild”,
machine learning algorithms are inevitably faced with data imperfection, as
many of these assumptions are broken, giving rise to several data problems
such as imbalanced data, small disjuncts, class overlap, lack of data, noisy
data, dataset shift, and missing data. These imperfections may arise either
due to errors in the data acquisition, transmission, and collection processes,
or due to the intrinsic nature of the domains, and they are responsible for
the degradation of classification performance, and the generation of biased
predictions.
What ultimately determines the success of machine learning applications
is therefore their ability to transform imperfect data into smart data, i.e.,
data of sufficient quality to allow classifiers to draw accurate and reliable
inferences on the domain.
In order to move from imperfect to smart data, it is critical to develop a thorough data understanding, which comprehends a well-grounded perception of
a multitude of aspects regarding the domain and the data at hand. This
involves a strong understanding of the bias generated by each data imperfection and how it aligns with the learning bias of classification or preprocessing
algorithms, how data imperfections relate to other characteristics of the domains, how they exacerbate each other when appearing in combination, and why certain circumstances are especially harmful to classification tasks.
Following this line of thought, this thesis dedicates time and effort to the
characterization and understanding of data imperfections. We focus particularly on the problems of imbalanced data and missing data, which currently constitute two major lines of research, and further discuss the issues of small
disjuncts and class overlap within the scope of imbalanced data. Accordingly, our main goal is to transfer some thoughts, discuss observations, and produce perceptive insights on working with complex scenarios where these
data imperfections occur. This comprises the characterization of the data
domains and the bias they may entail; the identification, characterization,
and quantification of data imperfections in real-world domains; the identification of proper conditions for the efficient use of classifiers and preprocessing techniques; and the analysis of the bias associated with certain experimental
setup hazards – all of which fall onto our notion of data understanding.; Nos dias que correm, os dados encontram-se profundamente incorporados em
praticamente todos os aspetos da nossa vida quotidiana, desde aplicações sociais, comerciais, de transporte, energia e até médicas. Os dados tornaram-se parte do tecido das nossas vidas, estão a crescer continuamente e têm um
potencial transformador enorme. No entanto, o seu valor está irrefutavelmente dependente da nossa capacidade de os interpretar e transformar em informação útil. Atualmente, essa tarefa recai sobre os sistemas de aprendizagem automática que, devido à sua capacidade de estabelecer conexões
e identificar padrões e tendências que nós, enquanto humanos, não conseguimos discernir, tornaram-se a pedra basilar da análise, interpretação e extração de conhecimento dos dados.
Tradicionalmente, os algoritmos de aprendizagem automática baseiam-se em
certas premissas acerca dos dados que têm disponíveis para treinar os seus
modelos. Nomeadamente, que a distribuição das classes é equilibrada, que os conceitos existentes estão bem representados e as fronteiras de decisão bem delimitadas, que o tamanho do conjunto de dados é adequado à aprendizagem, que todos os padrões são consistentes e estão corretamente categorizados, e que não existem valores em falta. No entanto, na maioria
dos domínios da vida quotidiana, estas premissas são violadas e os sistemas
de aprendizagem automática ficam sujeitos a certas imperfeições dos dados, que dão origem a vários problemas como o desequilíbrio de classes, o aparecimento de pequenos disjuntos, a sobreposição de classes, a falta de representatividade nos conjuntos de treino, os dados ruidosos, as alterações dos conceitos entre as fases de treino e teste, e os dados em falta. Estas
imperfeições podem surgir tanto devido a erros nos processos de aquisição, transmissão e recolha de dados, bem como devido à própria natureza dos domínios, e são responsáveis pela degradação do desempenho dos algoritmos e pela geração de previsões enviesadas.
Em última análise, o que determina o sucesso dos sistemas de aprendizagem automática é a sua capacidade de transformar dados imperfeitos em dados inteligentes, ou seja, dados de elevada qualidade que permitam aos classificadores produzir inferências precisas e confiáveis acerca dos domínios.
Para isso, é fundamental que se desenvolva um processo de compreensão dos dados completo e cuidadoso, o que requer uma forte percepção de diversos aspetos relacionados com os domínios e os dados em questão. Esta percepção pressupõe uma grande compreensão do viés gerado por cada imperfeição de dados e de como ele se alinha com o viés de aprendizagem dos algoritmos
de classificação ou pré-processamento, de como as imperfeições dos dados se
relacionam com outras características dos domínios, de como se exacerbam
mutuamente ao surgir em combinação, e o motivo pelo qual certas situações
são especialmente prejudiciais para as tarefas de classificação.
O principal objetivo desta tese é discutir observações e estabelecer algumas recomendações relativas ao tratamento de domínios complexos afectados pela imperfeição dos dados. Estas tarefas compreendem a caracterização dos domínios de dados e o viés que eles podem introduzir nos sistemas de aprendizagem automática; a identificação, caracterização e quantificação de imperfeições de dados nos contextos da vida quotidiana; o estudo das condições adequadas para o uso eficiente de classificadores e técnicas de
pré-processamento; e a análise do viés associado a certas configurações experimentais – todos os processos essenciais a uma compreensão dos dados eficaz.2022-09-07T00:00:00ZA MANAGEMENT FRAMEWORK FOR RESIDENTIAL BROADBAND ENVIRONMENTS
https://hdl.handle.net/10316/108717
Title: A MANAGEMENT FRAMEWORK FOR RESIDENTIAL BROADBAND ENVIRONMENTS
Authors: Cruz, Tiago
Abstract: The expansion of high-speed broadband access networks, with an increasing growth in the number of connected households has brought a new set of concerns related to aspects such as management, services and security, with potential consequences for communication operators, clients and third-parties. The considerable number of residential customers served by broadband networks that lack the necessary technical knowledge to manage their equipment and infrastructure, in a self-sufficient manner, together with the high bandwidth available for each permanent connection, contribute to a scenario that conventional centralized operator security and management models are unable to deal with. This thesis addresses these issues in the perspective of the operator management infrastructure, by proposing a management framework for devices and services based on a different operation paradigm in which the operator is able to extend its influence to the customer premises LAN, instead of remaining confined to its own infrastructure. This has the benefit of relieving the users from the LAN configuration and management burden, while allowing operators to deliver a better service, by easing diagnostics and configuration procedures. In this perspective, several related aspects will be addressed in the form of application scenarios, always in an integrated perspective orthogonal to the proposed management framework, namely: • Device management: in order to integrate the heterogeneous device and management standards ecosystem of the residential network in the scope of the operator management infrastructure. By bridging both worlds, operators are able to extend their reach into the customers’ premises networks, managing all sorts of devices and services while relieving users from such burden and improving service quality. • Exploration of new service paradigms: another aspect which is addressed in the scope of this thesis has to do with researching and evaluating new service paradigms for leveraging the benefits of broadband environments. Those value-added proposals are conceived as complementary to the existing operators’ connectivity and service portfolio, being proposed in the form of managed services. • New security models: the specific nature of broadband network environments, together with its increasing household penetration ratio has contributed to create and/or increase a number of security issues which are growing to the point of becoming a serious threat, with repercussions at several levels, from service degradation to compromising personal information. In this perspective, a distributed security model based on the concept of shared security is proposed, bringing together operators and users in an effort to detect and fight the potential menaces which threaten modern broadband environments. Not only these topics are of particular concern in the scope of broadband access networks, but they are also becoming increasingly relevant with the inclusion of other factors such as the introduction of integrated broadband services over IP (such as triple-play) and the expansion of the customer base. As such, his thesis proposes to contribute to this discussion by proposing innovative models for security, services and management in the context of broadband access networks.2011-01-01T00:00:00ZAutomated Privacy Protection For Mobile Devices
https://hdl.handle.net/10316/106627
Title: Automated Privacy Protection For Mobile Devices
Authors: Mendes, Ricardo da Silva Carvalho
Abstract: The pervasiveness of smart devices and the always connected paradigm has fostered applications that benefit from sensing the environment to provide contextualized services to users. This paradigm has undeniably made lives easier by breaking language barriers, providing effective navigation routing and constant communication and availability, to name a few. For all of these services however, a significant amount of information is exchanged with service providers, some of which can be considered private and sensitive. Furthermore, after being collected, users have limited control over their data. To preserve privacy before the data is sent to service providers, mobile devices employ permission managers. These mechanisms allow users to control access to sensitive resources and data by the installed applications. However, currently deployed managers have been shown inefficient at both protecting and warning users against the possible risks. Specifically, the main drawback of current systems lies in the number of permissions that are automatically accepted. After being allowed once, applications can generally access the same resource at any time, without user consent or even awareness. These automatically accepted permissions can violate the privacy preferences of the user at each current context, i.e., they violate privacy’s contextual integrity, and therefore contradict users expectations. Automation in permission managers is paramount as the number installed applications and respective permissions renders inefficient constantly asking the user. In fact, it would lead users to became fatigued and therefore to promptly dismiss the privacy notices. Hence, the automation must be smart by taking into account the intrinsic nature of privacy, namely, privacy’s subjectiveness to each individual and the contextual dependency of such preferences. The main goal of this thesis is to improve the state-of-the-art in privacy for mobile devices through personalized and context-aware automation. Towards this end, we start by performing a field study to collect permission decisions, their surrounding context and respective user expectations, a dataset that we make available to the community. This data shows the ineffectiveness of current permission managers based on runtime permissions, as this would have resulted in a violation of privacy for 15% of requests. Additionally, almost 50% of requests were unexpected to users, thus highlighting a strong misalignment between apps’ practices and user expectations. Furthermore, privacy decisions see the strongest correlation with user expectation, however, both the expectation and its importance in the decision is subjective to each individual. Using the collected data, we train personalized and context-aware models for the prediction of privacy decisions by taking into consideration user expectation and the context of the user and of the phone. Our best model achieves an Area Under the Receiving Operation Curve (ROC AUC) of 0.957 and an F1 score of 0.924. Furthermore, such model reduces the number of privacy violations by 59.5%, when compared to a standard Android handset. Without user expectation, we achieve a ROC AUC of 0.898 and an F1 score of 0.886, a model that reduces the privacy violations by 27.9%. Another crucial drawback of existing permission managers is the limited control over the trade-off between privacy and utility. Specifically, the binary option of allowing or denying permissions corresponds to extreme situations where the user either has maximum utility and no privacy, or maximum privacy and no utility, respectively. Obfuscation can be added to the permission manager to provide users with a fine-grained control over this trade-off. Two challenges arise in this subject: obfuscation techniques are data type dependent, and therefore different techniques would be required for each sensitive permission; tuning the obfuscation mechanism for each situation at each permission request, or using static configurations could result in ineffective privacy and/or utility depending on each situation/context. Focusing on location data, a prevalent and sensitive type of data in mobile devices, we performed an empirical evaluation on the effect of varying frequency of reports on location privacy mechanisms based on differential privacy, the de facto privacy standard. This empirical study reveals that under sporadic release of location data, reports can be considered independent. However, under continuous location sharing, correlations between successive reports degrade the user privacy, thus requiring Location Privacy-Preserving Mechanisms (LPPMs) that take this aspect into consideration. Another finding from this study is that a poorly configured LPPM can result in no effective privacy. These two results served as motivation to propose a novel formal notion for the continuous release of location data based on differential privacy and termed Velocity-Aware Geo-Indistinguishability (VA-GI). A VA-GI LPPM is presented that automatically adjusts for privacy or utility depending on the velocity of the user and frequency of reports. This automated adjustment is essential for the integration of such mechanism in a permission manager, while requiring minimal interaction from the user, e.g., for tuning parameters. Furthermore, this proposal simplifies its configuration by requiring only two user-set parameters, the privacy budget and a multiplier, and allows for the personalization of the LPPM by using data from a specific driver or from all drivers in a particular area, thus enabling personalization from a fine-grained user-level up to more general region-level (e.g. city or district). Our empirical simulations with real data show the effectiveness of the VA-GI LPPM in automatically adjusting the privacy and utility, in fact outperforming existing differentially private LPPMs.; A adoção em massa de dispositivos móveis inteligentes e o paradigma da conectividade permanente levaram ao desenvolvimento de aplicações que oferecem serviços personalizados com base em informação que recolhem sobre o contexto do utilizador (p.e. localização). Este paradigma facilitou o quotidiano dos utilizadores através de serviços como navegação e identificação de pontos de interesse, bem como ao ajudar a quebrar barreiras linguísticas, entre outros. No entanto, uma quantidade significativa de informação é enviada para os fornecedores destes serviços, parte da qual pode ser considerada privada e sensível. Além disso, os utilizadores têm, em geral, um controlo limitado sobre os seus dados após estes serem recolhidos. Para preservar a privacidade dos utilizadores antes de os dados serem enviados para os fornecedores de serviços, os dispositivos móveis possuem gestores de permissões que permitem ao utilizador controlar o acesso das aplicações aos recursos e dados sensíveis. No entanto, os gestores de privacidade atuais são pouco eficazes a proteger e a notificar os utilizadores sobre os potenciais riscos de privacidade. Existe um elevado número de permissões que são automaticamente concedidas, em particular, após terem sido autorizadas uma primeira vez pelo utilizador, as aplicações podem, em geral, aceder ao mesmo recurso a qualquer momento, sem consentimento ou mesmo perceção por parte do utilizador. Estas permissões automaticamente concedidas podem violar as preferências dos utilizadores, contradizendo as suas expectativas que podem variar de acordo com o contexto de utilização. A automação dos gestores de permissões é fulcral, uma vez que o elevado número de aplicações instaladas e respetivas permissões torna a sua gestão individual inviável, caso o utilizador tivesse que responder manualmente a todos os pedidos, o que teria como consequência a dessensibilização do utilizador para com os avisos de privacidade. Desta forma, a automação destes sistemas deve ser inteligente, garantindo que as características intrínsecas à noção de privacidade sejam respeitadas, nomeadamente, a sua subjetividade em relação a cada indivíduo e a sua dependência do contexto. O objetivo principal desta dissertação é melhorar o estado-da-arte da privacidade em dispositivos móveis, através de automação personalizada e ciente do contexto. Para tal, começámos por realizar uma campanha de recolha de dados para coletar informação acerca das decisões de acesso a permissões pelos utilizadores, bem como o respetivo contexto e as expectativas dos utilizadores. Devido à inexistência de um dataset público semelhante, disponibilizamos os dados recolhidos à comunidade científica. O nosso dataset demonstra a ineficácia dos atuais gestores de permissões baseados em runtime, i.e. que concede permissões às aplicações da primeira vez que são pedidas, mantendo-as para futuras utilizações. Este modo de gestão de permissões que é o gestor predefinido do Android resulta numa violação da privacidade em 15% das permissões respondidas pelos nossos participantes. Além disso, quase 50% de todos os pedidos de permissões foram considerados como inesperados pelos utilizadores, evidenciando uma forte divergência entre as práticas das aplicações e as expetativas do utilizador. Adicionalmente, a feature da expectativa do utilizador foi identificada como aquela com a maior correlação com as decisões de privacidade dos utilizadores, realçando a sua importância nas decisões de privacidade adotadas. No entanto, tanto a expectativa como a sua importância para a decisão foi identificada como sendo subjetiva a cada indivíduo. Com os dados recolhidos, treinámos modelos personalizados e cientes do contexto para previsão das decisões de privacidade (aceitar ou rejeitar acesso às permissões), tendo em consideração features de expectativa e contexto do utilizador, bem como do contexto do dispositivo. O nosso melhor modelo de predição atinge um área abaixo da curva Receiver Operator Characteristic (ROC AUC) de 0.957 e um F1 score de 0.924. Mais ainda, este modelo reduz a quantidade de violações de privacidade em 59.5% em comparação com o gestor de permissões predefinido do Android baseado em permissões em runtime. Sem utilização da feature da expectativa (que requer input do utilizador), o modelo atinge ainda assim uma ROC AUC de 0.898, um F1 score de 0.886 e uma redução no número de violações de privacidade de 27.9%. Outra importante limitação dos gestores de privacidade existentes é o controlo limitado sobre o compromisso entre a privacidade e a utilidade. Especificamente, a opção binária de permitir ou negar permissões corresponde aos extremos onde o utilizador tem máxima utilidade e nenhuma privacidade, ou máxima privacidade e nenhuma utilidade, respetivamente. A ofuscação de dados é uma medida válida para possibilitar aos utilizadores um controlo mais fino sobre este balanço. Dois desafios aparecem neste contexto: as técnicas de ofuscação são tipicamente específicas a cada tipo de dados e, portanto, técnicas diferentes são necessárias para cada tipo de permissão/dados; a configuração das técnicas de ofuscação para cada situação/contexto pode resultar num nível de proteção da privacidade ou num ajuste da utilidade, ineficazes. Focando nos dados de localização, face à sua prevalência em dispositivos móveis e à sensibilidade dos mesmos, realizámos uma avaliação empírica do efeito da variação da frequência da partilha de dados de localização na eficácia dos mecanismos de proteção de privacidade de localização baseados em privacidade diferencial, a atual noção de privacidade de informação dominante. Este estudo revelou que a independência dos dados de localização pode ser efetivamente assumida no caso da partilha esporádica. No entanto, sob a partilha contínua da localização, a correlação entre localizações sucessivas degrada a privacidade do utilizador, requerendo assim mecanismos de preservação da privacidade de localização (LPPMs) que tenham em conta essa mesma correlação. A análise demonstrou ainda que uma inadequada configuração de um LPPM pode resultar numa perda significativa do nível de privacidade. Estes dois resultados serviram de motivação para a proposta de um nova noção formal de privacidade para a partilha contínua de dados de localização, baseada em privacidade diferencial, designada Velocity-Aware Geo-Indistinguishability (VA-GI). Com base na análise referida, foi então desenvolvido o novo LPPM VA-GI que ajusta automaticamente o nível de privacidade ou utilidade em função da velocidade do utilizador e da frequência da partilha de dados de localização. Este ajuste automático é essencial para a integração de um LPPM num gestor de privacidade, para que a interação requerida ao utilizador, por exemplo para o ajuste de parâmetros, seja mínima. Para além disso, esta proposta simplifica a configuração do LPPM, requerendo apenas dois parâmetros: o orçamento de privacidade e um multiplicador, que servem para definir os limites máximos e mínimos do nível de privacidade e utilidade. Este LPPM permite ainda a personalização do mecanismo através do uso de dados de um único condutor ou de todos os condutores de uma dada área geográfica (por exemplo, uma cidade ou distrito). A avaliação com trajetórias reais demonstra a eficácia do VA-GI LPPM no ajuste automático dos níveis de privacidade e utilidade, resultando num desempenho superior face a outros LPPMs baseados em privacidade diferencial.
Description: Tese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra.2023-01-20T00:00:00ZContributions Towards a Participation-Centered Game Design
https://hdl.handle.net/10316/101709
Title: Contributions Towards a Participation-Centered Game Design
Authors: Pereira, Luís Manuel Santos Lucas Bento
Abstract: This research proposes a new conceptual model – the Participation-Centered Game Design Model – that serves as a creativity support tool for helping creators consider the experience design space mediated by the video game medium, and their analysis of the ensuing gameplay experience.
The model conceptualizes gameplay through six perspectives of participation: Playfulness, Challenge, Embodiment, Sociability, Sensemaking and Sensoriality. These perspectives are operationalized at three levels: Intention (setting of gameplay experience goals), Artifact (characterization of the videogame object) and Participation (evaluation of the gameplay experience). To operationalize the model in design praxis, it was transmediated into a canvas consisting of a set of guiding questions designed to promote ideation along each of the participation dimensions, at the three operational levels.
To evaluate the model and canvas, they were deployed in a set of game design exercises in a master course, and used by a total of 33 teams of game design students. Based on qualitative evaluations of their influence in game design learning processes, the tools were iterated three times, and were shown to be an effective aid in the generation of diverse game design ideas. To evaluate the participation model as support for game experience evaluation, three case studies were carried out, where gameplay metrics from three distinct video game artifacts were analyzed with support of the model, to assess whether their gameplay experience goals had been achieved. Data collected from these experiments showed that the model and canvas assisted design practitioners in their creative exploration of the design space, and evaluation of the resulting gameplay experience. Therefore, we concluded they can serve as an effective design support tool for these two moments in the development process.; Este trabalho investigação propõe um novo modelo conceptual - um Modelo de Game Design Centrado na Participação - que serve como ferramenta de suporte à actividade de game design para ajudar os criadores a pensar sobre o espaço de design da experiência de jogo mediada pelo meio videojogo, e a análise da experiência de jogo subsequente.
O modelo conceptualiza a actividade do jogo através de seis perspectivas de participação: Brincadeira, Desafio, Corporealidade, Sociabilidade, Criação de Sentido e Sensorialidade. Estas perspectivas são operacionalizadas a três níveis: Intenção (definição dos objectivos da experiência de jogo), Artefacto (caracterização do objecto do videojogo) e Participação (avaliação da experiência de jogo). Para operacionalizar a utilização do modelo na prática do design, este foi materializado num canvas que consiste em questões orientadoras que promovem a idealização do design ao longo de cada uma das perspectivas de participação, nos três níveis operacionais.
O modelo e o canvas foram utilizados numa unidade curricular de Game Design, e utilizados por um total de 33 equipas de estudantes. Com base em avaliações qualitativas da sua influência nos processos de aprendizagem de game design, as ferramentas foram iteradas 3 vezes, e demonstraram ser uma ajuda eficaz na geração de ideias de concepção de videojogos. Para avaliar o modelo de participação como apoio à avaliação da experiência de jogo, foram realizados 3 estudos de caso, onde foram analisadas métricas de actividade de jogo a partir de 3 videojogos distintos com apoio do modelo, para avaliar se os seus objectivos de experiência de jogo tinham sido alcançados. Os dados recolhidos a partir destas experiências mostraram que o modelo e o canvas ajudaram os alunos de game design na sua exploração criativa do espaço de design, e na avaliação da experiência de jogo consequente. Por conseguinte, concluímos que estes instrumentos podem servir como uma ferramenta eficaz de apoio ao design nestes dois momentos do processo de game design design.
Description: Tese no âmbito do Programa de Doutoramento em Ciências e Tecnologias da Informação, apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra.2022-06-08T00:00:00Z