Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/86135
Title: Computational discovery of Genetic Markers for Type 2 diabetes
Other Titles: Descoberta computacional de marcadores genéticos para diabetes tipo 2
Authors: Almeida, João Miguel Roque
Orientador: Arrais, Joel Perdiz
Keywords: Aprendizagem Máquina; Diabetes Tipo 2; Estudos de Associação Genética; Bioinformática; Genética; Machine Learning; Type 2 Diabetes; Genome Wide Association Study; Bioinformatics; Genetics
Issue Date: 23-Jul-2018
Serial title, monograph or event: Computational discovery of Genetic Markers for Type 2 diabetes
Place of publication or event: CISUC, DEI
Abstract: A Diabetes Tipo 2 é uma doença metabólica causada por resistência à insulina nos órgãos, deficiência relativa de insulina, e níveis altos de açucar no sangue. Esta é uma das doenças mais comuns no mundo, e é a quinta maior causa de morte global. Os custos estimados globais de tratamento tanto directo como indirecto, chegam a atingir os US$1.31 triliões (95\% IC 1.28 - 1.36). Como tal, torna-se cada vez mais important descobrir métodos que possam prever o risco da DT2 desde uma idade jovem, e sem que até nenhuns padrões de risco fisiológicos se verifiquem. Com isto, será possível tanto para médicos como para pacientes estar mais conscientes do risco da doença e poderem empregar medidas preventivas o mais cedo possível.Existem indícios claros que apontam a Diabetes Tipo 2 como uma patologia influenciada não só por factores ambientais, mas também genéticos. Por isso, este estudo pretende desenvolver novas abordagens a Genome Wide Association Studies, mais especificamente no que trata a análises Multi-Locus em doenças complexas, que sejam não só computacionalmente praticáveis mas que estudem também a não-linearidade nestes tipos de dados. Para o fazer, foi desenvolvida uma nova linha inovadora de transformações que permite identificar regiões de interesse no genoma, extrair novas características sem perder o contexto biológico do problema, e utilizá-las em modelos de Machine Learning que acontam com a epistasia.Estes novos métodos são demonstrados numa análise de um dataset de Polimorfismos de Nucleótidos Únicos, onde novos possíveis marcadores genéticos para a Diabetes Tipo 2 são apontados. Para além disso, também é realizada uma classificação do risco de DT2, com F1-Scores a atingir os 0.97 com alta confiança. Este projecto pretende sobretudo mostrar como podem ser minados os dados de datasets de genótipos de uma maneira que permita o uso de modelos de Machine Learning com a sua capacidade total.
Type 2 Diabetes is a metabolic disorder caused by insulin resistance in organs, relative insulin deficiency and high blood sugar levels. It is one of the most common diseases in the world, and the fifth leading cause of death worldwide, with an estimate global cost of indirect and direct treating reaching US$1.31 trillion (95\% CI 1.28 - 1.36). As such, it becomes increasingly important to discover methods of predicting T2D risk from a young age and before the onset of any physiological risk patterns, so that both patients and doctors are aware of it, and can monitor the disease and employ preventive measures.There is clear evidence that supports Type 2 Diabetes risk as being influenced not only by environmental factors, but also genetic ones. In light of this, the following study aims to develop new ways to approach Multi-Locus Genome Wide Association Studies in complex diseases, that are not only computationally feasible, but can also study the non-linearity in a dataset. It aims to do so through the inclusion of an innovative pipeline of transformations that can identify regions of interest in the genome, extract new features without losing biological context of the problem and use them in Machine Learning models that can account for epistasis. This process is further demonstrated in an analysis of a Single Nucleotide Polymorphisms dataset, and provides several identifications of possible novel genetic markers for Type 2 Diabetes. Furthermore, classification of T2D's risk is also performed, reaching F1-scores as high as 0.97 with high confidence. This project aims mostly to exhibit how can a genotypes dataset be data mined in a way that can be fully taken advantage of by Machine Learning models.
Description: Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/86135
Rights: embargoedAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
GeneticMarkers - João Roque.pdf5.4 MBAdobe PDFView/Open
Show full item record

Page view(s) 50

415
checked on Apr 23, 2024

Download(s) 50

393
checked on Apr 23, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons