Please use this identifier to cite or link to this item:
https://hdl.handle.net/10316/110354
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Arrais, Joel Perdiz | - |
dc.contributor.author | Carlos, Elmer Jorge Inácio | - |
dc.date.accessioned | 2023-11-20T23:06:58Z | - |
dc.date.available | 2023-11-20T23:06:58Z | - |
dc.date.issued | 2023-09-29 | - |
dc.date.submitted | 2023-11-20 | - |
dc.identifier.uri | https://hdl.handle.net/10316/110354 | - |
dc.description | Dissertação de Mestrado em Biologia Computacional apresentada à Faculdade de Ciências e Tecnologia | - |
dc.description.abstract | A geração de genótipos é uma tarefa importante na pesquisa genética, oferecendo oportunidades para aumento de dados e preservação da privacidade em Estudos de associação do genoma completo (GWAS). Neste trabalho, propusemos um framework de Rede Generativa Adversaria de Wasserstein com Penalidade de Gradiente (WGAN-GP) para sintetizar dados de genótipos realistas. Nossa abordagem consistiu em duas etapas separadas: um processo de pré-treino auto-supervisionado e o processo de treinamento do WGAN-GP. Ao longo do processo de pré-treino, o gerador atua como um modelo semelhante a um decodificador, mapeando as estatísticas genéticas de baixa dimensão para os genótipos originais. Esse processo serve como uma forte inicialização para o subsequente processo de treinamento do WGAN-GP, onde o objetivo é fazer o gerador aprender a sintetizar genótipos diversos e realistas. Os resultados de nosso framework proposto, auxiliado pelas informações codificadas nas estatísticas genéticas de resumo, demonstram resultados favoráveis, destacando valores promissores de estatísticas genéticas e utilidade dos dados sintéticos. No entanto, as diversas discrepâncias observadas nos gráficos de Análise de Componentes Principais (PCA) e a divergência na validação apontam para várias áreas de melhoria futura. Planeamos melhorar ainda mais a eficácia e aplicabilidade da geração de genótipos sintéticos do modelo, explorando a geração multimodal e o melhoramento do desempenho do pré-treinamento. Com essa abordagem baseada em aprendizagem profunda, expandimos os limites da geração de genótipos sintéticos e impulsionamos o progresso da pesquisa genética. | por |
dc.description.abstract | Genotype generation is an useful complement for genetic research, which offers opportunities for data augmentation and privacy preservation of Genome-Wide Association Studies (GWAS). With this study, we proposed a Wasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP) framework for synthesizing realistic genotype data. Our approach consisted of two separate steps: a self-supervised pretraining process and the WGAN-GP training process. Throughout the pretraining process the generator acts like a decoder-like model, mapping the lower dimensional summary statistics to the original genotype data. This process serves as a strong initialization for the subsequent WGAN-GP training process, where the goal is to make the generator learn to synthetize diverse and realistic genotypes. The results of our proposed framework aided with the information encoded in the summary statistics file demonstrate favourable outcomes, highlighting promising genetic statistics values and utility of the synthetic data. Nevertheless, the various discrepancies observed with the principal component analysis (PCA) plots and divergence in validation hints towards multiple future areas of improvement. We aim to further advance the model's synthetics genome generation efficacy and applicability, by exploring multi-modal generation and fine-tuning pretraining. With this Deep learning based approach, we push the boundaries of synthetic genotype generation and foster the progress of genetic research. | eng |
dc.language.iso | eng | - |
dc.rights | openAccess | - |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | - |
dc.subject | Aprendizagem profunda | por |
dc.subject | Modelos Generativos | por |
dc.subject | Redes Generativas Adversarias | por |
dc.subject | Estudo de associação do genoma completo | por |
dc.subject | Coorte caso-controlo | por |
dc.subject | Deep Learning | eng |
dc.subject | Generative Models | eng |
dc.subject | Generative Adversarial Networks | eng |
dc.subject | Genome-wide Association Studies | eng |
dc.subject | Case-Control Cohorts | eng |
dc.title | Generative models for synthesis of artificial human genomes using GWAS summary statistics | eng |
dc.title.alternative | Generative models for synthesis of artificial human genomes using GWAS summary statistics | por |
dc.type | masterThesis | - |
degois.publication.location | Universidade de Coimbra | - |
degois.publication.title | Generative models for synthesis of artificial human genomes using GWAS summary statistics | eng |
dc.peerreviewed | yes | - |
dc.identifier.tid | 203392760 | - |
thesis.degree.discipline | Biologia | - |
thesis.degree.grantor | Universidade de Coimbra | - |
thesis.degree.level | 1 | - |
thesis.degree.name | Mestrado em Biologia Computacional | - |
uc.degree.grantorUnit | Faculdade de Ciências e Tecnologia - Departamento de Ciências da Vida | - |
uc.degree.grantorID | 0500 | - |
uc.contributor.author | Carlos, Elmer Jorge Inácio::0009-0009-4151-0596 | - |
uc.degree.classification | 16 | - |
uc.degree.presidentejuri | Moreira, Irina de Sousa | - |
uc.degree.elementojuri | Arrais, Joel Perdiz | - |
uc.degree.elementojuri | Matos, Sérgio Guilherme Aleixo de | - |
uc.contributor.advisor | Arrais, Joel Perdiz | - |
item.openairetype | masterThesis | - |
item.fulltext | Com Texto completo | - |
item.languageiso639-1 | en | - |
item.grantfulltext | open | - |
item.cerifentitytype | Publications | - |
item.openairecristype | http://purl.org/coar/resource_type/c_18cf | - |
Appears in Collections: | UC - Dissertações de Mestrado |
Files in This Item:
File | Size | Format | |
---|---|---|---|
2023_Thesis_MSc_Elmer.pdf | 3.95 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License