Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/110354
Título: Generative models for synthesis of artificial human genomes using GWAS summary statistics
Outros títulos: Generative models for synthesis of artificial human genomes using GWAS summary statistics
Autor: Carlos, Elmer Jorge Inácio
Orientador: Arrais, Joel Perdiz
Palavras-chave: Aprendizagem profunda; Modelos Generativos; Redes Generativas Adversarias; Estudo de associação do genoma completo; Coorte caso-controlo; Deep Learning; Generative Models; Generative Adversarial Networks; Genome-wide Association Studies; Case-Control Cohorts
Data: 29-Set-2023
Título da revista, periódico, livro ou evento: Generative models for synthesis of artificial human genomes using GWAS summary statistics
Local de edição ou do evento: Universidade de Coimbra
Resumo: A geração de genótipos é uma tarefa importante na pesquisa genética, oferecendo oportunidades para aumento de dados e preservação da privacidade em Estudos de associação do genoma completo (GWAS). Neste trabalho, propusemos um framework de Rede Generativa Adversaria de Wasserstein com Penalidade de Gradiente (WGAN-GP) para sintetizar dados de genótipos realistas. Nossa abordagem consistiu em duas etapas separadas: um processo de pré-treino auto-supervisionado e o processo de treinamento do WGAN-GP. Ao longo do processo de pré-treino, o gerador atua como um modelo semelhante a um decodificador, mapeando as estatísticas genéticas de baixa dimensão para os genótipos originais. Esse processo serve como uma forte inicialização para o subsequente processo de treinamento do WGAN-GP, onde o objetivo é fazer o gerador aprender a sintetizar genótipos diversos e realistas. Os resultados de nosso framework proposto, auxiliado pelas informações codificadas nas estatísticas genéticas de resumo, demonstram resultados favoráveis, destacando valores promissores de estatísticas genéticas e utilidade dos dados sintéticos. No entanto, as diversas discrepâncias observadas nos gráficos de Análise de Componentes Principais (PCA) e a divergência na validação apontam para várias áreas de melhoria futura. Planeamos melhorar ainda mais a eficácia e aplicabilidade da geração de genótipos sintéticos do modelo, explorando a geração multimodal e o melhoramento do desempenho do pré-treinamento. Com essa abordagem baseada em aprendizagem profunda, expandimos os limites da geração de genótipos sintéticos e impulsionamos o progresso da pesquisa genética.
Genotype generation is an useful complement for genetic research, which offers opportunities for data augmentation and privacy preservation of Genome-Wide Association Studies (GWAS). With this study, we proposed a Wasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP) framework for synthesizing realistic genotype data. Our approach consisted of two separate steps: a self-supervised pretraining process and the WGAN-GP training process. Throughout the pretraining process the generator acts like a decoder-like model, mapping the lower dimensional summary statistics to the original genotype data. This process serves as a strong initialization for the subsequent WGAN-GP training process, where the goal is to make the generator learn to synthetize diverse and realistic genotypes. The results of our proposed framework aided with the information encoded in the summary statistics file demonstrate favourable outcomes, highlighting promising genetic statistics values and utility of the synthetic data. Nevertheless, the various discrepancies observed with the principal component analysis (PCA) plots and divergence in validation hints towards multiple future areas of improvement. We aim to further advance the model's synthetics genome generation efficacy and applicability, by exploring multi-modal generation and fine-tuning pretraining. With this Deep learning based approach, we push the boundaries of synthetic genotype generation and foster the progress of genetic research.
Descrição: Dissertação de Mestrado em Biologia Computacional apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/110354
Direitos: openAccess
Aparece nas coleções:UC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro TamanhoFormato
2023_Thesis_MSc_Elmer.pdf3.95 MBAdobe PDFVer/Abrir
Mostrar registo em formato completo

Visualizações de página

82
Visto em 17/jul/2024

Google ScholarTM

Verificar


Este registo está protegido por Licença Creative Commons Creative Commons