Please use this identifier to cite or link to this item:
https://hdl.handle.net/10316/110841
Title: | Deep Generative Models for protein repositioning | Other Titles: | Deep Generative Models for protein repositioning | Authors: | Coelho, Gonçalo dos Santos | Orientador: | Arrais, Joel Perdiz Monteiro, Nelson |
Keywords: | Conceção de Proteínas; Geração de Proteínas; Redes Neuronais baseadas em sequências; Aprendizagem Profunda; Protein Design; Protein Generation; Sequence-based Neural Networks; Deep Learning | Issue Date: | 20-Sep-2023 | Serial title, monograph or event: | Deep Generative Models for protein repositioning | Place of publication or event: | DEI-FCTUC | Abstract: | Ao gerar uma proteína num laboratório, os cientistas isolam os genes que codificam a proteína de interesse e inserem-na num organismo hospedeiro, uma bactéria ou uma levedura. A cadeia de criação de novas proteínas é gerada, extraída, purificada e analisada. O processo de purificação é uma série de testes que exploram as propriedades físicas e químicas da proteína, como a hidrofobicidade e o tamanho. O processo de análise é mais para determinar a identidade e as funções da proteína, utilizando testes como o ELISA. Todo este processo é irregular e pode ser curto ou levar meses ou anos para completar o estudo da proteína.A conceção de proteínas desempenha um papel importante e é uma forma inovadora de gerar proteínas de-novo.Este método permite criar proteínas "à medida" para tarefas específicas, como o reforço do sistema imunitário.Por isso, algumas estratégias computacionais foram apresentadas ao longo do tempo para ajudar neste processo; o AlphaFold ajudou a prever a forma das proteínas, o modelo Rosetta ajudou a obter a energia mínima e a criação de proteínas 3-D específicas para uma função necessária, o Alinhamento de Sequências compara proteínas rapidamente para que se possa detetar se há alguma mutação, eliminação ou inserção, se pertencem à mesma família de proteínas para que possam ter a mesma função.Neste trabalho, exploramos o universo da geração de proteínas através da implementação de diferentes modelos, nomeadamente em modelos de Processamento de Linguagem Natural (PLN). Para isso, analisamos a estrutura e a sequência das proteínas, encontramos uma forma de validar as sequências proteicas e, em seguida, implementamos um modelo capaz de capturar a complexidade das sequências proteicas e, posteriormente, gerar proteínas válidas. When generating a protein in a laboratory, scientists isolate the genes that code for the protein of interest and insert it into a host organism, a bacteria or yeast. The pipeline of creation of new proteins is generated, extracted, purified, and analyzed. The purification process is a series of tests that exploit the physical and chemical properties of the protein, such as hydrophobicity and size. The analysis process is more to determine the protein's identity and functions using tests like ELISA. This entire process is irregular and can be short or take months or years to complete the protein study.Protein Design plays an important role and is a novel way to generate de-novo proteins.This method makes it possible to make ''custom-made'' proteins for specific tasks, such as boosting the immune system.On that account, some computational strategies have been presented over time to aid in this process; AlphaFold helped in predicting proteins' shape, Rosetta's model helped in obtaining the minimum energy and the creation of 3-D proteins specific to a function needed, Sequence Alignment compares proteins quickly so it can be detected if there are any mutation, deletions or insertion if they belong to the same family of proteins so they can have the same function.In this work, we explore the universe of protein generation by implementing different models, especially in Natural Language Processing (NLP) models. To do this, we analyze the structure and sequence of proteins, find a way to validate protein sequences, and then implement a model capable of capturing the complexity of protein sequences and later generating valid proteins. |
Description: | Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia | URI: | https://hdl.handle.net/10316/110841 | Rights: | openAccess |
Appears in Collections: | UC - Dissertações de Mestrado |
Files in This Item:
File | Size | Format | |
---|---|---|---|
2023_Thesis_MSc_Gonçalo_Final.pdf | 2.24 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License