Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/106400
DC FieldValueLanguage
dc.contributor.advisorMoreira, Irina de Sousa-
dc.contributor.advisorGonçalves, Teresa Maria Fonseca Oliveira-
dc.contributor.authorDuarte, Francisco João Manteigas-
dc.date.accessioned2023-03-31T22:01:01Z-
dc.date.available2023-03-31T22:01:01Z-
dc.date.issued2022-10-13-
dc.date.submitted2023-03-31-
dc.identifier.urihttps://hdl.handle.net/10316/106400-
dc.descriptionDissertação de Mestrado em Investigação Biomédica apresentada à Faculdade de Medicina-
dc.description.abstractOs péptidos de penetração celular (CPPs) são uma classe de péptidos usualmente caracterizados por sequências curtas de aminoácidos (4-40 resíduos), largamente anfifílicos, e com uma carga total positiva em pH fisiológico. Eles são versáteis, modificáveis, e efetivos a transportar cargas terapêuticas acopladas até às células. Sequências de CPPs têm de ser desenhadas para cada caso específico, para melhorar a sua internalização e reduzir uma possível toxicidade adjacente. No entanto, os testes in vivo/in vitro de diferentes CPPs podem ser trabalhosos e dispendiosos. Abordagens computacionais, como Aprendizagem de Máquina (ML), têm vindo a ganhar uma atenção maior como um método mais rápido e barato para o desenho de CPPs e previsão de captação. Apesar disto, a maioria dos modelos de ML desenvolvidos previamente na literatura focam-se em problemas de classificação, em vez dos valores quantitativos mais informativos. Para enfrentar estes problemas, os objetivos deste projeto consistem na construção de um conjunto de dados atualizado com valores de captação quantitativos e no uso destes dados para desenvolver um modelo de ML para a previsão da captação de CPPs. A base de dados CPPsite 2.0 e a curação manual de estudos experimentais foram usados para obter dados de captação quantitativos experimentais de CPPs. As propriedades físico-químicas dos CPPs foram extraídas das suas sequências usando o package de R “Peptides”, e as suas modificações foram transformadas para variáveis de one-hot encoding. Finalmente, vários algoritmos foram testados durante o desenvolvimento de modelos de ML. Um novo conjunto de dados com 139 CPPs contendo dados quantitativos experimentais, e 198 variáveis, consistindo em dados de propriedades físico-químicas, foi desenvolvido e utilizado para o treino de modelos de ML. Durante a construção do dataset, foi possível observar que não havia nenhum método normalizado para a avaliação do uptake de CPPs na literatura, o que dificulta o desenvolvimento de modelos de ML de regressão. O XGBoost foi o melhor modelo de ML desenvolvido, com um Coeficiente de Correlação de Pearson de 0.88, um RMSE de 0.58, um MAE de 0.46 e um R-quadrado de 0.76 no conjunto de teste. Podemos concluir que foi possível criar com sucesso um modelo de ML com um bom desempenho geral para a previsão de valores de captação de CPPs.por
dc.description.abstractCell-penetrating peptides (CPPs) are a class of peptides usually characterized by short amino acid sequences (4-40 residues), largely amphiphilic, and with a net positive charge at physiological pH. They are versatile, modifiable and effective at delivering coupled therapeutic cargo into cells. CPPs sequences have to be specifically designed for each use case, to improve their internalization and reduce possible adjacent toxicity. However, in vivo/in vitro testing of different CPPs can be laborious and expensive. Computational approaches, such as Machine Learning (ML), have been gaining increased attention as a faster and cheaper method for CPP design and uptake prediction. Nonetheless, most ML models developed in previous literature focus on classification problems, rather than the more informative quantitative values. To tackle these problems, this project’s objectives consisted of assembling a novel up-to-date dataset with quantitative uptake values and using these data to develop a ML model for CPP uptake prediction. CPPsite 2.0 database and the manual curation of experimental studies were used to obtain experimental quantitative CPPs uptake data. Physicochemical properties of CPPs were extracted from their sequences using the “Peptides” R package, and their modifications were transformed to one-hot encoding variables. Finally, several algorithms were tested during ML model development. A new CPP dataset with 139 CPPs containing experimental quantitative data, and 198 features, consisting of physicochemical properties data, has been developed and used for ML model training. During dataset construction, it was observed that there were no standardized methods for CPP uptake evaluation in the literature, which hinders the development of regression ML models. The XGBoost was the best developed ML model with a Pearson’s Correlation Coefficient of 0.88, RMSE of 0.58, MAE of 0.46 and R-squared of 0.76 in the test set. We can conclude that it was possible to successfully create a ML model with a good overall performance for CPP uptake value prediction.eng
dc.language.isoeng-
dc.rightsembargoedAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/-
dc.subjectPéptidos de Penetração Celularpor
dc.subjectTransporte de Moléculaspor
dc.subjectSeleção de Descritorespor
dc.subjectAprendizagem de Máquinapor
dc.subjectEficiência de Captaçãopor
dc.subjectCell-Penetrating Peptideseng
dc.subjectCargo-deliveryeng
dc.subjectFeature Selectioneng
dc.subjectMachine Learningeng
dc.subjectUptake Efficiencyeng
dc.titleLeveraging Machine Learning to design CPP for therapeutic cargo deliveryeng
dc.title.alternativeUtilização de Machine Learning para o desenho de péptidos de penetração celular para o transporte de moléculas com potencial terapêuticopor
dc.typemasterThesis-
degois.publication.locationCNC, Universidade de Coimbra-
degois.publication.titleLeveraging Machine Learning to design CPP for therapeutic cargo deliveryeng
dc.date.embargoEndDate2024-10-12-
dc.peerreviewedyes-
dc.date.embargo2024-10-12*
dc.identifier.tid203264312-
thesis.degree.disciplineCiências da Saúde-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Investigação Biomédica-
uc.degree.grantorUnitFaculdade de Medicina-
uc.degree.grantorID0500-
uc.contributor.authorDuarte, Francisco João Manteigas::0000-0002-5754-8419-
uc.degree.classification19-
uc.date.periodoEmbargo730-
uc.degree.presidentejuriGirão, Henrique Manuel Paixão dos Santos-
uc.degree.elementojuriFernandes, Hugo Agostinho Machado-
uc.degree.elementojuriMoreira, Irina de Sousa-
uc.contributor.advisorMoreira, Irina de Sousa::0000-0003-2970-5250-
uc.contributor.advisorGonçalves, Teresa Maria Fonseca Oliveira::0000-0001-9347-0535-
item.openairetypemasterThesis-
item.fulltextCom Texto completo-
item.languageiso639-1en-
item.grantfulltextembargo_20241012-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File Description SizeFormat Login
Dissertacao_Francisco_Duarte.pdf1.05 MBAdobe PDFEmbargo Access    Request a copy
Show simple item record

Page view(s)

23
checked on Jul 17, 2024

Download(s)

1
checked on Jul 17, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons