Leveraging Machine Learning to design CPP for therapeutic cargo delivery

Duarte, Francisco João Manteigas

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/106400

Title:	Leveraging Machine Learning to design CPP for therapeutic cargo delivery
Other Titles:	Utilização de Machine Learning para o desenho de péptidos de penetração celular para o transporte de moléculas com potencial terapêutico
Authors:	Duarte, Francisco João Manteigas
Orientador:	Moreira, Irina de Sousa Gonçalves, Teresa Maria Fonseca Oliveira
Keywords:	Péptidos de Penetração Celular; Transporte de Moléculas; Seleção de Descritores; Aprendizagem de Máquina; Eficiência de Captação; Cell-Penetrating Peptides; Cargo-delivery; Feature Selection; Machine Learning; Uptake Efficiency
Issue Date:	13-Oct-2022
Serial title, monograph or event:	Leveraging Machine Learning to design CPP for therapeutic cargo delivery
Place of publication or event:	CNC, Universidade de Coimbra
Abstract:	Os péptidos de penetração celular (CPPs) são uma classe de péptidos usualmente caracterizados por sequências curtas de aminoácidos (4-40 resíduos), largamente anfifílicos, e com uma carga total positiva em pH fisiológico. Eles são versáteis, modificáveis, e efetivos a transportar cargas terapêuticas acopladas até às células. Sequências de CPPs têm de ser desenhadas para cada caso específico, para melhorar a sua internalização e reduzir uma possível toxicidade adjacente. No entanto, os testes in vivo/in vitro de diferentes CPPs podem ser trabalhosos e dispendiosos. Abordagens computacionais, como Aprendizagem de Máquina (ML), têm vindo a ganhar uma atenção maior como um método mais rápido e barato para o desenho de CPPs e previsão de captação. Apesar disto, a maioria dos modelos de ML desenvolvidos previamente na literatura focam-se em problemas de classificação, em vez dos valores quantitativos mais informativos. Para enfrentar estes problemas, os objetivos deste projeto consistem na construção de um conjunto de dados atualizado com valores de captação quantitativos e no uso destes dados para desenvolver um modelo de ML para a previsão da captação de CPPs. A base de dados CPPsite 2.0 e a curação manual de estudos experimentais foram usados para obter dados de captação quantitativos experimentais de CPPs. As propriedades físico-químicas dos CPPs foram extraídas das suas sequências usando o package de R “Peptides”, e as suas modificações foram transformadas para variáveis de one-hot encoding. Finalmente, vários algoritmos foram testados durante o desenvolvimento de modelos de ML. Um novo conjunto de dados com 139 CPPs contendo dados quantitativos experimentais, e 198 variáveis, consistindo em dados de propriedades físico-químicas, foi desenvolvido e utilizado para o treino de modelos de ML. Durante a construção do dataset, foi possível observar que não havia nenhum método normalizado para a avaliação do uptake de CPPs na literatura, o que dificulta o desenvolvimento de modelos de ML de regressão. O XGBoost foi o melhor modelo de ML desenvolvido, com um Coeficiente de Correlação de Pearson de 0.88, um RMSE de 0.58, um MAE de 0.46 e um R-quadrado de 0.76 no conjunto de teste. Podemos concluir que foi possível criar com sucesso um modelo de ML com um bom desempenho geral para a previsão de valores de captação de CPPs. Cell-penetrating peptides (CPPs) are a class of peptides usually characterized by short amino acid sequences (4-40 residues), largely amphiphilic, and with a net positive charge at physiological pH. They are versatile, modifiable and effective at delivering coupled therapeutic cargo into cells. CPPs sequences have to be specifically designed for each use case, to improve their internalization and reduce possible adjacent toxicity. However, in vivo/in vitro testing of different CPPs can be laborious and expensive. Computational approaches, such as Machine Learning (ML), have been gaining increased attention as a faster and cheaper method for CPP design and uptake prediction. Nonetheless, most ML models developed in previous literature focus on classification problems, rather than the more informative quantitative values. To tackle these problems, this project’s objectives consisted of assembling a novel up-to-date dataset with quantitative uptake values and using these data to develop a ML model for CPP uptake prediction. CPPsite 2.0 database and the manual curation of experimental studies were used to obtain experimental quantitative CPPs uptake data. Physicochemical properties of CPPs were extracted from their sequences using the “Peptides” R package, and their modifications were transformed to one-hot encoding variables. Finally, several algorithms were tested during ML model development. A new CPP dataset with 139 CPPs containing experimental quantitative data, and 198 features, consisting of physicochemical properties data, has been developed and used for ML model training. During dataset construction, it was observed that there were no standardized methods for CPP uptake evaluation in the literature, which hinders the development of regression ML models. The XGBoost was the best developed ML model with a Pearson’s Correlation Coefficient of 0.88, RMSE of 0.58, MAE of 0.46 and R-squared of 0.76 in the test set. We can conclude that it was possible to successfully create a ML model with a good overall performance for CPP uptake value prediction.
Description:	Dissertação de Mestrado em Investigação Biomédica apresentada à Faculdade de Medicina
URI:	https://hdl.handle.net/10316/106400
Rights:	embargoedAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format	Login
Dissertacao_Francisco_Duarte.pdf		1.05 MB	Adobe PDF	Embargo Access Request a copy

Show full item record

Page view(s)

23

checked on Jul 17, 2024

Download(s)

1

checked on Jul 17, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM