Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/102042
Título: Recurrent Neural Networks for SMILES generation - Quantization Study
Outros títulos: Redes Neuronais Recorrentes para geração de SMILES - Estudo de Quantização
Autor: Durão, Adriano Pinto
Orientador: Fernandes, Gabriel Falcão Paiva
Palavras-chave: LSTM; Redes Neuronais; Machine Learning; Quantização; SMILES; LSTM; Neural Networks; Machine Learning; Quantization; SMILES
Data: 21-Jul-2022
Título da revista, periódico, livro ou evento: Recurrent Neural Networks for SMILES generation - Quantization Study
Local de edição ou do evento: DEEC
Resumo: Machine Learning (ML) has possibly become the biggest research topic in computer science, aiming to improve how tasks are performed and automate computer learning,making use of the ever increasing data available on every major subject, from economics to health. Due to the high number of computations necessary to train ML models it is a very energy intensive process.Optimizing the training process leads to faster and less costly models and allows them to run on less powerful devices. By running the models at reduced precision significant savings can be attained both in memory requirements and power consumption. Most optimization techniques focus on training the network at float precision, converting the model to 16 or 8 bits and running inference on the converted model.This study focuses on the effects of applying quantization during training, making use of the QKeras library. It offers the flexibility to choose the precision used by the model by defining the number of bits at each layer. A class of Neural Networks (NNs) denominated Recurrent Neural Networks (RNNs) will be the focus of the study, comparing the performance of 3 of the most used algorithms, Simple RNN, Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU). The models were trained on a selection of SMILES, a form of line notation for molecular information, from the PubChem database. Quantization performance was compared to their float equivalent for several combinations of tuneable parameters. The goal of the program used for testing is to generate a large number of novel SMILES, facilitating the process of Drug Discovery that is traditionally very expensive and difficult.By understanding how the behavior of quantized networks deviates from the regular model, in relation to the parameters used, the process of choosing whether to quantize a model and to which degree becomes more efficient. This study was able to achieve good performance even on 4 bit models making use of LSTM and GRU layers and concluded that Simple RNN quantization is not worth it.
Machine Learning (ML) tornou-se, nos últimos anos, num dos principais tópicos de pesquisa em ciência de computadores, tendo como principal objetivo melhorar a forma como as tarefas são executadas e automatizar a aprendizagem por computador, fazendo uso da maior disponibilidade de dados sobre as mais variadas áreas, da economia à saúde. Devido ao elevado número de cálculos necessários para treinar modelos de ML, , este é um processo que implica elevados custos energéticos. A otimização do processo de treino leva à obtenção de modelos mais rápidos e menos dispendiosos, permitindo que eles sejam executados em dispositivos menos potentes. Ao executar os modelos com precisão reduzida, é possível obter poupanças significativas nos requisitos de memória e no consumo de energia.A maioria das técnicas de otimização concentra-se em treinar a rede com precisão float, convertendo a seguir o modelo para 16 ou 8 bits e executando a inferência no modelo convertido.Este estudo foca-se nos efeitos da aplicação de quantização durante o treino, recorrendo à biblioteca QKeras. Esta oferece a flexibilidade de escolher a precisão usada pelo modelo, definindo o número de bits em cada camada. A classe de Redes Neuronais denominada Redes Neuronais Recurrentes será o foco do estudo, comparando o desempenho de 3 dos algoritmos mais utilizados, RNN simples, LSTM e GRU. Os modelos foram treinados numa seleção de SMILES, uma forma de notação de linha com informações moleculares, retiradas do banco de dados PubChem. O desempenho dos modelos quantizados foi comparado ao seu equivalente float para várias combinações de parâmetros ajustáveis. O objetivo do programa usado para teste é gerar um grande número de novos SMILES, facilitando o processo de descoberta de novos fármacos, tradicionalmente muito caro e de difícil execução. ̃Ao entender como o comportamento das redes quantizadas se desvia do modelo regular, para cada combinação de parâmetros utilizados, o processo de escolher quantizar um modelo ou não e em que grau o fazer torna-se mais eficiente. Este estudo conseguiu obter um bom desempenho mesmo em modelos de 4 bits, fazendo uso de camadas LSTM e GRU e concluiu que a quantização de modelos usando de camadas RNN simples leva a uma elevada degradação de desempenho.
Descrição: Dissertação de Mestrado em Engenharia Eletrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/102042
Direitos: openAccess
Aparece nas coleções:UC - Dissertações de Mestrado

Ficheiros deste registo:
Mostrar registo em formato completo

Google ScholarTM

Verificar


Este registo está protegido por Licença Creative Commons Creative Commons