Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/114585
Title: Pattern Recognition: Contributions and Applications to Image Classification and Video Recognition
Other Titles: Reconhecimento de Padrões: Contribuições e Aplicações para Classificação de Imagem e Reconhecimento de Vídeo
Authors: Phong, Nguyen Huu
Orientador: Ribeiro, Bernardete Martins
Keywords: classificação de imagem; reconhecimento de ações; reconhecimento de padrão; aprendizagem profunda; visão computacional; recurrent neural networks; capsule networks; transformer; particle swarm optimization; collaborative learning
Issue Date: 25-Jul-2023
Project: info:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB/00326/2020/PT
Serial title, monograph or event: Pattern Recognition: Contributions and Applications to Image Classification and Video Recognition
Place of publication or event: Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
Abstract: Convolutional Neural Networks (CNNs) have demonstrated remarkable performance in tasks such as image classification and action recognition, outperforming other methods. However, Capsule Networks (CNs) offer promising new architectures for the community. While the effectiveness of CNs has been demonstrated on datasets such as MNIST and smallNORB, they face challenges when dealing with images containing distinct contexts.In this thesis, we propose an improved design for CNs (Vector version) by incorporating additional Pooling layers to filter out image backgrounds and increasing the number of Reconstruction layers to enhance image restoration. Moreover, we perform experiments to compare the accuracy and speed of CNs with Deep Learning (DL) models such as Inception V3, DenseNet V201, NASNet, MobileNet V1, and MobileNet V2, tailored for powerful computers and small/embedded devices. To evaluate our models, we utilize a fingerspelling alphabet dataset from American Sign Language (ASL). Our results demonstrate that CNs perform comparably to DL models while significantly reducing the training time. Additionally, we provide a demonstration and a link to illustrate our approach.Capsule Networks are exciting and promising in computer vision, but they face a critical challenge when dealing with image backgrounds, which can significantly impact their performance. To address this issue, we propose an improved Capsule Networks architecture that replaces the Standard Convolution with a Depthwise Separable Convolution. This new design significantly reduces the total number of parameters in the model while enhancing its stability and providing competitive accuracy. Furthermore, our proposed model performs exceptionally well on 64x64 pixel images and outperforms standard models on both 32x32 and 64x64 pixel images. To evaluate our models, we conduct empirical experiments using state-of-the-art Transfer Learning networks such as Inception V3 and MobileNet V1. The results show that Capsule Networks can perform comparably against Deep Learning models. Notably, our work is the first to integrate Depthwise Separable Convolution into Capsule Networks, and we believe that this approach holds significant potential for improving the performance of Capsule Networks.In addition to exploring Capsule Networks, in this thesis we investigate the potential of recurrent neural networks (RNNs) for image recognition tasks. Although RNNs are commonly used for sequential data and time series with 1-D information, we propose integrating an RNN as an additional layer in the design of image recognition models. We also develop end-to-end multi-model ensembles that combine several models to produce expert predictions. To achieve state-of-the-art performance, we extend the training strategy of our model, resulting in comparable or even superior results compared to leading models on challenging datasets such as SVHN (0.99), Cifar-100 (0.9027), and Cifar-10 (0.9852). Our model also sets a new record on the Surrey dataset with an accuracy of 0.949. This research highlights the potential of integrating RNNs into image recognition models and the effectiveness of multi-model ensembles for improving performance. Our proposed approach achieves highly competitive results and contributes to advancing the state-of-the-art in image recognition tasks.While Convolutional Neural Networks have been widely used in image classification, action recognition, and other fields, the challenges and dynamics of training these neural networks are still not fully understood, and training them can be computationally expensive. To address this challenge, numerous architectures and training strategies have been proposed for improving the performance of CNNs in image processing tasks, such as speech, image and action recognition, and object detection.In this work, we propose a novel approach for training CNNs using Particle Swarm Optimization (PSO). Our PSO-based training framework allows for the collaborative dynamics of the PSO algorithm to interplay with Stochastic Gradient Descent (SGD) to improve training performance and generalization. Specifically, we first train each CNN independently via SGD in a regular phase. In a collaborative phase, the CNNs share their current vector of weights (or particle-position) along with their gradient estimates of the loss function. We use distinct step sizes for each CNN and blend CNNs with large (possibly random) step-sizes along with more conservative ones. Our approach achieves competitive performance compared to other PSO-based approaches on the challenging Cifar-10 and Cifar-100 datasets, achieving an accuracy of 98.31% and 87.48%, respectively, using only four collaborative CNNs. We expect these results to scale with the number of collaborative CNNs. By using PSO-based training for CNNs, we provide a novel and effective approach to improve their training performance, especially in complex image process tasks.
As Redes Neuronais Convolucionais (CNNs) demonstraram um desempenho notável em tarefas como classificação de imagem e reconhecimento de ações, superando outros métodos. No entanto, as Redes de Cápsulas (CNs) oferecem novas arquiteturas promissoras para a comunidade científica. Embora a eficiência das CNs tenha sido demonstrada em conjuntos de dados como MNIST e smallNORB, enfrentam ainda assim desafios com imagens contendo contextos distintos.Nesta tese, propomos uma versão aperfeiçoada das CNs (versão Vetorial) incorporando camadas adicionais de Pooling para filtrar os planos de fundo das imagens e aumentar o número de camadas de Reconstrução para melhorar a restauração de imagens. Além disso, realizamos experiências para comparar a precisão e velocidade das CNs com modelos de Aprendizagem Profunda (DL) como Inception V3, DenseNet V201, NASNet, MobileNet V1 e MobileNet V2, adaptados para computadores poderosos e dispositivos pequenos/embutidos. Para avaliar os modelos, utilizamos um conjunto de dados de alfabeto manual do American Sign Language (ASL). Os resultados obtidos demonstram que as CNs têm um desempenho comparável aos modelos DL, enquanto reduzem significativamente o tempo de treino. Para efeitos de demonstração, disponibilizamos um link para ilustrar esta abordagem.As Redes de Cápsulas são muito promissoras na visão computacional, mas enfrentam um desafio crítico ao lidar com fundos de imagens, o que pode afetar significativamente o seu desempenho. Para lidar com esta questão, propomos uma arquitetura de Redes de Cápsulas aperfeiçoada que substitui a Convolução Padrão por uma Convolução Separável em Profundidade. Este novo design reduz significativamente o número total de parâmetros no modelo, enquanto permite melhorar não só a sua estabilidade, mas também apresentar uma precisão competitiva. Além disso, o modelo proposto funciona excepcionalmente bem em imagens de 64x64 pixels e supera os modelos padrão em imagens de 32x32 e 64x64 pixels. Para avaliar estes modelos, realizámos experiências usando redes de Transfer Learning de ponta, como Inception V3 e MobileNet V1. Os resultados mostram que as Redes de Cápsulas podem ter desempenho comparável aos modelos de Aprendizagem Profunda.Destaca-se que o trabalho desenvolvido nesta tese é o primeiro a integrar a Convolução Separável em Profundidade nas Redes de Cápsulas, e tudo leva a crer que esta abordagem tenha um potencial significativo para melhorar o desempenho das Redes de Cápsulas.Para além de explorar as Redes de Cápsulas, investigamos o potencial das redes neuronais recorrentes (RNNs) para tarefas de reconhecimento de imagem. Embora as RNNs sejam comumente usadas para dados sequenciais e séries temporais com informação 1-D, propomos integrar uma RNN como camada adicional no design de modelos de reconhecimento de imagem. Também desenvolvemos conjuntos de modelos multimodelos de ponta a ponta que combinam vários modelos para produzir previsões especializadas. Para alcançar um desempenho de última geração, estendemos a estratégia de treino do nosso modelo, resultando em resultados comparáveis ou até superiores em comparação com os principais modelos em conjuntos de dados mais complexos, como SVHN (0,99), Cifar-100 (0,9027) e Cifar-10 (0,9852). O nosso modelo também atinge um novo recorde no conjunto de dados Surrey, com uma precisão de 0,949. Este estudo destaca o potencial de integração de RNNs em modelos de reconhecimento de imagem e a eficiência de conjuntos de modelos multimodelos para melhorar o desempenho. A abordagem proposta alcança resultados altamente competitivos e contribui para avançar o estado-da-arte em tarefas de reconhecimento de imagem.Embora as Redes Neuronais Convolucionais tenham sido amplamente utilizadas na classificação de imagens, reconhecimento de ações e outras áreas, os desafios e dinâmicas de treino dessas redes neuronais ainda não são completamente compreendidos, e o treino pode ser computacionalmente elevado. Para responder a este desafio, inúmeras arquiteturas e estratégias de treino têm sido propostas para melhorar o desempenho de CNNs em tarefas de reconhecimento de fala, imagem e ação, e detecção de objetos.Nesta tese, propomos uma abordagem inovadora para treinar CNNs usando a Otimização por Enxame de Partículas (PSO). A nossa framework de treino baseada em PSO permite que a dinâmica colaborativa do algoritmo PSO interaja com o Gradiente Estocástico Descendente (SGD) para melhorar o desempenho e a generalização do treino. Especificamente, primeiro treinamos cada CNN independentemente via SGD numa fase dita regular. Numa fase colaborativa, as CNNs compartilham seu vetor atual de pesos (ou posição de partícula) juntamente com as estimativas do gradiente da função de perda. Usamos tamanhos de passo distintos para cada CNN e combinamos CNNs com tamanhos de passo grandes (possivelmente aleatórios) juntamente com tamanhos de passo mais conservadores.
Description: Tese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/114585
Rights: openAccess
Appears in Collections:UC - Teses de Doutoramento

Files in This Item:
File SizeFormat
Coimbra_University_PhD_Thesis_Phong_v9.pdf17.08 MBAdobe PDFView/Open
Show full item record

Page view(s)

48
checked on Apr 24, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons