Please use this identifier to cite or link to this item:
https://hdl.handle.net/10316/102176
Title: | Voice recognition of users for virtual assistant in industrial environments | Other Titles: | Reconhecimento de utilizadores por voz para assistente virtual em ambientes industriais | Authors: | Magalhães, André Filipe da Silva | Orientador: | Correia, João Nuno Gonçalves Costa Cavaleiro Cruz, Tiago José dos Santos Martins da |
Keywords: | Assistente de Voz; Autênticação; Autorização; Assistente de Reconhecimento de Voz; Aprendizagem Computacional; Voice Assistante; Authentication; Authorisation; Speaker Recognition; Machine Learning | Issue Date: | 14-Sep-2021 | Serial title, monograph or event: | Voice recognition of users for virtual assistant in industrial environments | Place of publication or event: | Altranportugal, SA | Abstract: | With a growth in the number of devices with a greater computational capacity, the need to innovate the human-machine interaction was necessary. Furthermore, with the current technological advances in speech processing and natural language processing, the possibility of interacting with devices has been created in the most natural way human beings have to communicate, the voice. In the context of this internship, we analyse virtual assistants and techniques for recognising the sound produced to authenticate and authorise user commands. To pursue these objectives, we have explored Mycroft AI and extended its framework. Furthermore, was developed an algorithm for creating models for user recognition. In addition, to perform user recognition through Mycroft AI, a REST Server API was created to provide the necessary resources for that purpose. With this, the recognition is carried out through the communication of these two systems (Mycroft AI and API REST Server).For the creation of the speaker identification system, the main component of the API Server, the set of features used were the combination of MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Additionally, as preprocessing, a trimming technique was used. Finally, as modelling techniques, we use Neural Network (Multilayer Perceptron) and Linear Discriminant Analysis (LDA). The public datasets used to validate this approach are TIMIT, NOIZEUS, LibrisSpeech ARS. As a result, Multilayer Perceptron (MLP) was slightly superior to Linear Discriminant Analysis (LDA), being able to recognize a set of 462 different users. Com o crescimento do número de dispositivos e aumento da sua capacidade computacional, a necessidade de inovar a interação com os diferentes dispositivos a aplicações surge. Comos atuais avanços tecnológicos no processamento da fala e no processamento natural da linguagem, tornou-se possível de interagir com os dispositivos da forma mais natural que os seres humanos têm para se comunicar: a voz. No contexto deste estágio, analisamos alguns assistentes virtuais assim como técnicas de reconhecimento dos sons produzidos para autenticar e autorizar os comandos do utilizador. Para atingir esses objetivos, explorados o Mycroft AI e estendemos a sua framework. Foi desenvolvido um algoritmo para a criação dos modelos de reconhecimento dos utilizadores. Adicionalmente, para realizar o reconhecimento dos utilizadores através do Mycroft AI, foi criado um servidor API REST que fornece os recursos necessários para esse propósito. Com isto, o reconhecimento é realizado através da comunicação desses dois sistemas (Mycroft AI e servidor REST API). Para a criação do Speaker Recognition System, a principal componente do servidor RESTAPI, o conjunto de features utilizadas foi a combinação das MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Como preprocessamento foi utilizada uma técnica de trimming. Por fim, como técnicas de modelação, foram utilizadas as redes neuronais (Multilayer Perceptron) e Linear Discriminant Analysis (LDA). Os datasets públicos TIMIT, NOIZEUS e LibrisSpeech ARS. Como resultados finais, as redes neuronais (Multilayer Perceptron) saírem ligeiramente superior em comparação ao Linear Discriminant Analysis (LDA) e é capaz de reconhecer um conjunto de 462 diferentes de utilizadores. |
Description: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia | URI: | https://hdl.handle.net/10316/102176 | Rights: | embargoedAccess |
Appears in Collections: | UC - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
thesis_final.pdf | 1.76 MB | Adobe PDF | View/Open |
Page view(s)
41
checked on Jul 16, 2024
Download(s)
24
checked on Jul 16, 2024
Google ScholarTM
Check
This item is licensed under a Creative Commons License