Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/102176
DC FieldValueLanguage
dc.contributor.advisorCorreia, João Nuno Gonçalves Costa Cavaleiro-
dc.contributor.advisorCruz, Tiago José dos Santos Martins da-
dc.contributor.authorMagalhães, André Filipe da Silva-
dc.date.accessioned2022-09-26T22:01:42Z-
dc.date.available2022-09-26T22:01:42Z-
dc.date.issued2021-09-14-
dc.date.submitted2022-09-26-
dc.identifier.urihttps://hdl.handle.net/10316/102176-
dc.descriptionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia-
dc.description.abstractWith a growth in the number of devices with a greater computational capacity, the need to innovate the human-machine interaction was necessary. Furthermore, with the current technological advances in speech processing and natural language processing, the possibility of interacting with devices has been created in the most natural way human beings have to communicate, the voice. In the context of this internship, we analyse virtual assistants and techniques for recognising the sound produced to authenticate and authorise user commands. To pursue these objectives, we have explored Mycroft AI and extended its framework. Furthermore, was developed an algorithm for creating models for user recognition. In addition, to perform user recognition through Mycroft AI, a REST Server API was created to provide the necessary resources for that purpose. With this, the recognition is carried out through the communication of these two systems (Mycroft AI and API REST Server).For the creation of the speaker identification system, the main component of the API Server, the set of features used were the combination of MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Additionally, as preprocessing, a trimming technique was used. Finally, as modelling techniques, we use Neural Network (Multilayer Perceptron) and Linear Discriminant Analysis (LDA). The public datasets used to validate this approach are TIMIT, NOIZEUS, LibrisSpeech ARS. As a result, Multilayer Perceptron (MLP) was slightly superior to Linear Discriminant Analysis (LDA), being able to recognize a set of 462 different users.eng
dc.description.abstractCom o crescimento do número de dispositivos e aumento da sua capacidade computacional, a necessidade de inovar a interação com os diferentes dispositivos a aplicações surge. Comos atuais avanços tecnológicos no processamento da fala e no processamento natural da linguagem, tornou-se possível de interagir com os dispositivos da forma mais natural que os seres humanos têm para se comunicar: a voz. No contexto deste estágio, analisamos alguns assistentes virtuais assim como técnicas de reconhecimento dos sons produzidos para autenticar e autorizar os comandos do utilizador. Para atingir esses objetivos, explorados o Mycroft AI e estendemos a sua framework. Foi desenvolvido um algoritmo para a criação dos modelos de reconhecimento dos utilizadores. Adicionalmente, para realizar o reconhecimento dos utilizadores através do Mycroft AI, foi criado um servidor API REST que fornece os recursos necessários para esse propósito. Com isto, o reconhecimento é realizado através da comunicação desses dois sistemas (Mycroft AI e servidor REST API). Para a criação do Speaker Recognition System, a principal componente do servidor RESTAPI, o conjunto de features utilizadas foi a combinação das MFCC, Chroma, Spectral (centroid, contrast and rolloff), RMS and Zero Crossing Rate. Como preprocessamento foi utilizada uma técnica de trimming. Por fim, como técnicas de modelação, foram utilizadas as redes neuronais (Multilayer Perceptron) e Linear Discriminant Analysis (LDA). Os datasets públicos TIMIT, NOIZEUS e LibrisSpeech ARS. Como resultados finais, as redes neuronais (Multilayer Perceptron) saírem ligeiramente superior em comparação ao Linear Discriminant Analysis (LDA) e é capaz de reconhecer um conjunto de 462 diferentes de utilizadores.por
dc.description.sponsorshipOutro - Instituto do Emprego e Formação Profissional-
dc.language.isoeng-
dc.rightsembargoedAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/-
dc.subjectAssistente de Vozpor
dc.subjectAutênticaçãopor
dc.subjectAutorizaçãopor
dc.subjectAssistente de Reconhecimento de Vozpor
dc.subjectAprendizagem Computacionalpor
dc.subjectVoice Assistanteeng
dc.subjectAuthenticationeng
dc.subjectAuthorisationeng
dc.subjectSpeaker Recognitioneng
dc.subjectMachine Learningeng
dc.titleVoice recognition of users for virtual assistant in industrial environmentseng
dc.title.alternativeReconhecimento de utilizadores por voz para assistente virtual em ambientes industriaispor
dc.typemasterThesis-
degois.publication.locationAltranportugal, SA-
degois.publication.titleVoice recognition of users for virtual assistant in industrial environmentseng
dc.date.embargoEndDate2023-09-14-
dc.peerreviewedyes-
dc.date.embargo2023-09-14*
dc.identifier.tid203062027-
thesis.degree.disciplineInformática-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Engenharia Informática-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Engenharia Informática-
uc.degree.grantorID0500-
uc.justificaEmbargoA tese de dissertação tem referências a material interno da empresa ainda em desenvolvimento e que não pode ser acedido publicamente neste período.-
uc.contributor.authorMagalhães, André Filipe da Silva::0000-0001-7558-1709-
uc.degree.classification18-
uc.date.periodoEmbargo730-
uc.degree.presidentejuriFernandes, Fernando Pedro Lopes Boavida-
uc.degree.elementojuriCorreia, João Nuno Gonçalves Costa Cavaleiro-
uc.degree.elementojuriPaiva, Rui Pedro Pinto de Carvalho e-
uc.contributor.advisorCorreia, João Nuno Gonçalves Costa Cavaleiro::0000-0001-5562-1996-
uc.contributor.advisorCruz, Tiago José dos Santos Martins da::0000-0001-9278-6503-
item.openairetypemasterThesis-
item.fulltextCom Texto completo-
item.languageiso639-1en-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File Description SizeFormat
thesis_final.pdf1.76 MBAdobe PDFView/Open
Show simple item record

Page view(s)

41
checked on Jul 16, 2024

Download(s)

24
checked on Jul 16, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons