Please use this identifier to cite or link to this item: http://hdl.handle.net/10316/18374
Title: Classes Fonéticas Alargadas no Reconhecimento Automático de Fones
Authors: Lopes, Carla Alexandra Calado 
Orientador: Perdigão, Fernando Manuel dos Santos
Keywords: Reconhecimento automático da fala
Issue Date: 15-Feb-2012
Citation: LOPES, Carla Alexandra Calado - Classes fonéticas alargadas no reconhecimento automático de fones. Coimbra : [s. n.], 2012
Abstract: Esta tese aborda o problema do reconhecimento automático de fones, a partir de um sinal de fala, usando o conceito de classes fonéticas alargadas. A definição automática de classes fonéticas alargadas com base na confusão entre fones é um assunto estudado neste trabalho. Contrariamente ao que é habitualmente feito, em que a definição de grupos de fones semelhantes é estabelecida por um especialista em fonética (recorrendo a conhecimentos de produção articulatória, de regras de fonologia ou de perceção auditiva), neste trabalho propõe-se um método de agrupamento de fones baseado nos resultados de um reconhecedor automático de fones. A informação de confusões entre fones é usada para definir uma métrica da distância entre eles e com ela estabelecer grupos de fones com alta probabilidade de confusão mútua. Neste trabalho apresenta-se também um estudo comparativo envolvendo vários sistemas de deteção de classes fonéticas alargadas (HMM e sistemas híbridos SVM/HMM, SVM/NMD e ANN/HMM), que permitiu tirar conclusões sobre a eficácia das várias arquiteturas nesta tarefa. De forma a otimizar o desempenho do modelo híbrido entre redes neuronais artificiais (ANN) e modelos de Markov não observáveis (HMM), foi desenvolvido um método de treino global deste sistema. Face à inexistência de um método de avaliação especificamente adequado à deteção de eventos, é proposto neste trabalho um novo método de avaliação com alinhamento temporal (AAT), o qual toma em consideração não só a sequência de etiquetas, mas também as respetivas marcas temporais. No âmbito desta tese é ainda implementado um sistema global que integra reconhecimento de classes fonéticas alargadas e de fones, melhorando as taxas de acerto finais ao nível do fone. A integração consta da atribuição de um valor de confiança (através de um peso) à informação de classes fonéticas alargadas. O conjunto de pesos ótimo é encontrado por via de um processo iterativo desenvolvido com base no paradigma do treino discriminativo e que maximiza a taxa de precisão da sequência de fones no sistema de reconhecimento. As experiências realizadas com a base de dados TIMIT confirmam que um sistema de reconhecimento de fones beneficia de representações intermédias entre o sinal de fala e os fones.
This thesis addresses the problem of automatic phone recognition using the concept of broad phonetic classes. A key issue addressed is the automatic definition of broad phonetic classes based on confusions among phones. Broad phonetic classes are usually defined by an expert in phonetics using articulatory information, rules of phonology or auditory perception. This work proposes a phone clustering method based on the output of a phone recognition system. Phone confusions are used to define a metric for phone distance that is used to establish clusters of phones with a high probability of mutual confusion. This thesis also presents a comparative study involving several systems for the detection of broad phonetic classes (HMM and the hybrid systems SVM/HMM, SVM/NMD and ANN/HMM), making it possible to rank the performance of each system in this task. In order to optimize the hybrid system based on artificial neural network (ANN) and hidden Markov models (HMM), a global discriminative training method is proposed for this system. Because there is no well-established measure for evaluating event detection, a new evaluation method with time alignment is proposed in which both labels and their time boundaries are important. A hierarchical classification structure is also implemented, integrating the classification of broad phonetic classes and phones, to improve phone recognition. This is done by weighting the broad phonetic classes’ predictions. Optimal weights are obtained by an iterative discriminative training method. Experiments show improvements in phone recognition on the TIMIT database compared with a baseline system when intermediate representations between the speech signal and phones are used.
Description: Tese de doutoramento em Engenharia Eletrotécnica, na especialidade de Telecomunicações e Eletrónica, apresentada à Faculdade de Ciências eTecnologia da Universidade de Coimbra
URI: http://hdl.handle.net/10316/18374
Rights: openAccess
Appears in Collections:FCTUC Eng.Electrotécnica - Teses de Doutoramento

Files in This Item:
File Description SizeFormat
Carla_Lopes_PhDthesis.pdf3.13 MBAdobe PDFView/Open
Show full item record

Page view(s)

233
checked on May 20, 2020

Download(s)

73
checked on May 20, 2020

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.