Sistema online de síntese de fala em português

Ferreira, Tiago Antonio Coroado Silva

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/40447

Title:	Sistema online de síntese de fala em português
Authors:	Ferreira, Tiago Antonio Coroado Silva
Orientador:	Perdigão, Fernando Manuel dos Santos
Keywords:	HTS; HMM; MGC; TTS; Síntese; Markov; HTS; HMM; MGC; TTS; Synthesis; Markov
Issue Date:	24-Sep-2014
Place of publication or event:	Coimbra
Abstract:	A área de síntese de fala tem vindo a conhecer grandes desenvolvimentos e a ter uma maior adoção nos sistemas que dependem de uma ligação entre uma máquina e um utilizador humano por forma a amenizar e facilitar esta interação. Estas ferramentas tornam os sistemas mais userfriendly e facilitam a adaptação do utilizador à aplicação. As principais preocupações no desenvolvimento destes sistemas prendem-se, sobretudo, no aumento da qualidade do áudio produzido e na diminuição de recursos utilizados, especialmente na redução da base de dados utilizada pelo sistema. As duas soluções mais usadas para este propósito são os sistemas de concatenação e os sistemas de modelos estatísticos. O objetivo desta dissertação é desenvolver um sistema de síntese de fala HTS (HMM-based Text to Speech Synthesis System) baseado em modelos de Markov nãoobserváveis (Hidden Markov Models ou “HMM”) que possa ser implementado numa página web, ou seja, um sistema online de síntese de fala. Está provado que este tipo de sistema consegue melhores resultados face aos sistemas concatenativos, não só ao nível da qualidade da fala produzida, mas também reduz o tamanho da base de dados usada na síntese. Esta solução consegue modelar com sucesso a fala humana, usando modelos estatísticos para descrever a variação da fala na frequência usando a representação espectral na escala de Mel (MGC), a excitação da fala (vozeada ou não vozeada) e a duração de cada segmento de fala. Para criar modelos de fala humana é necessário gravar locuções de fala que contenham pouca entoação e que cujos locutores tenham boa dicção para se obter uma base de dados de treino com boa qualidade. Esta é uma boa base para a síntese de uma fala natural e inteligível. Na fase do treino dos modelos são calculados os parâmetros que descrevem cada uma das frases de treino a partir da análise das locuções gravadas. Finalmente, usa-se o resultado do treino, uma “voz”, que consiste nos modelos de fala, para fazer síntese de fala. Speech synthesis systems have been improved and implemented in systems that rely on a connection between a machine and its user. They turn technological devices more user-friendly and facilitate the human-machine adapting process for the interaction. The main concerns about such systems are mostly related to the need of increasing audio quality and reducing the usage of hardware resources by minimizing the size of the database used by the system. The two most used solutions for this purpose are the concatenative and the statistic modeling approaches. The main goal of this dissertation is to develop a HTS speech synthesis system (Textto-Speech HMM-based Synthesis System) based on the hidden-Markov model (HMM). It is proven that this type of systems achieve better results than the concatenative ones not only on the quality of the synthesized speech, but mostly on the reduction of the database used in the synthesis procedure This solution can successfully model human speech using statistic models in order to describe speech frequency variation by using spectral representation in Mel scale (MGC), speech excitation (voiced or unvoiced) and the duration of each speech segment. To create statistic models of human speech it is necessary to record several speech utterances with neutral intonation from speakers with good diction in order to obtain a database with enough quality that leads to a natural and intelligible synthesized speech. In the training phase, the parameters that describe the utterances are calculated by analyzing the recorded utterances. Finally, the result of this training is a “voice” that basically comes up by using speech models and will be used to do speech synthesis.
Description:	Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra
URI:	https://hdl.handle.net/10316/40447
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado FCTUC Eng.Electrotécnica - Teses de Mestrado

Files in This Item:

File	Description	Size	Format
Sistema online de sintese de fala em portugues.pdf		1.28 MB	Adobe PDF	View/Open

Show full item record

Google Scholar^TM

Check

Files in This Item:

Google ScholarTM

Google Scholar^TM