Emotion-based Analysis and Classification of Audio Music

Panda, Renato Eduardo Silva

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/87618

DC Field	Value	Language
dc.contributor.advisor	Paiva, Rui Pedro	-
dc.contributor.author	Panda, Renato Eduardo Silva	-
dc.date.accessioned	2019-09-18T22:54:26Z	-
dc.date.available	2019-09-18T22:54:26Z	-
dc.date.issued	2019-05-08	-
dc.identifier.uri	https://hdl.handle.net/10316/87618	-
dc.description	Tese de Doutoramento em Ciências e Tecnologias da Informação, apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra	pt
dc.description.abstract	This research work addresses the problem of music emotion recognition using audio signals. Music emotion recognition research has been gaining ground over the last two decades. In it, the typical approach starts with a dataset, composed of music files and associated emotion ratings given by listeners. This data, typically audio signals, is first processed by computational algorithms in order to extract and summarize their characteristics, known as features (e.g., beats per minute, spectral metrics). Next, the feature set is fed to machine learning algorithms looking for patterns that connect them to the given emotional annotations. As a result, a computational model is created, which is able to infer the emotion of a new and unlabelled music file based on the previously found patterns. Although several studies have been published, two main issues remain open and are the current barrier to progress in field. First, a high-quality public and sizeable audio dataset is needed, which can be widely adopted as a standard and used by different works. Currently, the public available ones suffer from known issues such as low quality annotations or limited size. Also, we believe novel emotionally-relevant audio features are needed to overcome the plateau of the last years. Supporting this idea is the fact that the vast majority of previous works were focused on the computational classification component, typically using a similar set of audio features originally proposed to tackle other audio analysis problems (e.g., speech recognition). Our work focuses on these two problems. Proposing novel emotionally-relevant audio features requires knowledge from several fields. Thus, our work started with a review of music and emotion literature to understand how emotions can be described and classified, how music and music dimensions work and, as a final point, to merge both fields by reviewing the identified relations between musical dimensions and emotional responses. Next, we reviewed the existent audio features, relating them with one of the eight musical dimensions: melody, harmony, rhythm, dynamics, tone color, expressive techniques, musical texture and musical form. As a result, we observed that audio features are unbalanced across musical dimensions, with expressive techniques, musical texture and form said to be emotionally-relevant but lacking audio extractors. To address the abovementioned issues, we propose several audio features. These were built on previous work to estimate the main melody notes from the low-level audio signals. Next, various musically-related metrics were extracted, e.g., glissando presence, articulation information, changes in dynamics and others. To assess their relevance to emotion recognition, a dataset containing 900 audio clips, annotated in four classes (Russell’s quadrants) was built. Our experimental results show that the proposed features are emotionally-relevant and their inclusion in emotion recognition models leads to better results. Moreover, we also measured the influence of both existing and novel features, leading to a better understanding of how different musical dimensions influence specific emotion quad-rants. Such results give us insights about the open issues and help us define possible research paths to the near future.	pt
dc.description.abstract	Este trabalho aborda o tema do reconhecimento emocional em música utilizando sinais áudio polifónicos. A área do reconhecimento de emoções em música tornou-se um foco de estudo nas últimas duas décadas. Nesta área, a abordagem típica começa com um conjunto de dados e respectivas anotações emocionais geradas por ouvintes. Estes dados, sendo a forma mais comum os sinais áudio, são primeiro processados por algoritmos computacionais para extracção de informação sobre os mesmos (e.g., batidas por minuto ou métricas de energia). De seguida, o conjunto de características extraídas é analisado por algoritmos de aprendizagem computacional, identificando padrões que associam as mesmas às diferentes emoções associadas. O resultado final é um modelo que utiliza as regras aprendidas para identificar a emoção numa nova música ainda desconhecida. Embora vários investigadores tenham abordado o tema, consideramos que existem dois problemas principais que se mantêm em aberto e contribuem para a falta de progresso no campo. Primeiro, faltam conjuntos de dados de qualidade, tamanho considerável e livre acesso que sejam adoptados pela área como testes-padrão e assim facilitem a comparação de trabalhos. Para além disso, e não menos importante, são necessários novos algoritmos computacionais capazes de extrair do sinal áudio características musicais emocionalmente relevantes. Na base desta ideia, está o facto de a grande maioria dos trabalhos anteriores ser mais focada na componente de classificação computacional, limitando-se durante a extracção de características a utilizar algoritmos criados para outros problemas (e.g., reconhecimento de fala). Este trabalho tem como principal objectivo o de atacar estes problemas. A extracção de características emocionalmente relevantes a partir de sinais áudio requer um conhecimento sólido em diversas áreas. Assim, este trabalho começou com uma revisão da literatura nas áreas da música e da emoção. Estas serviram de base para perceber os diferentes paradigmas na classificação de emoções, as várias componentes e dimensões musicais e identificar as relações que são conhecidas entre dimensões musicais e respostas emocionais específicas. De seguida, foram analisados vários dos algoritmos computacionais existentes para extracção de características de áudio, associando cada um destes com uma das oito dimensões musicais possíveis: melodia, harmonia, ritmo, dinâmica, timbre (ou tom da cor), técnicas de expressividade, textura e forma. Como resultado, verificámos que dimensões como a textura e forma musical ou técnicas de expressividade são apontadas como relevantes emocionalmente mas poucos são os algoritmos que tentam capturar alguma desta informação. De forma a mitigar esta lacuna, foram propostos vários algoritmos para extrair características musicais. Estas começam por utilizar trabalho anterior, transformando o sinal áudio numa estimativa das notas que representam a melodia principal. Através destas, são extraídas diversas métricas, e.g., presença de glissando, informação sobre articulação, variações de dinâmica, entre outras. Para avaliar a influência destas no reconhecimento emocional, foi criado um conjunto de dados de 900 excertos musicais, anotadas em quatro classes (quadrantes) e devidamente balanceado. Os resultados experimentais demonstram que a adição das características propostas melhora a classificação de forma estatisticamente significativa. Para além disso, foi também medida a influência das várias características, levando a uma melhor compreensão de como as diferentes dimensões musicais influenciam estados emocionais específicos. Estas permitem traçar alguns caminhos para investigação futura, uma vez que o problema do reconhecimento emocional em música está longe de estar resolvido.	pt
dc.language.iso	eng	pt
dc.relation	info:eu-repo/grantAgreement/FCT/SFRH/SFRH/BD/91523/2012/PT/EMOTION-BASED ANALYSIS AND CLASSIFICATION OF AUDIO MUSIC	pt
dc.rights	openAccess	pt
dc.subject	audio music emotion recognition	pt
dc.subject	music information retrieval	pt
dc.subject	emotionally-relevant audio features	pt
dc.subject	musical texture	pt
dc.subject	expressive techniques	pt
dc.subject	bi-modal approaches	pt
dc.subject	music and emotion	pt
dc.subject	reconhecimento emocional em música áudio	pt
dc.subject	recuperação de informação musica	pt
dc.subject	características musicais emocionalmente relevantes	pt
dc.subject	textura musical	pt
dc.subject	técnicas expressivas	pt
dc.subject	abordagens bi-modais	pt
dc.subject	música e emoção	pt
dc.title	Emotion-based Analysis and Classification of Audio Music	pt
dc.type	doctoralThesis	pt
dc.peerreviewed	yes	pt
dc.date.embargo	2019-05-08	*
dc.identifier.tid	101448848	pt
dc.subject.fos	Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática	pt
thesis.degree.grantor	00500::Universidade de Coimbra	pt
thesis.degree.name	Doutoramento em Ciências e Tecnologias da Informação	pt
uc.rechabilitacaoestrangeira	no	pt
uc.date.periodoEmbargo	0	pt
item.openairetype	doctoralThesis	-
item.fulltext	Com Texto completo	-
item.languageiso639-1	en	-
item.grantfulltext	open	-
item.cerifentitytype	Publications	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
crisitem.project.grantno	info:eu-repo/grantAgreement/FCT/SFRH/SFRH/BD/91523/2012/PT/EMOTION-BASED ANALYSIS AND CLASSIFICATION OF AUDIO MUSIC	-
crisitem.advisor.researchunit	CISUC - Centre for Informatics and Systems of the University of Coimbra	-
crisitem.advisor.parentresearchunit	Faculty of Sciences and Technology	-
crisitem.advisor.orcid	0000-0003-3215-3960	-
crisitem.author.researchunit	CISUC - Centre for Informatics and Systems of the University of Coimbra	-
crisitem.author.parentresearchunit	Faculty of Sciences and Technology	-
crisitem.author.orcid	0000-0003-2539-5590	-
Appears in Collections:	FCTUC Eng.Informática - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
Emotion-based Analysis and Classification of Audio Music.pdf		8.99 MB	Adobe PDF	View/Open

Show simple item record

Page view(s) 50

863

checked on Jul 17, 2024

Download(s) 20

1,027

checked on Jul 17, 2024

Google Scholar^TM

Check

Files in This Item:

Page view(s) 50

Download(s) 20

Google ScholarTM

Google Scholar^TM