MERGE AUDIO: AUDIO ANALYSIS AND FEATURE
ENGINEERING FOR MUSIC EMOTION RECOGNITION
MSC THESIS

Redinho, Hugo José Amado

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110628

Title:	MERGE AUDIO: AUDIO ANALYSIS AND FEATURE ENGINEERING FOR MUSIC EMOTION RECOGNITION MSC THESIS
Other Titles:	MERGE AUDIO: AUDIO ANALYSIS AND FEATURE ENGINEERING FOR MUSIC EMOTION RECOGNITION MSC THESIS
Authors:	Redinho, Hugo José Amado
Orientador:	Paiva, Rui Pedro Pinto de Carvalho e
Keywords:	Music emotion recognition; Music information retrieval; Audio analysis; Feature engineering; Music; Reconhecimento de Emoção em Música; Recuperação de Informação em Música; Análise de áudio; Criação de features; Música
Issue Date:	7-Sep-2023
Serial title, monograph or event:	MERGE AUDIO: AUDIO ANALYSIS AND FEATURE ENGINEERING FOR MUSIC EMOTION RECOGNITION MSC THESIS
Place of publication or event:	DEI
Abstract:	With the increase of widely available digital streaming options for music, the interest in the field of music emotion recognition has seen the same increasing effect. This field is still dominated by classical approaches that use feature engineering to classify the perceived emotion of a song. Furthermore, in recent years,there has been a surge of deep learning approaches that use neural networks to tackle this same problem. However, these approaches suffer from various problems such as the use of small, private, or low quality datasets, as well as the use of features not designed for emotion classification, amongst others.This work proposes a set of three new datasets, denominated Music Emotion Recognition - Next Generation (MERGE), with three components: audio, lyrics and bi-modal. These datasets are an extension of the previous 4QAED dataset(Panda, 2019) and achieved F1-scores of 71% using the same feature set as 4QAED, while having a much greater size.Furthermore, in this work, we propose a set of new emotionally relevant features to help tackle the problem aforementioned using techniques such as automatic music transcription with tools such as Magenta MT3 (2.6.2). From this framework, a set of features extracted from the outputted MIDI file are proposed.Finally, using the percussion stem extracted from Demucs (2.7.3), a novel set of features extracted from the percussion track is also proposed. A subset of this novel set of features achieved an overall F1-Score of 73.4% on the MERGE_Bimodal_Complete dataset (See Section 3.1.2 for further details on the datasets). Com o aumento das opções de streaming digital de música amplamente disponíveis,o interesse no domínio do reconhecimento de emoções musicais tem registado omesmo efeito crescente. Este domínio ainda é dominado por abordagens clássicasque utilizam a engenharia de características musicais para classificar a emoçãosentida de uma canção. Além disso, nos últimos anos, tem havido uma onda deabordagens de deep learning que utilizam redes neurais para resolver este mesmoproblema. No entanto, estas abordagens sofrem de vários problemas, como autilização de conjuntos de dados pequenos, privados ou de baixa qualidade,bem como a utilização de características não concebidas para a classificação deemoções, entre outros.Este trabalho propõe um conjunto de três novos conjuntos de dados, denominadosMusic Emotion Recognition - Next Generation (MERGE), com três componentes:áudio, letras e bimodal. Estes conjuntos de dados são uma extensão doanterior conjunto de dados 4QAED (Panda, 2019) alcançaram F1-Scores de 71%usando o mesmo conjunto de características do 4QAED, tendo no entanto umtamanho muito maior.Além disso, neste trabalho, propomos um conjunto de novas características emocionalmenterelevantes para ajudar a resolver o problema acima mencionado, utilizandotécnicas como a transcrição automática de música com ferramentas comoo Magenta MT3 (2.6.2). A partir desta framework, é proposto um conjunto de característicasextraídas do ficheiro MIDI produzido.Finalmente, utilizando a faixa de percussão extraída do Demucs (2.7.3), é tambémproposto um novo conjunto de características extraídas da faixa de percussão.Um subconjunto deste novo conjunto de características obteve uma pontuaçãoF1 global de 73,4% no conjunto de dados MERGE_Bimodal_Complete (ver Secção3.1.2 para mais detalhes sobre os conjuntos de dados).
Description:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/110628
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado