Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/102122
Title: Automatic Recognition of Baby Cry
Other Titles: Reconhecimento Automático de Choro de Bebé
Authors: Moura, Henrique de Seixas
Orientador: Teixeira, César Alexandre Domingues
Paiva, Rui Pedro Pinto de Carvalho e
Keywords: Choro de Bebé; Aprendizagem Computacional Tradicional; Análise Acústica; Extração de Features; Desenvolvimento de Aplicações Móveis; Baby Cry; Traditional Machine Learning; Acoustic Analysis; Feature Extraction; Mobile Application Development
Issue Date: 11-Feb-2022
Serial title, monograph or event: Automatic Recognition of Baby Cry
Place of publication or event: DEI-FCTUC
Abstract: Ao longo do tempo, descodificar o choro de bebé tem sido um desafio para os pais e, maisrecentemente, para investigadores da área de reconhecimento de padrões. Esta tese focase em fazer progressos no campo do reconhecimento de padrões, explorando a extraçãode features em amostras de áudio de choro de bebé, juntamente com técnicas de seleçãoe redução de features para avaliar que features são considerados mais úteis dentro deum conjunto, estudando o desempenho de abordagens tradicionais de machine learning etrabalhando na construção de uma base de dados de choro de bebé.Para atingir estes objetivos, foi realizada uma análise inicial para entender o estado daarte das abordagens de aprendizagem computacional utilizadas e o mercado atual de aplicações móveis, assim como estudar os features de áudio que tiveram maior impacto noprocesso de extração de features. Além disso, foi desenvolvida uma aplicação móvel emAndroid chamada "BabyCry", com a intenção de criar uma base de dados de choro debebé de tamanho considerável. A ideia era distribuí-la por pais interessados que a usariampara gravar e anotar o choro dos seus bebés e enviá-lo para uma base de dados na nuvem, chamada Firebase. No entanto, apesar de nossos árduos esforços de recrutamento,obtivemos apenas uma aquisição. Posta esta falta de dados, tivemos que utilizar bases dedados disponíveies publicamente, a base de dados Baby Chillanto, que contém 138 registosde choro de bebé, nas seguintes categorias: fome, dor, surdez e asfixia; das quais foramutilizadas apenas as amostras de fome e dor. Também foi utilizado outra base de dadosdenominada Donate-a-Cry, contendo choros de fome, dor, desconforto, cansaço e eructação, porém os resultados obtidos tiveram baixo impacto devido ao visível desequilíbriode classes. Das amostras dessas bases de dados, foram extraídas features de frequência,timbre e intensidade, que, após a aplicação de análise estatística, resultaram num totalde 882 features. Quanto à recolha de dados, o processo de distribuição não correu comoplaneado, devido à baixa adesão ao envio de amostras de áudio, o que levou a uma ligeiramudança de planos para este trabalho.Posteriormente, foram implementados vários classificadores, nomeadamente Support Vector Machines, K-Nearest Neighbours, Random Forest e Minimum Distance Classifier, eo seu desempenho foi comparado num conjunto de experiências, com o objectivo de inferir o classificador que poderia produzir os melhores resultados mais rapidamente. Nestetrabalho experimental foram aplicadas algumas técnicas de seleção de features, nomeadamente a remoção de features de baixa variância, a correlação de Pearson e o algoritmoMinimum Redundancy Maximum Relevance, assim como a técnica de redução de featuresdenominada Principal Component Analysis, com o objectivo de estudar seu impacto. Dasexperiências realizadas, o melhor resultado foi obtido pelo classificador SVM com um kernel RBF, alcançando uma exatidão de 78,08%±8,81% quando lhe foi fornecido 50 featuresextraídas e selecionadas da base de dados Baby Chillanto sem recorrer à PCA. Tambémse obtiveram bons resultados quando se usou o classificador K-NN quando lhe fornecido21 features extraídas, selecionadas e reduzidas pelo uso de PCA das amostras da base dedados Baby Chillanto, alcançando uma exatidão de 78,03%±11,03 % e o melhor f1-scorede choro de dor de 73,34%±14,41%.Estudos anteriores obtiveram melhores resultados em termos de exatidão usando estesclassificadores. Isso pode ser justificado pelo fato de os referidos estudos possuírem umabase de dados privada maior, uma vez que a maioria coletou as próprias amostras. Aoutilizar a base de dados Donate-a-Cry, também foi demonstrado que os estudos tambémpodem inadvertidamente induzir em erro ao mostrar apenas os resultados de exatidão, umavez que bases de dados desequilibradas, como foi o caso, tendem a fornecer bons resultados de exatidão, mas se se usarem outras métricas, como o f1-score, pode-se observar que ummodelo pode ser treinado para apenas prever corretamente a classe em maioria.
Throughout time, decoding baby cry has been a challenge for parents and, more recently,for researchers in the field of pattern recognition. This thesis focuses on making progresson the field of pattern recognition, by exploring feature extraction from audio samples ofbaby cry, along with feature selection and reduction techniques to assess which featuresare deemed most valuable to have in a feature set, studying the performance of traditionalmachine learning approaches and building a database of baby cry.To achieve these goals, an initial analysis was conducted to understand the state of theart regarding the machine learning approaches used and the current mobile applicationmarket, as well as studying the audio features that had a major impact in the featureextraction process. In addition, an Android mobile application named "BabyCry" wasdeveloped with the intent to create a sizeable annotated baby cry database. The idea wasto distribute it to interested parents who would use it to record and annotate the cry oftheir babies and send it to a cloud database, namely Firebase. However, despite our hardrecruitment efforts, we obtained only one acquisition. As such, we had to employ a publiclyavailable dataset, the Baby Chillanto database, which contains 138 recordings of baby cry,on the following categories: hunger, pain, deafness and asphyxia; from which only thesamples of hunger and pain were used. Another database named Donate-a-Cry was alsoused, containing cries of hunger, pain, discomfort, tiredness and eructation, however theresults obtained had a low impact due to the evident class imbalance. From the samplesof these databases, frequency, timbre and intensity features were extracted, which, afterapplying statistical analysis, resulted in a total of 882 features. As for the data collection,the distribution process did not go as planned due to a low adherence to the submissionof audio samples, which resorted in a slight shift in plans for this work.Afterwards, several classifiers were implemented, namely Support Vector Machines, KNearest Neighbours, Random Forest and Minimum Distance Classifier, and their performance was compared in a set of experiments, with the purpose of inferring the classifierthat could deliver the best results more swiftly. In this experimental work, some feature selection techniques were applied, namely the removal of low variance features, thePearson correlation and Minimum Redundancy Maximum Relevance algorithm, as well asthe feature reduction technique called Principal Component Analysis, with the purpose ofstudying their impact. From the experiments performed, the best result was obtained bythe SVM classifier with an RBF kernel, achieving a 78.08%±8.81% classification accuracywhen fed 50 features extracted and selected from the Baby Chillanto database withoutthe use of PCA. Similar good results were also obtained by the K-NN classifier when fed21 features extracted, selected and reduced by the use of PCA from the Baby Chillantodatabase, achieving a classification accuracy of 78.03%±11.03% and the highest f1-scoreof pain cry of 73.34%±14.41%.Previous studies have achieved better results in terms of accuracy using these classifiers.This can be justified by the fact that said studies had a larger private database, since theymostly conduct their own sample collection. When using the Donate-a-Cry database, iswas also shown that studies may also unknowingly mislead by only showing the accuracyresults, given that imbalanced datasets, as it was the case, tend to provide good accuracyresults, yet if other metrics, such as the f1-score, are used, it can be seen that a modelmight be trained to only predict the majority class correctly.
Description: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/102122
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Henrique Seixas Moura.pdf3.15 MBAdobe PDFView/Open
Show full item record

Page view(s)

83
checked on Apr 24, 2024

Download(s)

85
checked on Apr 24, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons