Volleyball Action and Activity Recognition

Ruivo, João Francisco Fernandes Pereira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/113056

Title:	Volleyball Action and Activity Recognition
Other Titles:	Reconhecimento de Ações e Atividade em Voleibol
Authors:	Ruivo, João Francisco Fernandes Pereira
Orientador:	Cruz, Luís Alberto da Silva Vicari, Matheus Boni
Keywords:	Group Activity Recognition; Human Action Recognition; Object Detection; Object Tracking; Keypoint Detection; Reconhecimento de Actividade em Grupo; Reconhecimento de Ações Humanas; Deteção de Objetos; Seguimento de Objetos; Deteção de Keypoints
Issue Date:	29-Sep-2023
Serial title, monograph or event:	Volleyball Action and Activity Recognition
Place of publication or event:	DEEC
Abstract:	Deep Learning (DL) has been used for sports video understanding, and the developed models for group activity recognition that can be used in volleyball scenarios are constantly improving with new proposals. With all the already available models, we select the ones that are accurate but also easy to deploy in a real scenario, and analyze and test them in the benchmark dataset Volleyball Dataset (VD), as well as in new data, with annotations obtained with DL in an unsupervised manner. These annotations are important to have a truly automatic method for video analysis, thus, we also study and test the best ways to detect the players and the ball in a volleyball scenario, track them over the time frame and detect their keypoints (or joints). These three previous tasks generate necessary data for the activity and action classification models. We then feed the detections to the classification models in order to classify unannotated videos, which is the goal of any application that uses machine learning for sports analysis and understanding. From all the tested models, the keypoint modality is the most successful with an accuracy of 95.00% in the VD, but with an accuracy of 63.33% while running inference on unsupervisedly annotated data. We observe that object detections can be challenging for the volleyball scenario, with player detection achieving an F1-Score of 75%. In conclusion, action and activity classification on unannotated videos can be performed, although not with the same accuracy that is observed and reported in benchmark conditions, where the players' bounding boxes are manually annotated. A Aprendizagem Profunda (DL) tem sido recorrentemente utilizada na análise de vídeos desportivos, e os modelos desenvolvidos para o reconhecimento de atividades em grupo que podem ser usados em cenários de voleibol estão constantemente a melhorar, com novas propostas. De todos os modelos já disponíveis, selecionamos aqueles que têm maior precisão, tendo também em conta a facilidade de implementação num cenário real, analisando-os e testando-os no dataset de referência Volleyball Dataset (VD), bem como em novos dados, com anotações obtidas através de DL de forma não supervisionada. Estas anotações são importantes para haver um método verdadeiramente automático para a análise de vídeos. Por isso, também estudamos e testamos as melhores formas de detetar os jogadores e a bola num cenário de voleibol, acompanhá-los ao longo do tempo (tracking) e detetar os seus keypoints (ou articulações). Estas três tarefas geram dados necessários para os modelos de classificação de atividades e ações. Em seguida, usamos as deteções obtidas nos modelos de classificação para classificar vídeos não anotados, que será o objetivo de qualquer aplicação que utilize métodos automáticos para análise e compreensão de situações em vídeo de desporto. De todos os modelos testados, a modalidade de keypoints é a mais bem-sucedida, com uma accuracy de 95,00% no VD, mas com uma accuracy de 63,33% quando aplicado em dados anotados de forma não supervisionada. Observamos que as deteções de objetos podem ser desafiantes para o cenário de voleibol, com a deteção de jogadores a atingir um F1-Score de 75%. Em conclusão, a classificação de ações e atividades em vídeos não anotados pode ser realizada, embora não com a mesma precisão observada e relatada em condições de referência, onde as bounding boxes dos jogadores são anotadas manualmente.
Description:	Dissertação de Mestrado em Engenharia Eletrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/113056
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado