Procedural Generation of Synthetic Forest Environments to  Train Machine Learning Algorithms

Nunes, Rui Jose Silva Oliveira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/97981

Title:	Procedural Generation of Synthetic Forest Environments to Train Machine Learning Algorithms
Other Titles:	Geração Procedimental de Ambientes Florestais Sintéticos para Treinar Algoritmos de Aprendizagem Máquina
Authors:	Nunes, Rui Jose Silva Oliveira
Orientador:	Peixoto, Paulo José Monteiro
Keywords:	Dados Sintéticos; Aprendizagem Máquina; Geração Procedimental; Ambientes Florestais; Perceção Robótica; Synthetic Data; Machine Learning; Procedural Generation; Forest Environments; Robotic Perception
Issue Date:	12-Nov-2021
metadata.degois.publication.title:	Procedural Generation of Synthetic Forest Environments to Train Machine Learning Algorithms
metadata.degois.publication.location:	DEEC
Abstract:	O campo de Machine Learning está a evoluir a um ritmo frenético e novas soluções e conceitos estão a ser desenvolvidos todos os dias. Estas descobertas estão principalmente a ser impulsionadas pelo Deep Learning. Os modelos de Deep Learning são inspirados no cérebro humano e apresentam uma estrutura em camadas de neurónios. Estas redes são capazes de aprender a partir de exemplos e os modelos apresentam ótimos resultados e uma capacidade de aprendizagem impressionante. No entanto, este desempenho tem um preço. Estas técnicas requerem grandes quantidades de dados para treinar os modelos. Esses dados precisam de ser adquiridos e classificados por humanos, o que é um processo trabalhoso, demorado e sujeito a erros. Em muitos casos, a falta de dados classificados é uma grande limitação para o desenvolvimento de modelos de Machine Learning. Sem dados bons e em quantidade suficiente, simplesmente não é possível obter bons resultados, o que tem sido o problema das aplicações direcionadas a florestas. As florestas são ambientes complexos e não estruturados, para os quais a recolha e classificação de dados é ainda mais difícil. Isto que leva a uma total falta de conjuntos de dados disponíveis publicamente, contrastando com outras aplicações, como a condução autónoma.Nesta tese, um sistema para capturar dados sintéticos de ambientes florestais gerados procedimentalmente é proposto. O sistema é capaz de criar e gerir uma floresta virtual, a partir de um conjunto de parâmetros definidos pelo utilizador. Para isso, vários subsistemas foram desenvolvidos. Um módulo que controla a geração do mundo faz a sua divisão em pedaços finitos. Um módulo para gerar terreno aproveita ruído de Perlin para criar terrenos com aparência real que, por sua vez, são povoados por rochas, árvores, arbustos e vegetação rasteira por meio dos algoritmos de colocação desenvolvidos. Por fim, caminhos são também desenhados no terreno, completando o ambiente com mais um elemento característico das florestas. Sensores virtuais foram modelados para capturar dados dos ambientes gerados. Um dispositivo virtual de Light Ranging and Detection (LIDAR) foi desenvolvido com três padrões de varredura diferentes e a capacidade de ignorar a transparência nos modelos de vegetação usados, criando nuvens de pontos precisas. Aproveitando as ferramentas da framework utilizada (Unity3D), uma câmara RGB foi implementada. Esta câmara fornece não só imagens RGB, mas também a sua segmentação semântica que pode ser usada como ground truth. Por último, uma câmara de profundidade virtual capaz de gerar mapas de profundidade densos e de alta resolução foi também implementada.Para automatizar o processo de recolha de dados, foi desenvolvido um subsistema que movimenta e opera todos os sensores virtuais mencionados. Com este recurso, os utilizadores do sistema podem definir os parâmetros iniciais para a geração do ambiente, configurar os sensores virtuais e ordenar o sistema para recolher do ambiente o número de frames desejado.Finalmente, para avaliar a qualidade dos dados gerados, alguns resultados preliminares são apresentados, juntamente com uma análise qualitativa. Um modelo de segmentação semântica foi treinado nos dados sintéticos gerados e testado com imagens do mundo real. Um modelo de completação de profundidade também foi treinado, utilizando as nuvens de pontos e mapas de profundidade gerados pelo sistema proposto. Os resultados obtidos são muito promissores e abrem portas para novos estudos sobre dados sintéticos para ambientes florestais. The Machine Learning field is evolving at a fast pace and new solutions and concepts are being developed every day. These breakthroughs are mostly being powered by Deep Learning. Deep Learning models are inspired in the human brain and feature a layered structure of neurons capable of learning from given examples. These models present great results and impressive learning capabilities. However, this performance comes at a price. These techniques require huge amounts of data to train the models. This data needs to be collected and labelled by humans, which is a laborious, time consuming and error-prone process. In many cases, the lack of labelled data is a bottleneck for Machine Learning development. Without good and enough data, it is simply not possible to achieve good results. This is the case for forests applications. Forests are complex and unstructured environments for which data collection and labelling is even harder, which leads to a total lack of publicly available datasets, contrasting with other applications such as autonomous driving. In this thesis, a system to capture synthetic data from procedurally generated forest environments is proposed. The system is capable of generating and managing a virtual forest from a set of user-defined parameters. To achieve this, several subsystems were developed. A chunk managing module controls the generation of the world. A module to generate terrain leverages Perlin noise to create real looking terrains that are in turn populated with rocks, trees, shrubbery and undergrowth by developed placing algorithms. Finally, trails are also created, providing the environment with this common feature of forests.Virtual sensors were modelled to capture data from the generated environments. A virtual Light Ranging and Detection (LIDAR) scanner was developed with three different scanning patterns and the ability to ignore the transparency in the used vegetation models, creating accurate point clouds. Leveraging the capabilities of the used framework (Unity3D), an RGB camera was implemented. This camera provides not only RGB images, but also their semantic segmentation that could be used as a ground-truth. Lastly, a virtual depth camera capable of generating dense and high-resolution depth maps was also implemented.To automate the data collection process a subsystem that moves and operates all of the mentioned virtual systems was developed. With this feature, system users can set the initial parameters for the environment generation, configure the virtual sensors and query the system to collect as many frames from the environment as needed.Finally, to assess the quality of the generated data preliminary results are presented alongside a qualitative analysis. A semantic segmentation model was trained on the generated synthetic data and tested with real-world images. A depth completion model was also trained, targeting the generated point clouds and depth maps. The obtained results are very promising and open the door for further studies on synthetic data for forest environments.
Description:	Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/97981
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Thesis_RuiNunes.pdf		71.93 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

95

checked on Oct 30, 2024

Download(s)

44

checked on Oct 30, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM