Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/28313
Title: Ensemble Learning Methodologies for Soft Sensor Development in Industrial Processes
Authors: Soares, Symone Gomes 
Orientador: Araújo, Rui
Keywords: Soft Sensors; Ensemble Learning
Issue Date: 11-Sep-2015
Citation: SOARES, Symone Gomes - Ensemble learning methodologies for soft sensor development in industrial processes. Coimbra : [s.n.], 2015. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/28313
Abstract: Increasing demands for on-line monitoring and control of industrial processes and their associated variables, and the limitations of the available measuring systems have led to the development of predictive models called Soft Sensors (SSs). SSs use computational intelligence methods to estimate difficult-to-measure variables based on some easy-to-measure variables in industrial applications. However, SS development has some difficulties. The performance of the SSs relies on the quality of the data used to extract knowledge during the identification procedure. Other problem is that industrial systems have many complex characteristics (e.g. nonlinearity and time-variance). Thus, bringing SSs to real-world industrial applications is a challenge. This thesis focuses on the development of computational learning methods applied to SSs, with particular emphasis on methodologies for improving the prediction accuracy and the system adaptation, in order to achieve adaptivity and stability in time-varying processes and reduce the maintenance costs. To deal with these issues, this thesis investigates the use of combinations of multiple learning models, a type of structure called ensemble system. These methodologies have demonstrated ability to improve the performance and stability of the systems. However, efficient mechanisms for balancing the diversity, adaptivity, and performance of the models should be investigated and proposed. For this purpose, four main research objectives and research directions are considered. The first objective is to develop methodologies for the automatic design of Neural Network (NN) ensembles in regression problems. Genetic Algorithm (GA) and Simulated Annealing (SA) methodologies are proposed and compared to select the best subset of models (from a set of models) to be aggregated to the ensemble, taking into account the key factors of ensemble systems (i.e. diversity, number of models, and combination strategy). First, a set of models with high degree of diversity is generated. That is, each model is trained with a different training data set by applying bootstrap, and the best NN architecture is selected by varying the number of hidden neurons, the activation function, and the weight initialization. Second, GA and SA are employed to select the best subset of models and the optimal combination. The second objective is to design an adaptive ensemble regression which is able to learn samples in the presence of several types of changes and simultaneously retain old information in scenarios where changes may recur. The key idea is to keep a moving data window that slides when a new sample is available. To handle recurring and non-recurring changes, the proposed ensemble uses a new assignment of models' weights that takes into account the models' errors on the past and current windows using a discounting factor that decreases or increases the contribution of old windows. New models are launched if the accuracy of the system is decreasing, and inaccurate models can be excluded over time. The third objective is to design an adaptive ensemble regression with fast adaptation capability for on-line prediction of variables in time-varying applications. The properties of the proposed ensemble are: on-line inclusion and removal of models to keep only the most accurate models with respect to the current state of the system; dynamic adaptation of the model's weights based on their on-line predictions on the most recent samples; and on-line adaptation of the models' parameters. The fourth objective is to design an on-line ensemble regression that selects dynamically the best subset models (from a set of models) to form the ensemble. The proposed method employs ordered aggregation to choose the ensemble size and the subset of models based on the minimization of the ensemble error on the newest sample. It is also proposed an adaptive NN using a variable forgetting factor. The performance and effectiveness of the proposed methodologies are validated and demonstrated using real-world industrial applications, including the estimation of the free lime in a cement kiln process, and other benchmarks for evaluating real-world SS applications. Additionally, experimental results using artificial data sets with several types of changes are presented to demonstrate the effectiveness and accuracy of the proposed methodologies that deal with time-varying environments.
A procura crescente por monitorização e controlo on-line de processos industriais e suas variáveis associadas, e dificuldades relacionadas com os sistemas de medição disponíveis têm levado ao desenvolvimento de modelos de predição chamados Sensores Virtuais (SVs). SVs utilizam métodos de inteligência computacional para estimar variáveis difíceis de medir tendo por base a utilização de variáveis fáceis de medir em aplicações industriais. Contudo, o desenvolvimento de SVs envolve algumas di- ficuldades. O desempenho do SV depende da qualidade dos dados utilizados para extrair conhecimento durante o procedimento de identificação. Outro problema é que os sistemas industriais possuem várias características complexas (por exemplo, não-linearidade e variância no tempo). Assim, trazer SVs para aplicações industriais reais é um desafio. Esta tese foca no desenvolvimento de métodos de aprendizagem computacional aplicados aos SVs, com ênfase específica em metodologias para melhorar a precisão da predição e a adaptação do sistema, de modo a obter adaptabilidade e estabilidade em processos variantes no tempo e reduzir os custos de manutenção. Para lidar com estas questões, esta tese investiga o uso da combinação de múltiplos modelos de aprendizagem, um tipo de estrutura designada por sistemas ensembles. Este tipo de metodologia tem demonstrado capacidade de melhorar o desempenho e a estabilidade dos sistemas. Contudo, mecanismos eficientes para balancear a diversidade, adaptabilidade e desempenho dos modelos devem ser investigados e propostos. Assim, quatro principais objetivos de investigação e direções de investigação são considerados. O primeiro objetivo é desenvolver metodologias para a construção automática de sistemas ensemble de Redes Neuronais (RNs) em problemas de regressão. Metodologias baseadas em Algoritmos Genéticos (AG) e Simulated Annealing (SA) são propostos e comparados para selecionar o melhor subconjunto de modelos (a partir de um conjunto de modelos) para constituir o ensemble, tendo em conta os fatores principais de sistemas ensembles (ou seja, diversidade, número de modelos e estratégia de combinação). Em primeiro lugar, um conjunto de modelos com elevada diversidade é produzido. Isto é, cada modelo é treinado com diferentes dados de treino utilizando bootstrap, e a melhor arquitetura de RN é selecionada variando o número de neurónios na camada oculta, a função de ativação e a inicialização de pesos sinápticos. Em seguida, AG e SA são utilizados para selecionar o melhor subconjunto de modelos e a melhor combinação. O segundo objetivo é desenvolver um novo sistema ensemble adaptativo para regressão que seja capaz de aprender amostras na presença de vários tipos de mudanças e simultaneamente manter informações antigas em cenários em que mudanças podem reaparecer. A ideia principal é manter uma janela deslizante de dados que se move quando uma nova amostra fica disponível. Para tratar mudanças recorrentes e não-recorrentes, o sistema ensemble proposto utiliza uma nova atribuição de pesos de combinação de modelos que considera os erros dos modelos nas janelas antigas e recentes, utilizando um fator de desconto que diminui ou aumenta a contribuição de janelas antigas. Novos modelos são incluídos se a precisão do sistema estiver a diminuir, e modelos com baixa precisão podem ser removidos ao longo tempo. O terceiro objetivo é desenvolver um novo sistema ensemble adaptativo para regressão com capacidade de adaptação rápida para a predição on-line de variáveis em aplicações variantes no tempo. As propriedades do sistema ensemble proposto são: inclusão e remoção on-line de modelos para manter apenas os modelos mais precisos em relação ao estado atual do sistema; adaptação dinâmica dos pesos de combinação dos modelos baseada nas predições on-line das amostras mais recentes; e adaptação on-line dos parâmetros dos modelos. O quarto objetivo é desenvolver um novo sistema ensemble adaptativo para regressão que selecione dinamicamente o melhor subconjunto de modelos (a partir de um conjunto de modelos) para constituir o ensemble. O método proposto utiliza agregação ordenada para escolher o tamanho do ensemble e o melhor subconjunto de modelos baseados na minimização do erro do ensemble na amostra mais recente. Também é proposta uma RN adaptativa utilizando fator de esquecimento variável. A performance e eficácia das metodologias propostas são validadas e demonstradas utilizando aplicações industriais reais, incluindo a estimação da cal livre num processo de forno de cimenteira, e outros conjuntos de dados importantes para avaliar aplicações reais de SVs. Além disso, resultados experimentais utilizando conjuntos de dados artificiais com vários tipos de mudanças são apresentados para demonstrar a eficácia e precisão das metodologias propostas que lidam com ambientes variantes no tempo.
Description: Tese de doutoramento em Engenharia Electrotécnica e de Computadores, no ramo de especialização de Automação e Robótica, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
URI: https://hdl.handle.net/10316/28313
Rights: embargoedAccess
Appears in Collections:FCTUC Eng.Electrotécnica - Teses de Doutoramento

Files in This Item:
Show full item record

Page view(s) 50

524
checked on Apr 16, 2024

Download(s) 20

1,314
checked on Apr 16, 2024

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.