Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/82927
Title: Semi-Supervised Learning and Feature Ranking/Selection Techniques Applied to Soft Sensor Modeling
Other Titles: Técnicas de Aprendizagem Semi-Supervisionada e Classificação/Seleção de Features Aplicadas a Modelação de Sensores Virtuais
Authors: Ferreira, Vasco da Silva 
Orientador: Araújo, Rui Alexandre de Matos
Keywords: Sensores Virtuais; Inteligência Computacional; Aprendizagem Semi-Supervisionada; Classificação de Features; Seleção de Features; Soft Sensors; Computational Intelligence; Semi-Supervised Learning; Feature Ranking; Feature Selection
Issue Date: 27-Sep-2017
Serial title, monograph or event: Semi-Supervised Learning and Feature Ranking/Selection Techniques Applied to Soft Sensor Modeling
Place of publication or event: DEEC
Abstract: Sensores virtuais são modelos inferenciais baseados em software que usam variáveis de processo (disponíveis através de sensores), também conhecidas como variáveis “fáceis de medir”, para estimar o valor de variáveis de qualidade (variáveis “difíceis de medir”), que não podem ser facilmente medidas, ou o seu processo de medição tem um alto custo associado (p.e. apenas pode ser feito esporadicamente, ou com atrasos temporais elevados). Os processos industriais estão geralmente equipados com um elevado número de sensores, medindo uma grande variedade de quantidades diferentes (p.e. temperatura, fluxo, abertura de válvulas, etc), disponíveis em tempo real a uma frequência constante. No entanto, em algumas circunstâncias, o valor das variáveis de qualidade só pode ser obtido através de análises laboratoriais, levando a uma frequência de medição não-fixa e atrasos temporais substanciais. Estes problemas podem levar a degradação de qualidade do produto final. Os sensores virtuais podem, nestes casos, possibilitar um maior grau de controlabilidade do processo através da disponibilização de estimações precisas dessas variáveis de qualidade.A frequência de amostragem significativamente elevada das variáveis “fáceis de medir” quando comparada com a das variáveis “difíceis de medir” leva a que muitas amostras sejam descartadas na etapa de obtenção e filtragem de dados da modelação de sensores virtuais. Isto acontece já que a maior parte dos modelos usam abordagens de aprendizagem supervisionada, nas quais apenas as amostras com respetiva “label” (i.e. amostras para as quais as variáveis de processo têm correspondentes variáveis de qualidade) são usadas no processo de treino. Abordagens de aprendizagem semi-supervisionada, no entanto, usam tanto amostras com e sem “label” no processo de treino. Nesta dissertação, um método semi-supervisionado baseado em aprendizagem usando múltiplas “views”, “co-regularized least squares regression (coRLSR)”, é implementado, usando também dados sem “label” para melhorar o desempenho de previsão.Outra etapa muito importante na modelação de sensores virtuais é a seleção de “features”. O elevado número de sensores numa planta de produção leva a um elevado número de possíveis “features” de entrada, aumentando a complexidade global do problema de regressão. Na maior parte dos casos, muitas “features” apresentam correlações com outras, e o uso de todas para treino do modelo pode causar a deterioração do desempenho de previsão. De facto, a maior parte do trabalho de pesquisa científica neste tópico sugere que, em muitos casos, poucas “features” são precisas para estimação suficientemente precisa. As abordagens descritas na literatura para classificação e seleção de “features” partilham um grau relativamente elevado de complexidade, que pode tornar o seu uso proibitivo em cenários em que o desempenho temporal é importante. Um método geral para classificação de “features” baseado em análise de sensibilidade é proposto nesta dissertação, de modo a que, de forma eficiente, a relevância de cada “feature” seja calculada sem a necessidade de retreinar o modelo.Os testes foram efetuados num processo real de polimerização, de forma a avaliar ambas as técnicas de aprendizagem semi-supervisionada e de classificação/seleção de “features”. Os resultados mostraram que o modelo de regressão semi-supervisionada foi competitivo com os métodos de aprendizagem supervisionada mais populares de sensores virtuais quando nenhum procedimento de seleção de “features” foi efetuado. No entanto, usando o procedimento de seleção de “features”, o método de regressão semi-supervisionada implementado não ultrapassou as alternativas supervisionadas em desempenho de predição. Por outro lado, o procedimento de classificação e seleção de “features” proposto aumentou substancialmente o desempenho de predição de todos os modelos de regressão estudados. Para além disso, o conhecimento obtido pela classificação de “features” permite um subsequente aumento de desempenho de predição, quando usado explorando a natureza de múltiplas “views” do método coRLSR.
Soft sensors are software-based inferential models that use process variables (available from online sensors), also known as easy-to-measure variables, to predict quality variables (hard-to-measure variables), which cannot be easily measured, or its measurement has high associated cost (e.g. can be only done sporadically, or with high delays). Industrial processes are generally equipped with a large number of sensors measuring a large variety of different quantities (e.g. temperature, flow rate, valve openings, etc), available in real-time at a constant frequency. However, in some settings, quality variables are only available by laboratory analysis (for example), leading to non-fixed measurement frequency and substantial delays. These issues can lead to quality degradation of the final product. Soft sensors can, in such cases, enable a higher degree of controllability of the process by providing accurate online estimations of those quality variables.The significantly higher sampling rate of the easy-to-measure variables when comparing to that of the hard-to-measure variables leads to many samples being discarded at the data collection and filtering stage of soft sensor modeling. This happens since most models use supervised learning approaches, in which only the labeled samples (i.e. samples for which the process variables have corresponding quality values) are used in training. Semi-supervised learning approaches, however, use both labeled and unlabeled samples in training. In this dissertation, co-regularized least squares regression (coRLSR), a semi-supervised method based on multi-view learning, is implemented, using also unlabeled data to improve predictive performance.Another very important stage in soft sensor modeling is feature selection. The large number of online sensors in a processing plant equates to a large number of possible input features, raising the overall complexity of the regression problem. In most cases, many features have correlations with one another, and the use of the entire available feature set for model training can deteriorate predictive performance. In fact, most of the research performed on this topic suggests that, in many cases, only few features are needed for sufficiently accurate predictions. The approaches described in the literature for feature ranking and selection share a relatively high degree of complexity, which can be prohibitive in time-sensitive scenarios. A general method for feature ranking based on sensitivity analysis is proposed in this dissertation, in order to efficiently compute each feature's relevance without retraining the model.Testing was performed on a real-world polymerization batch process, in order to evaluate both techniques of semi-supervised learning and feature ranking/selection. Results showed that the semi-supervised regression model was competitive with the most popular soft sensor supervised model approaches when no feature selection procedure was performed. However, when performing feature selection, the implemented semi-supervised regression method did not surpass the supervised approaches in predictive performance. On the other hand, the proposed feature ranking and selection procedure substantially improved the predictive performance of all regression models considered. Furthermore, its capabilities were extended when using the feature ranking knowledge with the multi-view nature of coRLSR, enabling a subsequent improvement in predictive performance.
Description: Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/82927
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
tese2017_VascoFerreira_VersaoFinal.pdf1.28 MBAdobe PDFView/Open
Show full item record

Page view(s) 50

483
checked on Apr 16, 2024

Download(s) 50

438
checked on Apr 16, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons