Learning Under Distribution Mismatch  Applied in Biosignal Processing

Khalighi, Sirvan

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/31266

Title:	Learning Under Distribution Mismatch Applied in Biosignal Processing
Authors:	Khalighi, Sirvan
Orientador:	Nunes, Urbano Ribeiro, Bernardete
Keywords:	Domain Adaptation; Transfer learning
Issue Date:	11-Nov-2016
Citation:	KHALIGHI, Sirvan - Learning Under Distribution Mismatch Applied in Biosignal Processing. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/31266
Project:	info:eu-repo/grantAgreement/FCT/5876-PPCDTI/126287/PT info:eu-repo/grantAgreement/FCT/5876/147323/PT
Abstract:	Bioelectrical signals, which records brain activity, are among the complex dynamic signals due to the strong non-stationarity effects of brain and subject dependency. In biosignal-based classification, training samples and unlabeled test samples are gathered in different recording sessions or from different subjects, yielding two common problems: 1) changes in the probability distributions of training and test instances, which caused by the non-stationary of brain signals 2) the lack of sufficient labeled training data for each test subjects. Sleep staging using biosignals is an essential part of the diagnostic process in the assessment of sleep disorders. Several studies have reported the development of automatic sleep stage classification (ASSC) methods using the polysomnographic (PSG) records. The current methods typically assume that, the labeled training data comes from the same probability distribution as the test data. The ASSC is a challenging problem, due to the noisy signals, the subjects’ variability, the experts’ labeling differences, and the signals complexity, mainly in cases of sleep disorders. Therefore, due to these challenges, the standard learning methods are no longer consistent and yield a drop in general performance. In this thesis, aiming to improve the applicability of automatic sleep staging some efficient methods were proposed as follows. First, an efficient subject-independent method is proposed with application in sleep–wake detection and in multiclass sleep staging (awake, non-rapid eye movement (NREM) sleep and rapid eye movement (REM) sleep). To find the best combination of PSG signals for automatic sleep staging, six electroencephalographic (EEG), two electrooculographic (EOG), and one electromyographic (EMG) channels were analyzed. An extensive set of feature extraction techniques were applied, covering temporal, frequency and time–frequency domains. The extracted feature set was transformed and normalized to reduce the effect of extreme values of features. The most discriminative features were selected through a two-step method composed by a manual selection step based on features’ histogram analysis followed by an automatic feature selector. Second, to overcome the limitations of inter-subject variability, domain adaptation methods were exploited. In particular, to alleviate the significant mismatch between source and target domains, importance weighting import vector machine (IWIVM), which is an adaptive classifier, was proposed. This adaptive probabilistic classification method, which is sparse and computationally efficient, can be used for unsupervised domain adaptation. Even though the sparseness, the proposed method outperforms the state-of-the-art in both unsupervised and semisupervised domain adaptation scenarios. We also introduce a reliable importance weighted cross validation (RIWCV), which is an improvement of importance weighted cross validation (IWCV), for parameter and model selection. The RIWCV avoid falling down in local minimum, by selecting a more reliable combination of the parameters instead of the best parameters. Third, to facilitate the performance comparison of the new methods for sleep patterns analysis, we introduced an open-access comprehensive sleep dataset, called ISRUC-Sleep. The data were obtained from human adults, including healthy subjects, subjects with sleep disorders, and subjects under the effect of sleep medication. Each recording was randomly selected between PSG recordings that were acquired by the Sleep Medicine Centre of the Hospital of Coimbra University (CHUC). The dataset comprises three groups of data: 1) data concerning 100 subjects, with one recording session per subject; 2) data gathered from 8 subjects; two recording sessions were performed per subject, and 3) data collected from one recording session related to 10 healthy subjects. The Polysomnography (PSG) recordings, associated with each subject, were visually scored by two human experts. This dataset was created aiming to complement existing datasets by providing easy-to-apply data collection with some characteristics not covered yet. ISRUC-Sleep can be useful for analysis of new contributions: (i) in biomedical signal processing; (ii) in development of ASSC methods; and (iii) on sleep physiology. In addition, due to the similarity of the challenges and the importance of biometric-based recognition, we have also studied the same challenges in the area of iris recognition. The conventional iris recognition methods do not perform well for the datasets where the eye image may contain non-ideal data such as specular reflection, off-angle view, eyelid, eyelashes and other artifacts. We proposed a reliable iris recognition method using a new scale-, shift- and rotation- invariant feature-extraction method in time-frequency and spatial domains. Indeed, a 2-level nonsubsampled contourlet transform (NSCT) was applied on the normalized iris images and a gray level co-occurrence matrix (GLCM) with 3 different orientations was computed on both spatial image and NSCT frequency subbands. Moreover, the effect of the occluded parts was reduced by performing an iris localization algorithm followed by a four regions of interest (ROI) selection. The proposed iris identification method was tested on the public iris datasets CASIA Ver.1 and CASIA Ver.4-lamp showing a state-of-the-art performance. Os sinais eléctricos cerebrais são sinais dinâmicos e complexos devido à sua não-estacionariedade e à sua variabilidade inter-sujeito. A classificação automática baseada nestes sinais biológicos inclui amostras para treino e amostras para teste que podem ser adquiridas em sessões diferentes ou de participantes diferentes, levando a que ocorram com frequência dois tipos de problemas: 1)diferenças entre as distribuições de probabilidade das amostras de treino e teste causadas pela não-estacionaridade dos sinais cerebrais; 2)falta de amostras de treino identificadas para cada sujeito de teste. O estadiamento do sono tem como base as características de alguns sinais biológicos e é essencial no diagnóstico de patologias do sono. Encontram-se descritos na literatura vários estudos que visam a automatização deste processo usando dados de polissonografia (PSG). Os métodos actuais assumem que a distribuição de probabilidade dos dados de treino e dos dados de teste é semelhante. Para além disso, a classificação automática dos estadios do sono enfrenta também dificuldades relacionadas com o ruído dos sinais, com a variabilidade dos sinais entre sujeitos, com as diferenças na classificação feita pelos especialistas e com a complexidade dos sinais, sobretudo em dados adquiridos em pacientes com patologias de sono. Assim, devido a este vasto leque de desafios, os métodos tradicionais de aprendizagem automática apresentam várias limitações que precisam de ser colmatadas para que o seu desempenho global na classificação dos estadios do sono seja melhorado. Esta tese apresenta um método eficaz para a classificação automática das diferentes etapas do sono que visa aumentar a aplicabilidade deste tipo de algoritmos. Primeiro, é proposto um método de classificação independente das características individuais de cada sujeito com aplicação na detecção do estar acordado versus estar a dormir e com aplicação na classificação dos diversos estadios do sono (acordado, sono não-REM (NREM) e sono REM). Foram analisados seis canais electroencefalográficos (EEG), dois canais electrooculográficos (EOG) e um canal electromiográfico (EMG) para estudar a combinação de sinais PSG que melhores resultados permite na classificação automática do sono. Para tal, aplicou-se um leque extensivo de técnicas de extracção de características nos domínios de tempo, frequência e tempo-frequência. O grupo de características extraídas foi transformado e normalizado para que efeito dos valores extremos fosse atenuado. As características mais discriminativas foram depois seleccionadas através de dois passos: o primeiro consistiu numa selecção manual baseada no histograma das características extraídas e o segundo consistiu num selector automático. Em segundo, foram explorados métodos adaptativos para superar as limitações devido à variabilidade do sinal entre sujeitos. Em particular, foi proposto um classificador adaptativo, o importance weighting import vector machine (IWIVM), para atenuar as diferenças entre os domínios da fonte e do alvo. Este método de classificação com modelo probabilístico adaptativo, esparso e computacionalmente eficiente, pode ser usado de forma não-supervisionada. O método proposto supera o estado da arte quer seja usado de forma supervisionada ou de forma não-supervisionada. Foi também apresentada uma versão melhorada do método de validação cruzada com importância ponderada, o reliable importance weighted cross validation (RIWCV), para a selecção de parâmetros e modelos. Este método evita os mínimos locais seleccionando a combinação mais fiável de parâmetros em vez de seleccionar apenas os melhores parâmetros.\\ Em terceiro, para facilitar a comparação entre o desempenho dos métodos de análise automática dos padrões do sono, foi reunido e disponibilizado um conjunto de dados PSG ao qual se chamou ISRUC-Sleep Dataset. Foram incluídos dados de adultos saudáveis ou com patologias de sono, que podiam estar ou não sob efeito de medicação. Cada registo PSG incluído foi aleatoriamente seleccionado entre os dados adquiridos no Centro de Medicina do Sono do Centro Hospitalar da Universidade de Coimbra (CHUC). Os dados foram organizados em três grupos: 1) dados de 100 sujeitos com um registo PSG cada; 2) dados de 8 sujeitos com dois registos PSG cada, adquiridos em sessões diferentes; 3) dados de 10 sujeitos saudáveis com um registo PSG cada. Os estadios de sono registados em cada PSG incluído foram classificados por duas vezes, cada uma delas a partir da apreciação visual de um especialista diferente. Este conjunto de dados foi recolhido com o objectivo de complementar outros já existentes, incluindo para isso informações que até agora não eram disponibilizadas. Espera-se que o ISRUC-Sleep Dataset possa trazer novas contribuições no processamento de sinais biológicos (i), no desenvolvimento de novos métodos de classificação automática do sono (i) e nos estudos da fisiologia do sono. Para além disso, tendo em conta as similaridades de desafios/dificuldades no reconhecimento automático da iris e a importância que este pode ter no reconhecimento biométrico, foram também exploradas formas de melhorar os métodos de classificação nesta área. Os métodos convencionais apresentam várias limitações quando os dados disponibilizados não estão nas condições ideais e contêm alguns artefactos como reflexão especular, pálpebras ou cílios, por exemplo. Assim, para um reconhecimento automático e eficiente da iris, é proposto um novo método que extrai características no domínio do tempo-frequência e no domínio espacial com escala, rotação e deslocamento invariáveis. Foi aplicada uma transformada de Contourlet sem subamostragem de dois níveis nas imagens normalizadas da iris e estimada uma matriz de co-ocorrência do nível de cinzento com três direcções diferentes para as bandas de frequências resultantes da transformada e para as imagens espaciais. Para além disso, o efeito das partes oclusas foi minimizado através da aplicação de um algoritmo de localização da iris seguido da selecção de quatro regiões de interesse. O método proposto para a identificação da iris foi testado usando os conjuntos de dados CASIA Ver.1 e CASIA Ver.4-lamp publicamente disponíveis, demonstrando bom desempenho.
Description:	Tese de Doutoramento em Engenharia Electrotécnica e Computadores, na especialidade de Automação e Robótica, apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra
URI:	https://hdl.handle.net/10316/31266
Rights:	embargoedAccess
Appears in Collections:	FCTUC Eng.Electrotécnica - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
Learning Under Distribution Mismatch Applied in Biosignal Processing.pdf		5.96 MB	Adobe PDF	View/Open

Show full item record

Page view(s) 50

575

checked on Apr 23, 2024

Download(s) 50

483

checked on Apr 23, 2024

Google Scholar^TM

Check

Files in This Item:

Page view(s) 50

Download(s) 50

Google ScholarTM

Google Scholar^TM