Segment-Based Temporal Information Retrieval

Craveiro, Olga Marina Freitas

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/29634

Title:	Segment-Based Temporal Information Retrieval
Authors:	Craveiro, Olga Marina Freitas
Orientador:	Macedo, Joaquim Madeira, Henrique
Keywords:	Recuperação de Informação Temporal; Extração de Informação; Segmentação de Textos; Temporal Information Retrieval; Information Extraction; Text Segmentation
Issue Date:	6-Apr-2016
Citation:	CRAVEIRO, Olga Marina Freitas - Segment-based temporal information retrieval. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/29634
Abstract:	A Web é, na verdade, uma fonte de informação fundamental utilizada no nosso dia-a-dia. Os motores de busca são essenciais para aceder de forma eficiente à informação disponível na Web. Assim, nos últimos anos tem sido realizada muita investigação, quer no meio académico quer no meio empresarial, para o melhoramento da eficiência e da eficácia dos modelos de Recuperação de Informação na Web. A informação temporal tem um papel importante na compreensão de textos, permitindo a identificação de relações entre entidades, factos ou eventos descritos pelos documentos. Para além disso, a dimensão temporal é também um elemento importante no contexto das necessidades de informação dos utilizadores e, se for utilizada de forma eficaz, pode melhorar o desempenho dos sistemas de Recuperação de Informação. Na verdade, a informação temporal pode ser uma peça chave na maioria das aplicações de sistemas de informação e, consequentemente nas aplicações Web, uma vez que a informação temporal pode ser encontrada em todos os documentos, quer nos metadados, tais como as datas de criação, atualização ou publicação dos documentos, quer sob a forma de referências temporais existentes no conteúdo dos documentos, de forma explícita ou implícita. O reconhecimento de tal informação e a sua colocação num formato reconhecido pelos sistemas é o ponto de partida para que estes sistemas possam utilizá-la no melhoramento de funcionalidades já existentes, ou até mesmo disponibilizando outras funcionalidades. Por isso, a extração de informação temporal dos documentos de texto tem-se tornado cada vez mais importante em muitas aplicações, como por exemplo, processamento de linguagem natural, Recuperação de Informação, sistemas de pergunta resposta, etc. Este trabalho de investigação começou por centrar-se na melhoria da qualidade dos resultados de sistemas de Recuperação de Informação que processam texto em língua Portuguesa, através da incorporação de informação temporal, considerando não só a marca temporal dos documentos, como também as referências temporais extraídas do conteúdo dos documentos. No entanto, o trabalho com a língua Portuguesa foi um dos maiores desafios encontrados devido, principalmente, à falta de recursos, nomeadamente corpora para a realização de testes experimentais e software para o seu processamento. Assim, fomos obrigados a criar os recursos (ferramentas e corpora) que foram sendo necessários ao longo do trabalho. Por este motivo, a investigação não ficou somente focada na Recuperação de Informação, estendendo-se também o desenvolvimento das ferramentas necessárias ao processamento de textos em língua Portuguesa. Nesta tese apresentamos um método original que permite o reconhecimento de expressões temporais em textos escritos em Português, recorrendo a um algoritmo simples e de fácil processamento. O método cria padrões temporais classificados semanticamente utilizando expressões regulares. A sua criação é feita recorrendo à co-ocorrências de palavras obtidas a partir de vários corpora de treino e de um conjunto predefinido de palavras-chave. Palavras essas que são extraídas das referências temporais existentes na língua utilizada, que neste caso é o Português. Por forma a chegarmos a uma representação temporal dos documentos que tem de ser compreendida pelos sistemas, depois do reconhecimento das expressões temporais é necessário realizar a normalização dos valores temporais, sempre que isso seja possível. É proposta uma abordagem para a resolução das expressões temporais que nos testes experimentais realizados numa coleção com documentos em Português atingiu resultados muito promissores. A nossa proposta para o modelo de Recuperação de Informação com dimensão temporal aproveita as descontinuidades temporais do texto para estabelecer uma relação entre as referências temporais, no formato de datas devidamente normalizadas, e os termos do documento. Visto que, as palavras descrevem frequentemente factos e eventos, esta relação permite obter um maior conhecimento dos textos e também uma extração mais eficiente da informação temporal implícita ou explícita. Os índices podem ser enriquecidos com a informação temporal através da segmentação de texto baseada nas descontinuidades temporais, e assim, melhorar a eficácia dos sistemas de Recuperação de Informação. Este trabalho representa um progresso no processamento da língua Portuguesa onde a falta de recursos é notória. As ferramentas de processamento da língua Portuguesa apresentadas foram construídas com o objetivo de serem usadas pelos sistemas Recuperação de Informação com dimensão temporal, embora possam ser aplicadas em outros cenários. The Web is actually the key information source for our daily lives. Search engines are essential to use efficiently the information available at the Web. Therefore, there is an intensive academic and industrial research effort to improve the efficiency and effectiveness of underlying Web information retrieval models. Temporal information plays an important role for text understanding, allowing the identification of relations between entities, facts or events described by documents. Besides that, the time dimension is also an important element in the context of the user’s information need, and if used carefully it can improve the effectiveness of search applications. Indeed, temporal information can be a key piece on most information system applications and, consequently, in Web based applications, since temporal information can be found in every document, either with the metadata, such as the creation or publication date, or in the document content in the form of temporal references, such as dates and time. Recognizing temporal information and putting such information in a machine-readable format is the starting point for these systems to take advantage of it, improving their functionalities and adding new features. So, the extraction of temporal information from text documents is becoming increasingly important in many applications, such as natural language processing, information retrieval, question answering, etc. Initially, this research was concerned with improving the quality of the results, incorporating temporal information in information retrieval systems using Portuguese texts; such information is not reduced to document timestamps, including also the time extracted from the content itself. However, working with the Portuguese language was one of the greatest challenges faced due to the lack of resources, namely corpora and software, which led us to create the instruments needed for the research throughout the course of the work. For this reason, the research was not only focused on document retrieval, but also covers the development of tools to process Portuguese texts. In this thesis, we propose an original method for easy recognition of temporal expressions in Portuguese texts. The method creates semantically classified temporal patterns, based on regular expressions, by using word co-occurrences obtained from corpora and a pre-defined seed keywords set, which were derived from the temporal references of the used language. In order to have a temporal machine-readable representation of documents, after the recognition of temporal expressions it is required to capture the normalized time values, when possible. We propose an approach for the resolution of temporal expressions, achieving promising results in a Portuguese collection. Our proposal for the time-aware model takes advantage of temporal discontinuities in text to establish a relationship between time and document terms. Since words often describe facts and events, this relationship allows a better understanding of the texts and provides a more effective extraction of implicit or explicit temporal information. By using the segmentation of texts based on temporal discontinuities, the indexes can be enriched with temporal information, improving the effectiveness of information retrieval systems, for example. This work represents a step forward for Portuguese language processing, with a notorious lack of tools. Even with target application in time aware information retrieval, the proposed tools for the processing of the Portuguese language can be used in other application scenarios.
Description:	Tese de doutoramento do Programa de Doutoramento em Ciências e Tecnologias da Informação, apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
URI:	https://hdl.handle.net/10316/29634
Rights:	openAccess
Appears in Collections:	FCTUC Eng.Informática - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
Segment-Based Temporal Information Retrieval.pdf		2.89 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

322

checked on Oct 15, 2024

Download(s) 50

505

checked on Oct 15, 2024

Google Scholar^TM

Check

Files in This Item:

Page view(s)

Download(s) 50

Google ScholarTM

Google Scholar^TM