Onto.PT: Towards the Automatic Construction of a Lexical Ontology for Portuguese

Oliveira, Hugo Ricardo Gonçalo

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/23640

Title:	Onto.PT: Towards the Automatic Construction of a Lexical Ontology for Portuguese
Authors:	Oliveira, Hugo Ricardo Gonçalo
Orientador:	Gomes, Paulo Jorge de Sousa
Issue Date:	27-May-2013
Citation:	OLIVEIRA, Hugo Ricardo Gonçalo - Onto.PT: towards the automatic construction of a lexical ontology for portuguese. Coimbra : [s.n.], 2013. Tese de doutoramento
Abstract:	The existence of a broad-coverage lexical-semantic knowledge base has a positive impact on the computational processing of its target language. This is the case of Princeton WordNet, for English, which has been used in a wide range of natural language processing (NLP) tasks. WordNet is, however, created manually by experts. So, despite ensuring highly reliable contents, its creation is expensive, timeconsuming and has negative consequences on the resource coverage and growth. For Portuguese, there are several lexical-semantic knowledge bases, but none of them is as successful as WordNet is for English. Moreover, all of them have limitations, that go from not handling ambiguity at the word level and having limited coverage (e.g. only nouns, or synonymy relations) to availability restrictions. Having this in mind, we have set the nal goal of this research to the automatic construction of Onto.PT, a lexical ontology for Portuguese, structured in a similar fashion toWordNet. Onto.PT contains synsets { groups of synonymous words which are lexicalisations of a concept { and semantic relations, held between synsets. For this purpose, we took advantage of information extraction techniques and focused on the development of computational tools for the acquisition and organisation of lexical-semantic knowledge from text. Our work starts by exploring textual sources for the extraction of relations, connecting lexical items according to their possible senses. Dictionaries were our rst choice, because they are structured in words and meanings, and cover a large part of the lexicon. But, as natural language is ambiguous, a lexical item, identi ed by its orthographical form, is sometimes not enough to denote a concept. Therefore, in a second step, we use a synset-based thesaurus for Portuguese as a starting point. The synsets of this thesaurus are augmented with new synonyms acquired in the rst step, and new synsets are discovered from the remaining synonymy relations, after the identi cation of word clusters. In the last step, the whole set of extracted relations is exploited for attaching the arguments of the non-synonymy relations to the most suitable synsets available. In this thesis, we describe each of the aforementioned steps and present the results they produce for Portuguese, together with their evaluation. Each step is a contribution to the automatic creation and enrichment of lexical-semantic knowledge bases, and results in a new resource, namely: a lexical network; a fuzzy and a simple thesaurus; and Onto.PT, a wordnet-like lexical ontology. An overview of the current version of Onto.PT is also provided, together with some scenarios where it may be of useful. This resource, which can be further augmented, is freely available for download and can be used in a wide range of NLP tasks for Portuguese, as WordNet is for English. Despite the current limitations of an automatic creation approach, we believe that Onto.PT will contribute for advancing the state-of-the-art of the computational processing of Portuguese. N~ao h a grandes d uvidas que a exist^encia de uma base de conhecimento l exicosem^ antico de grande cobertura tem um impacto positivo no processamento computacional da l ngua a que e dedicada. E isto que acontece com a WordNet de Princeton, para o ingl^es que, desde a sua cria c~ao, tem sido utilizada num amplo leque de tarefas ligadas ao processamento de linguagem natural. No entanto, a WordNet e um recurso criado manualmente, por especialistas. Assim, apesar de se garantir um recurso altamente con avel, a sua cria c~ao e dispendiosa e morosa, o que se re ecte ao n vel da cobertura e crescimento do recurso. Para o portugu^es, existem v arias bases de conhecimento l exico-seman^antico, sem que, no entanto, nenhuma tenha alcan cado o sucesso que a WordNet teve para o ingl^es. Al em disso, todos os recursos anteriores t^em limita c~oes, tais como n~ao lidarem com diferentes sentidos da mesma palavra ou terem uma cobertura limitada (p.e. apenas substantivos ou rela c~oes de sinon mia) at e restri c~oes ao n vel da sua disponibiliza c~ao e utiliza c~ao. Desta forma, de nimos como o principal objectivo desta investiga c~ao a constru c~ao autom atica do Onto.PT, uma ontologia lexical para o portugu^es, estruturada de forma semelhante a WordNet. A Onto.PT cont em synsets { grupos de palavras sin onimas que s~ao lexicaliza c~oes de um conceito { e rela c~oes sem^anticas, entre synsets. Para tal, tiramos partido de t ecnicas de extrac c~ao de informa c~ao e foc amo-nos no desenvolvimento de ferramentas computacionais para a extrac c~ao e organiza c~ao de conhecimento lexico-sem^antico, com base em informa c~ao textual. Come camos por explorar recursos textuais para a obten c~ao de rela c~oes, que ligam itens lexicais de acordo com os seus poss veis sentidos. Os dicion arios foram a nossa primeira escolha, por se encontrarem estruturados em palavras e signi cados, e tamb em por cobrirem uma parte consider avel do l exico. Mas como a l ngua e amb gua, um simples item lexical, identi cado pela sua forma ortogr a ca, e muitas vezes insu ciente para referir um conceito. Por isso, num segundo passo, utilizamos como ponto de partida um tesauro baseado em synsets, e criado manualmente para o portugu^es. Os synsets desse tesauro s~ao aumentados com novos sin onimos obtidos no primeiro passo, e novos synsets s~ao descobertos atrav es da identi ca c~ao de agrupamentos de palavras (vulgo clusters) nas rela c~oes de sinon mia que sobram. No ultimo passo, tiramos partido de todas as rela c~oes extra das para associar os argumentos de cada rela c~ao ao synset mais adequado, tendo em conta o sentido do argumento envolvido na rela c~ao. Nesta tese, descrevemos cada um dos passos anteriores, e apresentamos os resultados obtidos, juntamente com a sua avalia c~ao, quando aplicados para o portugu^es. Cada passo e uma contribui c~ao para a constru c~ao e enriquecimento autom aticos de bases de conhecimento l exico-sem^antico, e resulta num novo recurso, nomeadamente: uma rede lexical; um tesauro baseado em synsets difusos e um tesauro simples; e o Onto.PT, uma ontologia lexical, estruturada de forma semelhante a uma wordnet. Al em disso, fornecemos uma vis~ao global da vers~ao actual do Onto.PT e apresentamos alguns cen arios onde este recurso pode ter grande utilidade. O Onto.PT, que poder a futuramente ser aumentado, pode ser descarregado livremente e utilizado num grande leque de tarefas relacionadas com o processamento computacional do portugu^es, tal como a WordNet e para o ingl^es. Acreditamos que, apesar das limita c~oes actuais de uma abordagem autom atica para a sua constru c~ao, o Onto.PT poder a contribuir para um avan co no estado da arte do processamento computacional da nossa l ngua.
Description:	Tese de doutoramento do Programa de Doutoramento em Ciências e Tecnologias da Informação, apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra.
URI:	https://hdl.handle.net/10316/23640
Rights:	openAccess
Appears in Collections:	FCTUC Eng.Electrotécnica - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
GoncaloOliveira_PhdThesis2012.pdf		2.17 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

155

checked on Jul 16, 2024

Download(s)

40

checked on Jul 16, 2024

Google Scholar^TM

Check

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM