Please use this identifier to cite or link to this item:
https://hdl.handle.net/10316/23640
Title: | Onto.PT: Towards the Automatic Construction of a Lexical Ontology for Portuguese | Authors: | Oliveira, Hugo Ricardo Gonçalo | Orientador: | Gomes, Paulo Jorge de Sousa | Issue Date: | 27-May-2013 | Citation: | OLIVEIRA, Hugo Ricardo Gonçalo - Onto.PT: towards the automatic construction of a lexical ontology for portuguese. Coimbra : [s.n.], 2013. Tese de doutoramento | Abstract: | The existence of a broad-coverage lexical-semantic knowledge base has a positive
impact on the computational processing of its target language. This is the case
of Princeton WordNet, for English, which has been used in a wide range of natural
language processing (NLP) tasks. WordNet is, however, created manually by
experts. So, despite ensuring highly reliable contents, its creation is expensive, timeconsuming
and has negative consequences on the resource coverage and growth.
For Portuguese, there are several lexical-semantic knowledge bases, but none
of them is as successful as WordNet is for English. Moreover, all of them have
limitations, that go from not handling ambiguity at the word level and having limited
coverage (e.g. only nouns, or synonymy relations) to availability restrictions.
Having this in mind, we have set the nal goal of this research to the automatic
construction of Onto.PT, a lexical ontology for Portuguese, structured in a similar
fashion toWordNet. Onto.PT contains synsets { groups of synonymous words which
are lexicalisations of a concept { and semantic relations, held between synsets. For
this purpose, we took advantage of information extraction techniques and focused
on the development of computational tools for the acquisition and organisation of
lexical-semantic knowledge from text.
Our work starts by exploring textual sources for the extraction of relations,
connecting lexical items according to their possible senses. Dictionaries were our
rst choice, because they are structured in words and meanings, and cover a large
part of the lexicon. But, as natural language is ambiguous, a lexical item, identi ed
by its orthographical form, is sometimes not enough to denote a concept. Therefore,
in a second step, we use a synset-based thesaurus for Portuguese as a starting point.
The synsets of this thesaurus are augmented with new synonyms acquired in the
rst step, and new synsets are discovered from the remaining synonymy relations,
after the identi cation of word clusters. In the last step, the whole set of extracted
relations is exploited for attaching the arguments of the non-synonymy relations to
the most suitable synsets available.
In this thesis, we describe each of the aforementioned steps and present the
results they produce for Portuguese, together with their evaluation. Each step is a
contribution to the automatic creation and enrichment of lexical-semantic knowledge
bases, and results in a new resource, namely: a lexical network; a fuzzy and a simple
thesaurus; and Onto.PT, a wordnet-like lexical ontology. An overview of the current
version of Onto.PT is also provided, together with some scenarios where it may be
of useful. This resource, which can be further augmented, is freely available for
download and can be used in a wide range of NLP tasks for Portuguese, as WordNet
is for English. Despite the current limitations of an automatic creation approach,
we believe that Onto.PT will contribute for advancing the state-of-the-art of the
computational processing of Portuguese. N~ao h a grandes d uvidas que a exist^encia de uma base de conhecimento l exicosem^ antico de grande cobertura tem um impacto positivo no processamento computacional da l ngua a que e dedicada. E isto que acontece com a WordNet de Princeton, para o ingl^es que, desde a sua cria c~ao, tem sido utilizada num amplo leque de tarefas ligadas ao processamento de linguagem natural. No entanto, a WordNet e um recurso criado manualmente, por especialistas. Assim, apesar de se garantir um recurso altamente con avel, a sua cria c~ao e dispendiosa e morosa, o que se re ecte ao n vel da cobertura e crescimento do recurso. Para o portugu^es, existem v arias bases de conhecimento l exico-seman^antico, sem que, no entanto, nenhuma tenha alcan cado o sucesso que a WordNet teve para o ingl^es. Al em disso, todos os recursos anteriores t^em limita c~oes, tais como n~ao lidarem com diferentes sentidos da mesma palavra ou terem uma cobertura limitada (p.e. apenas substantivos ou rela c~oes de sinon mia) at e restri c~oes ao n vel da sua disponibiliza c~ao e utiliza c~ao. Desta forma, de nimos como o principal objectivo desta investiga c~ao a constru c~ao autom atica do Onto.PT, uma ontologia lexical para o portugu^es, estruturada de forma semelhante a WordNet. A Onto.PT cont em synsets { grupos de palavras sin onimas que s~ao lexicaliza c~oes de um conceito { e rela c~oes sem^anticas, entre synsets. Para tal, tiramos partido de t ecnicas de extrac c~ao de informa c~ao e foc amo-nos no desenvolvimento de ferramentas computacionais para a extrac c~ao e organiza c~ao de conhecimento lexico-sem^antico, com base em informa c~ao textual. Come camos por explorar recursos textuais para a obten c~ao de rela c~oes, que ligam itens lexicais de acordo com os seus poss veis sentidos. Os dicion arios foram a nossa primeira escolha, por se encontrarem estruturados em palavras e signi cados, e tamb em por cobrirem uma parte consider avel do l exico. Mas como a l ngua e amb gua, um simples item lexical, identi cado pela sua forma ortogr a ca, e muitas vezes insu ciente para referir um conceito. Por isso, num segundo passo, utilizamos como ponto de partida um tesauro baseado em synsets, e criado manualmente para o portugu^es. Os synsets desse tesauro s~ao aumentados com novos sin onimos obtidos no primeiro passo, e novos synsets s~ao descobertos atrav es da identi ca c~ao de agrupamentos de palavras (vulgo clusters) nas rela c~oes de sinon mia que sobram. No ultimo passo, tiramos partido de todas as rela c~oes extra das para associar os argumentos de cada rela c~ao ao synset mais adequado, tendo em conta o sentido do argumento envolvido na rela c~ao. Nesta tese, descrevemos cada um dos passos anteriores, e apresentamos os resultados obtidos, juntamente com a sua avalia c~ao, quando aplicados para o portugu^es. Cada passo e uma contribui c~ao para a constru c~ao e enriquecimento autom aticos de bases de conhecimento l exico-sem^antico, e resulta num novo recurso, nomeadamente: uma rede lexical; um tesauro baseado em synsets difusos e um tesauro simples; e o Onto.PT, uma ontologia lexical, estruturada de forma semelhante a uma wordnet. Al em disso, fornecemos uma vis~ao global da vers~ao actual do Onto.PT e apresentamos alguns cen arios onde este recurso pode ter grande utilidade. O Onto.PT, que poder a futuramente ser aumentado, pode ser descarregado livremente e utilizado num grande leque de tarefas relacionadas com o processamento computacional do portugu^es, tal como a WordNet e para o ingl^es. Acreditamos que, apesar das limita c~oes actuais de uma abordagem autom atica para a sua constru c~ao, o Onto.PT poder a contribuir para um avan co no estado da arte do processamento computacional da nossa l ngua. |
Description: | Tese de doutoramento do Programa de Doutoramento em Ciências e Tecnologias da Informação, apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra. | URI: | https://hdl.handle.net/10316/23640 | Rights: | openAccess |
Appears in Collections: | FCTUC Eng.Electrotécnica - Teses de Doutoramento |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
GoncaloOliveira_PhdThesis2012.pdf | 2.17 MB | Adobe PDF | View/Open |
Page view(s)
136
checked on Apr 23, 2024
Download(s)
28
checked on Apr 23, 2024
Google ScholarTM
Check
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.