Processamento aproximado depesquisas para análise de Big Data

Paz, Solange de Lemos

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/87927

DC Field	Value	Language
dc.contributor.advisor	Cabral, Bruno Miguel Brás	-
dc.contributor.author	Paz, Solange de Lemos	-
dc.date.accessioned	2019-11-18T23:25:07Z	-
dc.date.available	2019-11-18T23:25:07Z	-
dc.date.issued	2019-09-10	-
dc.date.submitted	2019-11-18	-
dc.identifier.uri	https://hdl.handle.net/10316/87927	-
dc.description	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia	-
dc.description.abstract	Nos últimos dez anos o crescimento dos dados digitais aumentou exponencialmente. Com o aumento da quantidade de dados processada diariamente, a análise de dados para extrair informações relevantes de forma rápida tornou-se uma tarefa cada vez mais importante e difícil. As tecnologias atuais para análise de dados, que utilizam sistemas de bases de dados relacionais e data warehouses tornaram-se incapazes de lidar de forma eficiente com grandes quantidades de dados. Uma pesquisa nesses sistemas pode demorar horas até devolver um resultado, surgindo assim a necessidade de melhorar o seu desempenho, em termos de custo e tempo. Para melhorar este desempenho surgiram os sistemas de processamento aproximado de pesquisas, que garantem o processamento rápido de grandes quantidades de dados, abdicando de 100% de exatidão na resposta mas promovendo tempos de resposta mais curtos, utilizando apenas uma parte do conjunto de dados. Ao longo das últimas décadas foram propostas diversas técnicas de processamento aproximado de pesquisas, no entanto estas possuem limitações.Neste trabalho é proposta e avaliada uma nova técnica de processamento aproximado de pesquisas que mitiga as seguintes deficiências das abordagens atuais: não requer que seja efetuada qualquer alteração na base de dados, uma vez que possui uma arquitetura de middleware; permite a parametrização do grau de confiança e o erro máximo admitido para a resposta de uma pesquisa e lida com a maioria dos tipos de pesquisas. Esta técnica, designada JDBCApprox, consiste na implementação de uma biblioteca Java que recorre a uma amostragem aleatória simples sem repetição para criar amostras das tabelas da base de dados e, em seguida utiliza uma base de dados com uma configuração em memória para obter uma aceleração no tempo de resposta das pesquisas. A avaliação experimental mostrou que a técnica JDBCApprox consegue ser até 24 vezes mais rápida do que o PostgreSQL e devolve na maioria dos casos respostas mais exatas do que o sistema que apresenta os melhores resultados do estado da arte.	por
dc.description.abstract	Over the last ten years, the growth of digital data has increased exponentially. With the increase in the amount of data processed daily, using data analysis to quickly extract relevant information has become an increasingly important and difficult task. Current technologies for data analysis, which utilize relational database systems and data warehouses, have become incapable of handling large amounts of data efficiently. Performing a query on these systems may take hours before returning a result, thus emerging the need to improve their performance in terms of cost and time. To improve this performance, new processing systems of research have emerged. These systems ensure the rapid processing of large amounts of data, abdicating from 100\% accuracy in the response but promoting shorter response times, using only a portion of the data set. Over the last decades, several techniques have been proposed to approximate processing of queries, however these have limitations.\\ This work proposes and evaluates a new technique of approximate processing of researches that mitigates the following shortcomings of current approaches: it does not require any changes to be made on the database since it has a middleware architecture; allows the parameterization of the degree of confidence and the maximum error admitted to the response of a survey and deals with most types of queries. This technique, named JDBCApprox, consists of the implementation of a Java library that uses a simple random sampling without repetition to create samples of the database tables. It then uses a database with an in-memory configuration to get an acceleration in the response time of the queries. The deployed library can be up to 24 times faster than PostgreSQL and returns, in most cases, more accurate answers than the system that presents the best state of the art results.	eng
dc.language.iso	por	-
dc.rights	openAccess	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	-
dc.subject	Redução de dados	por
dc.subject	Processamento aproximado de pesquisas	por
dc.subject	Processamento de Big Data	por
dc.subject	Amostragem	por
dc.subject	Data Reduction	eng
dc.subject	Approximate Query Processing	eng
dc.subject	Big Data Processing	eng
dc.subject	Sampling	eng
dc.title	Processamento aproximado depesquisas para análise de Big Data	por
dc.title.alternative	Approximate Query Answering for Big Data Analytics	eng
dc.type	masterThesis	-
degois.publication.location	DEI-FCTUC	-
degois.publication.title	Processamento aproximado depesquisas para análise de Big Data	por
dc.peerreviewed	yes	-
dc.identifier.tid	202307352	-
thesis.degree.discipline	Informática	-
thesis.degree.grantor	Universidade de Coimbra	-
thesis.degree.level	1	-
thesis.degree.name	Mestrado em Engenharia Informática	-
uc.degree.grantorUnit	Faculdade de Ciências e Tecnologia - Departamento de Engenharia Informática	-
uc.degree.grantorID	0500	-
uc.contributor.author	Paz, Solange de Lemos::0000-0003-0590-5872	-
uc.degree.classification	16	-
uc.degree.presidentejuri	Costa, Ernesto Jorge Fernandes	-
uc.degree.elementojuri	Cabral, Bruno Miguel Brás	-
uc.degree.elementojuri	Barbosa, Raul André Brajczewski	-
uc.contributor.advisor	Cabral, Bruno Miguel Brás	-
item.openairetype	masterThesis	-
item.fulltext	Com Texto completo	-
item.languageiso639-1	pt	-
item.grantfulltext	open	-
item.cerifentitytype	Publications	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
crisitem.advisor.researchunit	CISUC - Centre for Informatics and Systems of the University of Coimbra	-
crisitem.advisor.parentresearchunit	Faculty of Sciences and Technology	-
crisitem.advisor.orcid	0000-0001-9699-1133	-
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Disserta__o (12).pdf		3.54 MB	Adobe PDF	View/Open

Show simple item record

Page view(s)

162

checked on Jul 17, 2024

Download(s)

349

checked on Jul 17, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM