Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/87927
DC FieldValueLanguage
dc.contributor.advisorCabral, Bruno Miguel Brás-
dc.contributor.authorPaz, Solange de Lemos-
dc.date.accessioned2019-11-18T23:25:07Z-
dc.date.available2019-11-18T23:25:07Z-
dc.date.issued2019-09-10-
dc.date.submitted2019-11-18-
dc.identifier.urihttps://hdl.handle.net/10316/87927-
dc.descriptionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia-
dc.description.abstractNos últimos dez anos o crescimento dos dados digitais aumentou exponencialmente. Com o aumento da quantidade de dados processada diariamente, a análise de dados para extrair informações relevantes de forma rápida tornou-se uma tarefa cada vez mais importante e difícil. As tecnologias atuais para análise de dados, que utilizam sistemas de bases de dados relacionais e data warehouses tornaram-se incapazes de lidar de forma eficiente com grandes quantidades de dados. Uma pesquisa nesses sistemas pode demorar horas até devolver um resultado, surgindo assim a necessidade de melhorar o seu desempenho, em termos de custo e tempo. Para melhorar este desempenho surgiram os sistemas de processamento aproximado de pesquisas, que garantem o processamento rápido de grandes quantidades de dados, abdicando de 100% de exatidão na resposta mas promovendo tempos de resposta mais curtos, utilizando apenas uma parte do conjunto de dados. Ao longo das últimas décadas foram propostas diversas técnicas de processamento aproximado de pesquisas, no entanto estas possuem limitações.Neste trabalho é proposta e avaliada uma nova técnica de processamento aproximado de pesquisas que mitiga as seguintes deficiências das abordagens atuais: não requer que seja efetuada qualquer alteração na base de dados, uma vez que possui uma arquitetura de middleware; permite a parametrização do grau de confiança e o erro máximo admitido para a resposta de uma pesquisa e lida com a maioria dos tipos de pesquisas. Esta técnica, designada JDBCApprox, consiste na implementação de uma biblioteca Java que recorre a uma amostragem aleatória simples sem repetição para criar amostras das tabelas da base de dados e, em seguida utiliza uma base de dados com uma configuração em memória para obter uma aceleração no tempo de resposta das pesquisas. A avaliação experimental mostrou que a técnica JDBCApprox consegue ser até 24 vezes mais rápida do que o PostgreSQL e devolve na maioria dos casos respostas mais exatas do que o sistema que apresenta os melhores resultados do estado da arte.por
dc.description.abstractOver the last ten years, the growth of digital data has increased exponentially. With the increase in the amount of data processed daily, using data analysis to quickly extract relevant information has become an increasingly important and difficult task. Current technologies for data analysis, which utilize relational database systems and data warehouses, have become incapable of handling large amounts of data efficiently. Performing a query on these systems may take hours before returning a result, thus emerging the need to improve their performance in terms of cost and time. To improve this performance, new processing systems of research have emerged. These systems ensure the rapid processing of large amounts of data, abdicating from 100\% accuracy in the response but promoting shorter response times, using only a portion of the data set. Over the last decades, several techniques have been proposed to approximate processing of queries, however these have limitations.\\ This work proposes and evaluates a new technique of approximate processing of researches that mitigates the following shortcomings of current approaches: it does not require any changes to be made on the database since it has a middleware architecture; allows the parameterization of the degree of confidence and the maximum error admitted to the response of a survey and deals with most types of queries. This technique, named JDBCApprox, consists of the implementation of a Java library that uses a simple random sampling without repetition to create samples of the database tables. It then uses a database with an in-memory configuration to get an acceleration in the response time of the queries. The deployed library can be up to 24 times faster than PostgreSQL and returns, in most cases, more accurate answers than the system that presents the best state of the art results.eng
dc.language.isopor-
dc.rightsopenAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/-
dc.subjectRedução de dadospor
dc.subjectProcessamento aproximado de pesquisaspor
dc.subjectProcessamento de Big Datapor
dc.subjectAmostragempor
dc.subjectData Reductioneng
dc.subjectApproximate Query Processingeng
dc.subjectBig Data Processingeng
dc.subjectSamplingeng
dc.titleProcessamento aproximado depesquisas para análise de Big Datapor
dc.title.alternativeApproximate Query Answering for Big Data Analyticseng
dc.typemasterThesis-
degois.publication.locationDEI-FCTUC-
degois.publication.titleProcessamento aproximado depesquisas para análise de Big Datapor
dc.peerreviewedyes-
dc.identifier.tid202307352-
thesis.degree.disciplineInformática-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Engenharia Informática-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Engenharia Informática-
uc.degree.grantorID0500-
uc.contributor.authorPaz, Solange de Lemos::0000-0003-0590-5872-
uc.degree.classification16-
uc.degree.presidentejuriCosta, Ernesto Jorge Fernandes-
uc.degree.elementojuriCabral, Bruno Miguel Brás-
uc.degree.elementojuriBarbosa, Raul André Brajczewski-
uc.contributor.advisorCabral, Bruno Miguel Brás-
item.openairetypemasterThesis-
item.fulltextCom Texto completo-
item.languageiso639-1pt-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
crisitem.advisor.researchunitCISUC - Centre for Informatics and Systems of the University of Coimbra-
crisitem.advisor.parentresearchunitFaculty of Sciences and Technology-
crisitem.advisor.orcid0000-0001-9699-1133-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File Description SizeFormat
Disserta__o (12).pdf3.54 MBAdobe PDFView/Open
Show simple item record

Page view(s)

162
checked on Jul 17, 2024

Download(s)

349
checked on Jul 17, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons