Elastic ETL+Q for any data-warehouse using time bounds

Martins, Pedro Miguel de Oliveira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/29090

Title:	Elastic ETL+Q for any data-warehouse using time bounds
Authors:	Martins, Pedro Miguel de Oliveira
Orientador:	Furtado, Pedro Nuno San-Bento
Keywords:	Elastic data warehouse
Issue Date:	1-Feb-2016
Citation:	MARTINS, Pedro Miguel de Oliveira - Elastic ETL+Q for any data-warehouse using time bounds. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/29090
Project:	info:eu-repo/grantAgreement/FCT/SFRH/SFRH/BD/86274/2012/PT/DATA ARCHITECTURE FOR NEXT-GENERATION HIGH-RATE APPLICATIONS
Abstract:	O problema abordado nesta tese é: Como fornecer escalabilidade horizontal totalmente automatizada para qualquer parte do processamento do ETL e da data-warehouse, de modo a que o projectista da data-warehouse apenas se tem de preocupar com a parte lógica do sistema e fornecer/configurar limites de tempo para todas as parte envolvidas na execução do ETL e de pesquisas (ETL+Q). Em simultâneo propõe-se como oferecer resultados actualizados em qualquer momento. A abordagem deve garantir os limites de tempo desejados e adaptar o sistema a qualquer momento para assegurar esses limites, escalando para cima ou para baixo cada parte do ETL e de pesquisas que tenham necessidade de mais eficiência. Embora algumas aplicações tenham grande volume de dados, requisitos de tempo de processamento, elevados ritmos de dados a chegar e necessidade de dar respostas rápidas a pesquisas, a maioria das implementações de data-warehouse atuais não estão preparados para escalar automaticamente. A solução passa pela utilização de arquitecturas e mecanismos paralelos para acelerar a integração de dados e para processar os dados mais recentes de forma eficiente. Estas abordagens paralelas devem escalar automaticamente. Desejavelmente, o projectista das data-warehouses deve concentrar-se unicamente no modelo lógico (por exemplo, requisitos de negócio, esquemas lógicos de armazenamento de dados), enquanto que os detalhes físicos, incluindo mecanismos de escalabilidade, actualização de dados e integração de dados a elevado ritmo de chegada, podem ser deixados para ferramentas automaticas. Nesta tese investigamos como fornecer escalabilidade automatica para o processo de ETL e para processamento de pesquisas (ETL+Q), bem como disponibilizar dados (para incluir automaticamente nos resultados de pesquisas) que ainda não estão integrados na data-warehouse gerir os dados que chegam em alto ritmo. A proposta desta tese lida com a paralelização e escalabilidade da data-warehouse quando necessário. Não se limita a escalar para cima (scale-out), para aumentar a capacidade de processamento, mas também se adapta quando os recursos deixam de ser necessários (scale-in). Em geral, a actualização instantânea dos dados para se refelctirem nos resultados de pesquisas também não é garantida nestes contextos, uma vez que o carregamento de dados, transformação e integração são tarefas computacionalmente pesadas que são feitas apenas periodicamente, durante periodos em que o sistema não tem movimento (offline). Mas a nossa proposta é desenhada para garantir que os dados extraidos mais recentemente possam ser integrados nas pesquisas, mesmo sem que estes estejam na data-warehouse. A proposta é uma solução universal de escalabilidade da data-warehouses que apelidamos Auto-Scale. Isto significa que a escalabilidade e a actualização de dados é automática para qualquer data-warehouse e processo de ETL, desde que o projectista inclua um conjunto de interfaces que permite ligar os seus diversos modulos à solução Auto-Scale (AScale) proposta. No Capítulo 1 introduzimos os problemas que a tese propõe resolver no ambito de escalabilidade automática de processos de ETL e processamento de pesquisas. São ainda introduzidos os objectivos da tese, mecanismos propostos e contribuições. De modo a suportar escalabilidade automatica para processos de ETL e processamento de pesquisas consiste em separar cada etapa do ETL é separado de modo a que possam ser escalados/replicados de modo horizontal conforme as necessidades. O Capitulo 2 aborda o estado-da-arte em optimização do processamento de ETL, escalabilidade e actualização das data-warehouses para fornecer resultados actualizados, e por fim, dados a chegar a alta velocidade para processamento continuo. O Capitulo 3 resume cada um dos mecanismos propostos no resto da tese, os quais constituem o Auto-Scale dos processos ETL+Q. O Capitulo 4 explica como é que um qualquer projectista de data-warehouses consegue integrar os modulos que desenvolve para o seu projecto, tendo em conta o desenho conceptual da data-warehouse. O AutoScale fornece interfaces no fomato de API para esse efeito. Os Capitulos 5, 6, e Capitulo 7, descrevem em mais como são geridos automatiamente a escalabilidade do ETL, das pesquisas, como são assegurados os dados mais recentes nos resultados das pesquisas, e como é feita a integração no processamento de dados que chegam a alto ritmo e que tenham de ser consideradas continuamente. O Capitulo 8 é experimental. Nesse capitulo são feitos testes à ferramenta proposta com a finalidade de provar que o prototipo e os conceitos presentes são capazes de escalar quando necessário, de modo a assegurar os limites de tempo definidos para processar em cada etapa do pipeline ETL+Q. Nos resultados experimentais compara-se o impacto, sem e com a solução proposta. Criámos cenários experimentais nos quais na ausência do AScale, o processo de ETL e as pesquisas não cumprem tempos aceitávies. Usando o AScale testam-se diferentes cenarios, para diferentes situações e com volumes diferentes de dados, em que a data-warehouse escala automaticamente e resolve os problemas de escalabilidade inerentes. O Capítulo 9 apresenta um resumo das principais contribuições desta tese, e aponta algumas questões interessantes, em aberto, que requerem investigação adicional. Most data-warehouse deployments are not prepared to scale automatically, although some applications have large or increasing requirements concerning data volume, processing times, data rates, freshness and need for fast responses. The solution is to use parallel architectures and mechanisms to speed-up data integration and to handle fresh data efficiently. Those parallel approaches should scale automatically. Desirably, data-warehouse developers should concentrate solely on the conceptual and logic design (e.g. business driven requirements, logical warehouse schemas, workload analysis and ETL process), while physical details, including mechanisms for scalability, freshness and integration of high-rate data, could be left to automated tools. In this thesis we investigate how to provide scalability and data freshness automatically, and how to manage high-rate data efficiently in very large data-warehouses. The framework proposed in this thesis handles paralelization and scales of the data-warehouse when necessary. It does not only scale-out to increase the processing capacity, but it also scales-in when resources are under used. In general, data freshness is also not guaranteed in those contexts, because data loading, transformation and integration are heavy tasks that are done only periodically, instead of row-by-row. The framework we propose is designed to provide data freshness as well. The proposal is a universal data-warehouse scalability solution. This means that scalability and freshness become automatic for any data-warehouse and ETL, as long as the developer includes a set of interfaces that are necessary to plug and take advantages of scaling mechanisms of the proposed framework.
Description:	Tese de doutoramento em Programa de Doutoramento em Ciências e Tecnologia da Informação, apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
URI:	https://hdl.handle.net/10316/29090
Rights:	openAccess
Appears in Collections:	FCTUC Eng.Informática - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
Elastic ETL+Q for any data-warehouse using time bounds.pdf		5.35 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

303

checked on Jul 16, 2024

Download(s) 50

806

checked on Jul 16, 2024

Google Scholar^TM

Check

Files in This Item:

Page view(s)

Download(s) 50

Google ScholarTM

Google Scholar^TM