Loading...
Thumbnail Image
Publication

ArcaDB: A container-based disaggregated query engine for heterogenous computational environments

Ruiz Rohena, Kristalys
Citations
Altmetric:
Abstract
Modern enterprises rely on data management systems to collect, store, and analyze vast amounts of data related to their operations. Nowadays, clusters and hardware accelerators (e.g., GPUs, TPUs) have become a necessity to scale with the data processing demands in many applications related to social media, bioinformatics, surveillance systems, remote sensing, and medical informatics. Given this new scenario, the architecture of data analytics engines must evolve to take advantage of these new technological trends. In this thesis, I present ArcaDB: a disaggregated query engine that leverages container technology to place operators at compute nodes that fit their performance profile. In ArcaDB, a query plan is dispatched to worker nodes that have different computing characteristics. Each operator is annotated with the preferred type of compute node for execution, and ArcaDB ensures that the operator gets picked up by the appropriate workers. I have implemented a prototype version of ArcaDB using Java, Python, Docker containers, and other supporting open-source tools. I have also completed a preliminary performance study of this prototype, using images and business data. This study shows that ArcaDB can speed up query performance by a factor of 5x in comparison with a shared-nothing, symmetric arrangement. ArcaDB can help users better meet the performance requirements of their applications.
Las empresas modernas confían en los sistemas de gestión de datos para recopilar, almacenar y analizar grandes cantidades de información relacionada a sus operaciones. Hoy en día, los grupos de computadoras y los aceleradores de hardware (por ejemplo, GPU, TPU) se han convertido en una necesidad para escalar con las demandas de procesamiento de datos en muchas aplicaciones relacionadas con las redes sociales, la bioinformática, los sistemas de vigilancia, la teledetección y la informática médica. Ante este nuevo escenario, la arquitectura de los motores de análisis de datos debe evolucionar para aprovechar estas nuevas tendencias tecnológicas. En este documento, presentamos ArcaDB: un motor de consulta desagregado que aprovecha la tecnología de contenedores para ubicar operadores en los nodos de cómputo que se ajustan a su perfil de rendimiento. En ArcaDB, se envía un plan de consulta a los nodos trabajadores que tienen diferentes características informáticas. Cada operador está anotado con el tipo preferido de nodo de cómputo para su ejecución, y ArcaDB se asegura de que el operador sea seleccionado por los trabajadores apropiados. Hemos implementado una versión prototipo de ArcaDB utilizando Java, Python, contenedores Docker y otras herramientas de fuente abierta compatibles. También hemos realizado un estudio preliminar de rendimiento de este prototipo, utilizando imágenes y datos comerciales. Este estudio muestra que ArcaDB puede acelerar el rendimiento de las consultas en un factor de 5 veces en comparación con un arreglo simétrico sin nada compartido. ArcaDB puede ayudar a los usuarios a cumplir con los requisitos de rendimiento de sus aplicaciones de manera más eficiente.
Description
Date
2023-05-11
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Keywords
query engine, disaggregated, arcadb, containers, accelerators
Citation
Embedded videos