Using deduplication to improve storage efficiency in distributed file systems

Bartus, Paul
Arzuaga, Emmanuel
College of Engineering
Department of Electrical and Computer Engineering
Storage systems contain redundant copies of data such as identical files or within sub-file regions. Using deduplication technology, we can take advantage of this re-dundancy and reduce the space needed to store files in the file system. Scalable, highly reliable distributed systems supporting data deduplication have recently become popular for storing backup and archival data. There is potential for this technology to be adapted to primary storage. This dissertation is focused on solving the storage problem, designing and de- veloping HD2FS, improving data storage capacity and efficiency in distributed file systems.

Los sistemas de almacenamiento contienen copias redundantes de datos, como archivos idénticos o dentro de regiones de subarchivos. Utilizando la tecnología de deduplicación sobre esta redundancia, reducimos el espacio necesario para almacenar archivos en el sistema de archivos. Recientemente se han popularizado los sistemas distribuidos escalables y altamente confiables que respaldan la deduplicación de datos para almacenar datos de copia de seguridad y archivado. Existe la posibilidad de que esta tecnología se adapte al almacenamiento primario. Esta disertación se enfoca en resolver el problema de almacenamiento de datos mediante el diseño y desarrollo del sistema HD2FS, logrando mejorar la capacidad y la eficiencia del almacenamiento en el sistema de archivos distribuidos.
Data deduplication
Bartus, P. (2018). Using deduplication to improve storage efficiency in distributed file systems [Dissertation]. Retrieved from