Deduplicación de datos

En informática, la deduplicación de datos es una técnica especializada de compresión de datos para eliminar copias duplicadas de datos repetidos. Un término relacionado con la deduplicación de datos es la compresión inteligente de datos. Esta técnica se usa para optimizar el almacenamiento de datos en disco y también para reducir la cantidad de información que debe enviarse de un dispositivo a otro a través de redes de comunicación.

Una aplicación de deduplicación es reducir la cantidad de datos al crear copias de seguridad de sistemas grandes.

Los procesos de deduplicación a nivel de archivo examinan los ficheros en su totalidad para determinar si están duplicados, lo que se conoce como almacenamiento de instancia única, que es idéntico a un backup incremental clásico. Sin embargo, otros procesos dividen los datos en bloques y tratan de encontrar duplicados en ellos (duplicación al nivel de los bloques). La deduplicación a nivel de bloques produce más granularidad y una reducción mayor del espacio de almacenamiento que la de nivel de archivo. Pero la verdadera potencia está en la deduplicación a nivel de bytes, al realizar un comparación byte a byte de las corrientes de datos se consigue una mayor nivel de precisión garantizando la eliminación de datos redundantes.

Enlaces externos

Qué es la deduplicación de datos? (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
Tecnología de deduplicación de datos casos que justifican la deduplicación.
Eliminar Líneas Duplicadas. Demo.

Datos: Q1182260