Revisión de mi estrategia de backup

Desde hace varios años tengo implementado un sistema de backup automático para mis datos importantes. Pero hechos recientes me han empujado a revisar mi estrategia, encontrando dos puntos a tener muy en cuenta:

  • Mi sistema de backup tenía importantes carencias
  • Mis necesidades actuales han cambiado

Nuevos tiempos requieren nuevos planteamientos, así que aproveché la caída de uno de los discos del NAS para rediseñar e implementar un nuevo sistema de backup de datos.

Como consejo para cualquiera que esté buscando una mejor manera de salvaguardar sus datos, diré que es fundamental elaborar una lista personal de necesidades, ya que las soluciones van a depender de ellas. Éstas son las mías:

  • Tiene que ser automático. Ya tengo bastantes preocupaciones en mi cabeza como para sumar una mas. Si tengo que acordarme de conectar un disco duro externo cada cierto tiempo para volcar mis datos, no lo haré nunca.
  • Tiene que estar redundado. No quiero tener una sola copia, quiero al menos dos en diferentes lugares. Las probabilidades de que, llegado el momento de necesidad, acceda a la primera copia y haya algún problema son altas. Suelo estar gafado en esto.
  • Me tiene que proteger de desastres físicos como sobretensión, robo, incendio, o inundación. Por lo tanto, es fundamental tener una copia fuera de casa, en lugar remoto.
  • Me tiene que proteger de malware/ransomware, así como de corrupciones esporádicas de datos debido a bugs en las aplicaciones que manejan los archivos.
  • Me tiene que proteger de mis propias torpezas. Puedo llegar a borrar o alterar un archivo de forma accidental y sin darme cuenta. Es más, no tengo por qué descubrir el problema al momento, pueden pasar semanas o meses hasta que vea que ha pasado algo, cuando quiera volver a abrir un archivo y vea que no existe o está corrupto.

Solución Antigua: Centralizada, basada en Historial de Archivos de Windows + CloudBerry Backup

En mi ecosistema, las máquinas que contienen datos susceptibles de necesitar copia de seguridad son todas Windows 10. En el pasado tuve muy buenas experiencias con Time Machine de OS X, así que en su momento diseñé la solución confiando en que el intento de clon de Microsoft, su Historial de Archivos, sería igual de bueno. La solución que describiré ahora es la que he estado usando durante unos 3 ó 4 años, y que sólo hace unas pocas semanas descubrí cuán equivocado estaba con ella.

La solución

Se trataba de una solución centralizada en el NAS, y con una segunda copia de seguridad en un servicio de almacenamiento remoto.

¿Por qué centralizada en el NAS? Por aquel entonces mi conexión a Internet era asimétrica con unos 5 Mbps de subida, por lo que no quería tener que dejar los clientes encendidos a la espera de que completaran la copia de seguridad al almacenamiento remoto. Volcar una tarjeta de 20 GB con fotos podía suponer una carga de 9 horas al almacenamiento remoto, por lo que mi estrategia era que los clientes hicieran una copia local al NAS, mucho más rápida, y sería el NAS quien se encargue de forma centralizada de agrupar las copias de todas las máquinas y subirlas al almacenamiento remoto.

Diagrama de solución antigua: copias centralizadas en el NAS, basado en Windows File History + CloudBerry Backup

Cada cliente hacía una copia con Historial de Archivos a un recurso compartido en el NAS por Samba, y más tarde el NAS sincronizaría la copia de forma centralizada con BackBlaze B2 usando CloudBerry Backup para Linux. Todo sonaba bien.

Internet, donde el NAS almacena la segunda copia de seguridad

Los problemas

Sin embargo, recientemente he descubierto que Historial de Archivos no es fiable y tiene múltiples carencias. Para mi caso de uso, éstas son las más importantes:

  • Fallos silenciosos: no avisa de ninguna manera de que la copia ha ido mal, y desde la propia herramienta se indica la copia como completa aunque hayan ocurrido errores. Hay que mirar a mano en el Visor de Sucesos, mensaje por mensaje.
  • No copia archivos que incluyan ciertos caracteres, que sí son admitidos por el filesystem de Windows.
  • No copia archivos con rutas que superen los 255 caracteres en destino, y como añade timestamp a los nombres de archivo, aumenta el riesgo. El timestamp añade la nada despreciable cifra de 26 caracteres al nombre de archivo.
  • No hay forma de que reintente los archivos fallidos: re-run, disable/enable, reconfigure no funcionan. Una vez que un archivo falla, no lo vuelve a intentar nunca más.
  • La única manera de reintentar es destruir toda la copia y hacerla de cero, tardando horas, dejando los datos desprotegidos todo ese tiempo, y causando duplicados en el almacenamiento remoto debido al timestamp en los nombres de archivo.
  • No hace un almacenamiento inteligente de versiones: las opciones se limitan a retener todas las copias en los últimos X meses, pero sin tener opción a disponer de mayor granularidad para los días más cercanos, o conservar una copia al mes para los últimos meses o años.

En mi caso concreto, descubrí que faltaban en torno a 12.000 archivos en mi copia de seguridad, estando afectadas todas las fotografías tomadas entre los años 2010 y 2014, entre otras cosas, y que nunca habían tenido realmente copia de seguridad. Si hubiera ocurrido un fallo en mi almacenamiento principal, hubiera perdido 5 años de fotografías.

Conclusiones

Al descubrir estos problemas, especialmente que había estado sufriendo durante años una sensación de falsa seguridad al pensar que tenía copia de ciertos archivos que realmente no tenían copia, concluí lo siguiente:

  • Debo verificar las copias de seguridad de una manera más exhaustiva. No sólo debo comprobar que la copia se pueda restaurar, también debo comparar el contenido de la copia contra el origen para verificar que los datos son correctos. Al menos debería comprobar nombres de archivo, tamaños, y cierta verificación inteligente en las fechas de modificación. Idealmente también podría calcular hashes del contenido y comparar dichos hashes para verificar que no existe corrupción de datos.
  • Debo diseñar una nueva solución técnica de copias de seguridad, adaptada a mis necesidades actuales y con herramientas más fiables.

Solución Nueva: Descentralizada, basada en Duplicati

Uno de los problemas de la solución anterior es que todo se basaba en una herramienta fallida: Historial de Archivos de Windows. Necesitaba otras herramientas. Una primera aproximación era pasar a utilizar CloudBerry Backup directamente en los clientes. Sin embargo, debido al coste de licencias ($50 por máquina) descarté esta opción, ya que no es lo mismo pagar una única licencia para el NAS y centralizarlo todo ahí, que pagar N licencias, una para cada cliente.

Otro de los problemas es que, al ser una solución centralizada, el NAS se convierte en punto único de fallo (single point of failure). Si el NAS cae, tanto la copia del NAS como la copia remota dejarían de funcionar. Toda la solución se basa en que una máquina concreta funcione correctamente todo el tiempo. Pensé que sería conveniente evitar eso.

La solución

Actualmente dispongo de una conexión de fibra simétrica con 600 Mbps de subida, por lo que la necesidad inicial de centralizar las copias en el NAS desaparece. Ahora mismo, volcar una tarjeta con 20 GB de fotos suponen unos 5 minutos de tiempo de carga al almacenamiento remoto, frente a las 9 horas que necesitaba hace unos pocos años. Es perfectamente asumible que ahora sean los propios clientes los encargados de sincronizarse con el almacenamiento remoto directamente, liberando al NAS de hacer esta tarea.

Esto además tiene otro importante beneficio, y es que cada cliente mantendrá dos copias de seguridad independientes. Si una de ellas se vuelve corrupta por la razón que sea, la otra no tiene por qué estarlo también. En el antiguo esquema, si la copia del NAS se volvía corrupta, lo que se subía al almacenamiento remoto también lo iba a estar, ya que era una «copia de la copia».

Sobre el software, tras investigar diversas herramientas que soportaran tanto copias por red como copias a servicios de almacenamiento remoto como Amazon S3 o BackBlaze B2, y que tuvieran un coste asumible, me decanté por Duplicati.

Duplicati es un proyecto GNU/GPL y multiplataforma, que proporciona una solución de copias de seguridad fiable, robusta, con soporte para múltiples destinos, incluyendo los servicios de terceros más populares. Encontré muy buenas referencias de él, hay mucha gente contribuyendo, y no vi grandes bugs en el historias de cambios del proyecto en GitHub. Por ello, decidí darle una oportunidad.

Diagrama de solución nueva: copias descentralizadas, basado en Duplicati

He instalado Duplicati en cada cliente, definiendo dos copias de seguridad:

  1. Una copia diaria al NAS por Samba, con almacenamiento inteligente de versiones. Cada cliente copia a un directorio diferente.
  2. Una copia diaria a BackBlaze B2, con almacenamiento inteligente de versiones. Cada cliente copia a un bucket diferente.

Conclusiones

Llevo unas semanas, y hasta la fecha mis impresiones son muy positivas. Las copias se completan con bastante velocidad, tengo dos destinos independientes, y por lo que he podido comprobar, esta vez sí que están todos mis archivos importantes incluidos en la copia. Además, cuando ocurre un problema, se visualiza una notificación en el cliente, aunque hubiera estado bien poder configurar un email donde recibir y centralizar tanto notificaciones de copia completada como de copia fallida. Quizá podría contribuir al proyecto creando esa funcionalidad.

Siguientes pasos

Lo más importante es asegurarme de que las copias de seguridad siguen siendo fiables con el paso del tiempo. Por ello, debo diseñar un sistema de comprobación del contenido de todas las copias, tanto del NAS como del almacenamiento remoto, y no solo debe comprobar que la copia sea restaurable, sino que estén todos los datos, y que estos sean correctos. Y por supuesto, tiene que hacerse de forma automática. Si no me puedo fiar de mí mismo para hacer una copia de seguridad manual de forma regular, tampoco puedo fiarme de que vaya a estar comprobando las copias cada mes. Quizá lo haga el primero, pero os aseguro que después me olvidaré.

El sistema de comprobación debe:

  • Restaurar los datos automáticamente desde cada origen: NAS y B2.
  • Comprobar que todos los archivos del origen se encuentran en la copia.
  • Comprobar que los tamaños y fechas de archivo entre el origen y la copia se corresponden.
  • Enviar una notificación por email cuando la verificación sea correcta.
  • Enviar una notificación por email cuando haya ocurrido un problema de verificación junto con un informe que contenga el detalle, enumerando cada archivo con problemas y el error detectado.
  • Ejecutarse de forma automática y periódica, inicialmente una vez al mes.

Conclusiones finales

Si hay algo peor en informática que la falta de seguridad, es la falsa seguridad. La falsa seguridad es cuando igualmente no estás seguro pero ni siquiera lo sabes, y por lo tanto asumes riesgos que de otra manera no hubieras asumido. En mi caso estaba tranquilo y confiaba en mi sistema de copias de seguridad, cuando en realidad hubiera perdido muchos datos únicos en caso de catástrofe.

Afortunadamente no lo he llegado a sufrir, lo he detectado a tiempo (de casualidad, dicho sea), y he podido ponerle remedio. Pero otros podrían no correr la misma suerte que yo.

Las necesidades cambian con el tiempo, y la fiabilidad de las soluciones también. Revisa tus estrategias de vez en cuando, comprueba que tus soluciones sigan siendo buenas y cubran tus necesidades, y cambia tus soluciones cuando no sea así. Lo que ayer valía, hoy puede que no lo haga. El cambio es la única constante.