Caída masiva de servidores, ¿se puede prevenir? Caso #ovhdown

A río revuelto ganancia de pescadores. Empiezo por aquí advirtiendo que mi intención no es aprovecharme de la situación desde un punto de vista económico. No soy proveedor de hosting ni servidores de ningún tipo.

Este 9 de noviembre de 2017 ha sido noticia la caída completa de las webs alojadas en el proveedor de hosting francés OVH. Toda Europa desconectada durante unas dos horas y media. ¿Se podía haber evitado?

Recordemos que a finales de febrero pasado se cayeron los servicios de Amazon en una parte del mundo. En ese caso se achacó a un fallo humano pos apagado de más servidores de lo debido. En el caso de OVH que nos ocupa se ha tratado de un fallo eléctrico. Da igual el motivo: todos los proveedores de hosting tienen un fallo antes o después que desconecta sus servicios.

¿O tal vez no, se puede prevenir?

La respuesta es doble. Por un lado la seguridad 100% no existe desde un punto de vista técnico ni estadístico. Debemos ser realistas y comprensivos con estas situaciones. ¿Qué porcentaje de tiempo de desconexión ha supuesto el desastre de OVH? Sin tener datos oficiales, se trata de una caída ínfima en cuanto a tiempo de disponibilidad, aunque ha afectado a toda la red del proveedor.

No voy a hacer leña del árbol caído, no voy a criticar a OVH, fundamentalmente por dos motivos: seguro yo no sabría hacerlo mejor, y de momento no sabemos el motivo exacto que ha provocado la caída.

Ahora bien, hay una serie de cosas que podemos tener en cuenta para que nuestros servidores tengan la menor probabilidad de caerse, de estar desconectados, y es elegir un proveedor que cumpla una serie de características. Ojo, no estoy diciendo que OVH no cumpla estas características, sino que si no se cumplen, la probabilidad de que suceda un acontecimiento de no disponibilidad es mayor.

Las características fundamentales para un centro de datos (CPD)

En mi opinión, hay una serie de cosas que son fundamentales en un centro de datos para garantizar la disponibilidad, y son las siguientes:

  • Un plan de contingencia del proveedor ante fallos de cualquier tipo. Protocolos de actuación tanto como ante pequeños fallos como ante fallos graves.
  • Sistema antiincendios en todo el centro de datos.
  • Hardware de repuesto ante roturas o fallos.
  • Redundancia en conectividad a internet.
  • Redundancia en conectividad eléctrica.

Por si alguno tiene curiosidad, Loogic está alojado en un centro de datos pequeño en Madrid, el proveedor es el propietario del centro de datos, no está realquilado. Tiene redundancia en conectividad eléctrica además de generadores de emergencia que comprueban todos los meses que funcionan correctamente. Dispone de redundancia de conextión a internet con cableado propio hasta uno de los puntos de interconexión más importante de Madrid. [Sí, es nuestro patrocinador y aún así no lo voy a enlazar, el que quiera más información que me lo diga.]

Hay muchos centros de datos con estas características, pero el problema está en que hay muchos más proveedores de servicio que centros de datos, con lo que un proveedor no tiene la capacidad del centro de datos en el que se encuentra sino la capacidad y redundancia que tenga contratada.