NorbertoGallego.com :: Análisis de mercados y empresas de tecnología

24/06/2020

Contingencias con las que habrá que convivir

No es fácil excusar un corte de servicio de dos horas como si fuera un episodio banal y barato. El sufrido por IBM Cloud este mes ha sido el más reciente de un reguero en una industria que raramente pide disculpas por sus fallos. En su caso, con un agravante de incomodidad para Arvind Krishna, hoy CEO de IBM gracias a sus méritos como responsable de su negocio cloud. Muchos achacan a la compañía no haber intervenido con la diligencia esperada, una afirmación discutible. Tras restablecer el servicio, la página de estatus de IBM Cloud informó escuetamente que “el equipo de operaciones de red ha ajustado las políticas de enrutamiento para solucionar el problema creado por una tercera parte”.

En su comunicación, la compañía se ha ceñido al libro de estilo usual en estos casos: no se puede negar los hecho, pero sí poner en primer plano la robustez de sus sistemas y la eficacia de su equipo humano, para inmediatamente congratularse de no haber sufrido un ataque externo y de que no se constataran pérdidas de datos.

Lo ocurrido a IBM Cloud ilustra un problema que no sólo es corriente sino que va en aumento, precisamente en estos momentos de intensa presión sobre los centros de datos. La investigación de la compañía revela que el fallo se inició con un enrutamiento incorrecto debido a un proveedor externo, que a su vez provocó la congestión y consiguiente impacto en el servicio.

El problema estaría relacionado con el protocolo de ´puerta de enlace de frontera` (BGP). Es, con mil variantes, la historia repetida en otros cortes de servicio: la nube tiene suficiente integridad hasta el día en que se produce un fallo imprevisto o un ataque malintencionado. Pese a la madurez que han alcanzado las infraestructuras cloud, sigue ocurriendo. ¿A alguien le extraña?

El reciente mes de mayo ha dejado el mal recuerdo de una caída de la nube de Adobe que soporta aplicaciones tan usadas como como Photoshop o InDesign, lo que significó que muchos diseñadores se quedaran en blanco el miércoles 27 hasta que el problema quedó resuelto horas después, sin que todavía se conozca explicación satisfactoria. Al día siguiente, el sitio web DownDetector informaba de cortes de servicio de Amazon Web Services en varias zonas de Estados Unidos. Por su parte, Zoom – el indiscutible fenómeno del año, apoyado en las infraestructuras de AWS y Oracle Cloud – vio interrumpido su servicio a primera hora del domingo 17. Como anécdota, se ha comentado la coincidencia con un pico de demanda originado por la afluencia online de feligreses americanos a los oficios religiosos a través de esta plataforma.

La pandemia es el telón de fondo, pero antes de su aparición, por estas fechas de 2019, se habían registrado incontables incidencias. Las primeras, en enero, fueron sendas interrupciones de servicio de Microsoft Office 365, cuyo causante reconocido fue Century Link y su DNS. También el año pasado, en marzo, Google Mail y Google Drive – y ocasionalmente YouTube – tuvieron sus momentos difíciles: mensajes erróneos, latencias inusualmente altas y otros comportamientos inesperados. No se libraría Facebook del colapso de Instagram, que requirió un día entero para arreglar errores de configuración en sus servidores.

Llegado mayo de 2019, siguieron las complicaciones. Microsoft fue víctima de errores en el directorio activo de Azure. El mismo mes, el día 20, Salesforce experimentó la peor vergüenza de su historia por un fallo de script en el software de automatización de su Marketing Cloud. La racha seguiría: congestión en Google Cloud que afectó los servicios de la compañía y los de sus clientes Slack y Shopify. Por tanto, si se trata de comparar los primeros meses de ambos años, curiosamente resulta que 2020 sale bien parado.

En la fase más aguda de la crisis sanitaria se ha ensalzado la resiliencia de las redes para soportar la sobrecarga de tráfico y los cambios de patrones de uso. La templanza de los responsables corporativos no disimula el hecho de que muchas tareas de mantenimiento han sido diferidas, lo que es en sí mismo un riesgo. Los centros de datos y de interconexión han pasado a ser controlados a distancia, con el mínimo de personal presente in situ. Al mismo tiempo, el crecimiento del tráfico ha sido explosivo: teletrabajo, picos de transacciones electrónicas, más interacciones sociales a través de las redes. Por consiguiente, antes de quejarse en Twitter como adolescentes caprichosos, muchos usuarios harían bien en reflexionar sobre las condiciones a las que se han visto expuestas las infraestructuras indispensables.

Una ilustración ejemplar la proporciona el proveedor de servicios de co-locación Equinix, impulsada a restringir el acceso de clientes y contratistas a sus instalaciones en Francia, Italia, Alemania, España y en la región Asia Pacífico. Todo su personal que no tuviera funciones críticas que justificaran su presencia ha sido excluido de pisar los centros de datos

En un intento de evaluar el impacto de la pandemia sobre este sector, el Uptime Institute, cuya misión original es la certificación de centros de datos, ha practicado una encuesta de urgencia. El 84% de los 200 datacenter consultados declaran no haber tenido incidencias atribuibles a la situación sanitaria, en el extremo opuesto un modesto 4% afirma haber experimentado cortes de relevancia y el 10% admite la ralentización de sus prestaciones.

Durante la pandemia, resume el documento, que puede consultarse en la web, determinadas aplicaciones han pasado a ser más críticas que otras (la videoconferencia, entre ellas) por lo que, de continuar las pautas actuales, podrían dar lugar a lo que los autores llaman “resiliencia asimétrica”. Se produce cuando las exigencias de una aplicación exceden las condiciones que puede ofrecer la infraestructura que la soporta. Puede sostenerse que los hyperscalers no tendrán ese problema porque sus datacenter han sido diseñados de entrada con miras a la mayor disponibilidad. Esto no les ha evitado problemas, pero sus arquitecturas, replicadas en múltiples sitios (zonas de disponibilidad) alrededor del mundo, se basan en una robustez que no igualan los centros de datos de las empresariales, advierte el Uptime Institute.

En 2018, un informe anterior, catalogaba las categorías de origen de las caídas de servicio. La primera eran los apagones eléctricos (36%), seguidos de los problemas inherentes a la propia red y a fallos en los sistemas TI. Quizá lo interesante fuera la estimación de que una tercera parte de las incidencias provocaron daños por 250.000 dólares o más.

En la situación presente, es pronto para trazar un balance. Pero algo adelantan los analistas: la reducción de personal y la fatiga del que permanece al pie del cañón podrían, en caso de nueva sobrecarga de demanda, revivir el miedo.

En uno de sus análisis, el Uptime Institute documenta cuatro respuestas no excluyentes: 1) incorporar las lecciones de la pandemia en los planes de continuidad y recuperación en el futuro; 2) identificar los puntos críticos de las infraestructuras (lo que implica cambios en los procesos de certificación del Uptime Institute); 3) invertir en herramientas de automatización y gestión remota; y 4) revisar los presupuestos para optimizar la cadena de suministros. El común denominador sería este: la dificultad de resolver, e incluso de diagnosticar, los fallos de software y la calidad de los datos está superando la importancia de los cortes de corriente eléctrica, bastante controlados.

A estas alturas parece claro que la conjunción de una demanda exacerbada y las perturbaciones en la vida de las empresas, seguirá tensando la operación de los centros de datos en los próximos meses. Los factores sobre los que presiona la pandemia están entre las causas más habituales de la caída de un sistema. En este sentido, no hay novedad. Un informe de la Agencia de Ciberseguridad Europea (ENISA) sirve como complemento de los citados del Uptime Institute: en los pasados cuatro años, la mayor parte de los incidentes registrados en las redes europeas se ha debido a fallos de los sistemas, relegando como segunda causa a los errores humanos, seguidos de lejos por los desastres naturales y con sólo un 4% de ciberataques.

Combinando ambas fuentes, se concluye que las “disrupciones significativas en el servicio” (sic) son cada vez más severas y cada vez más costosas. Descartando las clasificadas como de impacto secundario, en los tres últimos años han ido aumentando en duración, que obviamente es un factor de coste. Aun reconociendo que los datos pueden estar sesgados, se apunta un llamativo crecimiento de interrupciones de entre 24 y 48 horas. Los principios que durante décadas han regido los centros de datos como ámbitos físicos se extienden a la parte lógica, que plantea problemas de distinto orden.

[informe de Pablo G. Bejerano]