El día que la tecnología mundial colapsó

Crowdstrike, un proveedor de ciberseguridad, desplegó una actualización fallida que colapsó los sistemas Windows en todo el planeta

Guardar
Las pantallas con terminales Windows
Las pantallas con terminales Windows de los aeropuertos quedaron con la imagen del Blue Screen Of Dead (BSOD)

Son las 4:09 en el meridiano de Greenwich, Latinoamérica está durmiendo.

Los pasajeros en los aeropuertos de Nueva York, Los Ángeles, México DF, Madrid y Riad (Arabia Saudita) ven cómo sus vuelos empiezan a ser cancelados o retrasados. El check in en varias aerolíneas (Delta, American, Iberia, Jet Smart, entre muchas otras) comienza a ser manual, lo que ocasiona filas interminables y demoras. Las pantallas con terminales Windows de los aeropuertos, en color azul, con esa imagen que nunca quisiéramos ver en nuestros ordenadores: el Blue Screen Of Dead (BSOD). Más de 39.000 vuelos se retrasaron y más de 4.400 se cancelaron en el mundo, según FlightAware, una plataforma tecnológica que proporciona datos sobre el seguimiento de viajes en tiempo real.

Mientras tanto, los servicios de emergencia 911 de varios estados de Estados Unidos están fuera de servicio. En el hospital de Kaiser permanente, en San José, California, los sistemas informáticos quedan fuera de línea, entre ellos los que atienden a las mujeres embarazadas en trabajo de parto y a sus bebés. Cuando hay caídas de sistemas en los hospitales de USA, se deriva la atención a otros hospitales. Pero lo mismo estaba sucediendo en otros hospitales de la zona.

Algunos bancos e instituciones financieras anunciaban que podrían tener alguna afectación en sus servicios.

En Latinoamérica, el efecto no fue tan grande como en Europa o Estados Unidos porque Crowdstrike, el proveedor de ciberseguridad que desplegó una actualización fallida que colapsó los sistemas Windows, no está tan difundido en nuestra región como en el país norteamericano. Entre otros motivos, por un tema de costos, ya que es una de las soluciones más costosas en su segmento, al mismo tiempo que uno de los líderes indiscutibles del sector. ¿O lo era ?

Más allá de que esta vez haya sido un problema ocasionado por una actualización de Crowdstrike, en el 2010 habíamos tenido una falla similar por una actualización de firmas del antivirus de McAfee, más específicamente con el DAT 5958, que también colapsó sistemas Windows. Esa la viví en carne propia, cuando muchos de nuestros clientes nos llamaron para decirnos que sus sistemas estaban caídos luego de la actualización del DAT de McAfee. Fueron días muy difíciles.

Todo esto nos hace pensar cuán frágiles se vuelven los procesos de la vida diaria que involucran tecnologías de la información, seamos conscientes de su existencia o no.

Ahora, ya ocurrido el hecho, ¿que conclusiones podemos sacar y que medidas poder tener en cuenta para evitar algo similar a futuro?

Lo primero que concluimos es que la protección del endpoint sigue siendo un punto relevante en la tríada de vectores de ataque, junto con el perímetro y el correo. Y no solamente sigue muy vivo (¡larga vida a la protección del Endpoint!), sino que además los sistemas de protección del mismo han sido los culpables de dos de las caídas más grandes de sistemas a nivel mundial. Qué contradictorio, lo que está destinado a protegernos a veces nos deja sin servicio. Y el 19 de julio dejó sin servicio a más de 8 millones de equipos con sistema operativo Windows. Y hablando de la protección del endpoint, hoy no solo debe ser enfocado pensando en la detección y protección, sino que es imprescindible también la respuesta, como lo hacen Crowdstrike y varios otros fabricantes: Check Point, Trellix, Sentinel One, Microsoft, entre otros. Son las soluciones conocidas como EDR, XDR, MDR, las cuales deben ser gestionadas. ¿Por TI, áreas de soporte o por el SOC? La discusión queda planteada.

La segunda conclusión es que seguimos siendo tan débiles como el eslabón más débil de nuestra cadena de suministros. Esto no fue un ciberataque a Crowdstrike, según lo dicho por su CEO, pero quedó claro que una afectación a un proveedor de nuestra cadena de suministros nos puede dejar fuera de línea. ¿Qué tan frecuentemente auditamos la seguridad y servicios de nuestros principales proveedores? Si no lo hacemos, es buen momento para comenzar a hacerlo.

Tercera conclusión: toda actualización de sistemas productivos críticos debería ser realizada en etapas. Si tengo una granja de 20 servidores productivos que brindan un determinado servicio, no debería actualizarlos a todos al mismo tiempo. ¿Qué hubiera sucedido si la actualización de Crowdstrike se hubiera hecho en etapas en los servicios de misión crítica? Seguramente el impacto habría sido bastante menor.

Y, finalmente, ahora que se habla mucho de ir a “Plataformas” de manera tal de consolidar en un solo fabricante todas las soluciones de ciberseguridad, ¿no sería esto tener todos los huevos en la misma canasta? ¿Y si reducimos el riesgo integrando más de un proveedor, para evitar que un colapso (por ejemplo, un ciberataque) a uno de ellos, nos afecte todos nuestros sistemas de misión crítica?

Guardar