Eran las 3 de la madrugada del viernes 19 de julio cuando Tyson Morris recibió una llamada de atención que lo dejaría en estado de crisis durante días. Se esperaba que los trenes y autobuses de Atlanta estuvieran funcionando en dos horas, pero todos los sistemas estaban fuera de servicio y mostraban la temida “pantalla azul de la muerte”.
“Es la única llamada telefónica que un director de sistemas de información nunca quiere recibir”, dijo Morris, director de sistemas de información de la Autoridad Metropolitana de Tránsito Rápido de Atlanta. “Salté de la cama y mi esposa se preguntaba qué estaba pasando. Pensó que alguien había muerto”.
Morris entró en acción y movilizó a su equipo de 130 personas para una operación en la que todos debían trabajar. ¿Se trataba de un ataque informático? ¿Un empleado se había vuelto rebelde y había derribado sus operaciones? Durante horas, nadie lo supo.
La interrupción, causada por una actualización defectuosa de la empresa de software de seguridad CrowdStrike, fue el tipo de evento para el que el personal de TI se entrena, pero espera que nunca ocurra. El incidente provocó la caída de aproximadamente 8,5 millones de dispositivos Windows en todo el mundo, paralizando las operaciones en hospitales, aerolíneas, centros de llamadas de emergencia y más. Las aseguradoras estiman que la interrupción le costó a las empresas más de mil millones de dólares en ingresos, y que las compañías de Fortune 500 podrían perder más de cinco mil millones de dólares.
Aunque la interrupción dificultó o imposibilitó el trabajo de muchos, los técnicos de TI trabajaron horas extras (algunos pasaron la noche en la oficina, intentando frenéticamente que los sistemas volvieran a funcionar durante el fin de semana). También reveló vulnerabilidades que las empresas pueden usar como lecciones para la próxima gran interrupción. “Fue una sensación de estrés más intensa que nunca antes había experimentado”, dijo Morris, quien ha estado en la industria durante más de dos décadas. “Cada segundo cuenta”.
El evento puso de relieve la importancia de los trabajadores de TI, dijo Eric Grenier, un analista que cubre la seguridad de los puntos finales para la firma de investigación de mercado Gartner. CrowdStrike envió una solución a los usuarios, pero requirió que la gente arreglara manualmente cada sistema. La única otra ocasión en que Grenier recuerda una interrupción masiva que estuvo cerca de esto fue la actualización defectuosa de McAfee en 2010.
“El hecho de que estemos viendo informes de cientos de miles de dispositivos que fueron reparados durante el fin de semana es enorme”, dijo Grenier. Los trabajadores de TI fueron “los superhéroes de esto”. En tierra, fue una carrera loca. Kyle Haas, ingeniero de sistemas de la consultora de TI Mirazon en Louisville, pasó el viernes conduciendo por la ciudad para ayudar a los clientes a volver a conectarse. Durante los viajes en automóvil y entre clientes, envió correos electrónicos y recibió llamadas telefónicas para ayudar a otros. Durante nueve horas seguidas, Haas estuvo a toda marcha.
“Esa mañana me salté el café”, dijo, y agregó que se despertó con correos electrónicos y mensajes de clientes que no sabían qué estaba pasando. “Tuve que tocar todas las cosas que pudiera y arreglarlo todo”. Haas dijo que su equipo, compuesto por unas 40 personas, pasó 12 horas asegurándose de que todos sus clientes volvieran a funcionar. Aunque el día fue intenso y estresante, dijo que estaba agradecido de que el problema se debiera únicamente a una mala actualización y que la solución fuera relativamente fácil. Eso significaba que no tendría que luchar contra actores maliciosos o intentar recuperar datos perdidos, que son comunes en ataques de ransomware o fallas del sistema.
¿Su gran salvación del día? Ayudar a una de las compañías de agua que estaba a una hora de tener que pasar a modo manual, lo que le habría impedido realizar pruebas de calidad del agua. Un usuario de TikTok, que se hace llamar plumsoju y dijo que formaba parte del equipo de TI de su empresa, mostró cómo fue su día al activar el sonido de su computadora. Los mensajes entrantes de sus colegas sonaban continuamente, algo que, según dijo, había estado sucediendo durante horas. Comparó la experiencia con el meme viral de un perro tomando café mientras la casa está en llamas y diciendo: “esto está bien”. El creador de TikTok no respondió a una solicitud de comentarios.
Para Morris, el evento fue un gran shock. Había sido el CIO de la agencia de tránsito por solo tres meses. Afortunadamente, el departamento de TI contaba con un plan de emergencia preexistente, que incluía una cadena telefónica y canales dedicados para la comunicación. Pero eso no significó que fuera fácil. Morris, que estaba en un viaje familiar en Tennessee, condujo hasta Atlanta para ayudar. Mientras tanto, el equipo trabajaba las 24 horas del día, con algunos miembros haciendo turnos de 18 horas y durmiendo en la oficina.
A las 9 de la mañana del viernes 19 de julio, los autobuses y trenes volvieron a funcionar, y el lunes por la mañana ya se habían reparado todas las computadoras portátiles. “Recibimos comentarios positivos… Nos llegaron muchas gracias”, dijo Morris. “Eso siguió ayudando a levantar la moral”.
En la Costa Oeste, las señales de la interrupción del servicio comenzaron a aparecer a última hora de la noche del jueves, lo que dio a los trabajadores de TI una ventaja para identificar el problema. Jerry Leever, director de TI de la firma de contabilidad, impuestos y asesoría GHJ en Los Ángeles, dijo que recibió un correo electrónico de los miembros de TI subcontratados de la empresa a las 10:30 p. m., hora del Pacífico, al que rápidamente siguieron alertas del detector del sistema del servidor.
Leever se estaba cepillando los dientes y revisando su correo electrónico antes de acostarse cuando vio el mensaje. Se le encogió el estómago. “Tuve un momento de preocupación y luego un momento de comprensión de que estamos capacitados para manejar esta situación”, dijo Leever. “No hay mucho tiempo para permanecer en pánico porque hay que poner las cosas en línea lo antes posible”.
A las 3:00 a. m., hora del Pacífico, Leever y sus compañeros de equipo habían puesto en funcionamiento los servidores. Habían programado un correo electrónico automático para que se enviara a las 5:00 a. m., informando a sus más de 200 colegas sobre lo sucedido y cómo solucionar el problema. También habían programado una llamada a las 6:00 a. m. para los colegas que necesitaban que el departamento de TI los guiara paso a paso. Alrededor de las 10:30 a. m., hora del Pacífico, todos estaban nuevamente en línea, una hazaña que Leever atribuye a su plan de comunicación y a las advertencias tempranas.
Pero todos los expertos en TI que hablaron con The Washington Post admitieron que la interrupción del servicio de CrowdStrike les permitió sacar lecciones. Esto ayudó a resaltar la importancia de tener un plan de continuidad empresarial actualizado que haga hincapié en los procedimientos de comunicación, que pueden complicarse si los sistemas fallan. También dejó a algunos líderes preguntándose si tienen suficientes contingencias preparadas para que las operaciones puedan continuar cuando algo falla.
Algunos se preguntaron si deberían diversificar más a los proveedores para que toda la operación no se vea afectada por un problema con uno de ellos. Algunas organizaciones también están evaluando si cuentan con el personal adecuado para emergencias o si necesitan contar con ayuda externa de reserva. Y también destacó la importancia de almacenar datos clave como códigos de recuperación para sistemas encriptados en diferentes lugares en caso de que un servidor deje de funcionar.
Para Leever, que calificó este apagón como el peor incidente al que se ha enfrentado, el final del día del viernes no podía llegar lo suficientemente pronto. Se dirigió directamente al bar de su restaurante favorito para comer una hamburguesa y tomar un Aperol Spritz. “Simplemente abrace a su personal de TI”, dijo. “Ayuda cuando la gente es comprensiva y amable en tiempos de crisis”.