Saltar al contenido

SpainClouds |

X (Twitter) se cae Globalmente al Incendiarse un Centro de Datos en Oregón

Un incendio en un centro de datos en Hillsboro, Oregón, arrendado por X (anteriormente Twitter), el 22 de mayo de 2025, desencadenó una interrupción global masiva de la plataforma al día siguiente. Decenas de miles de usuarios se vieron afectados, impidiendo el acceso a funciones clave como el inicio de sesión y la visualización de publicaciones.

X se cae mundialmente por un Incendio en un Centro de Datos

El Incidente en el Centro de Datos PDX11

El incendio comenzó en el centro PDX11 de Digital Realty, ubicado en Hillsboro Technology Park. Los servicios de emergencia llegaron aproximadamente a las 10:20-10:21 a.m. hora local del jueves 22 de mayo. Los bomberos trabajaron durante unas cinco horas, logrando contener el fuego en una única sala de baterías. El incendio fue declarado extinguido a las 3:30 p.m.

Causa: Fallo en el Sistema de Baterías

Las investigaciones iniciales apuntan consistentemente a un fallo en el sistema de baterías de respaldo de energía como la causa raíz del incendio. Específicamente, el fuego se originó en una sala que albergaba baterías de ion-litio. Este tipo de baterías, comunes en centros de datos por su densidad energética, presentan riesgos conocidos de incendio si sufren daños o sobrecalentamiento, generando humo denso y gases tóxicos. Los bomberos optaron por una estrategia de contención, permitiendo que el banco de baterías «se consumiera por sí mismo».

Aunque no hubo heridos y el incendio se contuvo con éxito dentro de la sala, el incidente generó preocupaciones locales sobre el impacto ambiental y la seguridad debido a la posible dispersión de gases y partículas tóxicas. Se ha reabierto el debate sobre la ubicación de grandes centros de datos cerca de zonas residenciales.

Digital Realty, propietaria de la instalación, confirmó un «incidente relacionado con un incendio» bajo control, asegurando que todo el personal fue evacuado de forma segura y sin heridos. Sin embargo, declinó confirmar si X era el arrendatario afectado o la causa exacta del fuego, una práctica habitual en la gestión de crisis corporativas. Hillsboro Fire and Rescue confirmó la intervención, el hallazgo de baterías en llamas contenidas en una habitación y que la causa estaba bajo investigación.

Interrupción Global de X

La interrupción masiva de la plataforma X se manifestó principalmente el viernes 23 de mayo, aunque ya se reportaban problemas menores desde el día del incendio. Según Downdetector, los reportes masivos escalaron alrededor de las 8:20 a.m. ET del 23 de mayo. La interrupción fue de gran escala, afectando a decenas de miles de usuarios globalmente. Las cifras de afectados variaron, con reportes que superaron los 60,000 en la primera hora según una fuente.

La caída duró «varias horas» y los problemas persistieron durante «un día después». La recuperación fue gradual, aunque algunos problemas, especialmente con el inicio de sesión, seguían presentes días después. El observatorio NetBlocks confirmó que se trataba de «interrupciones internacionales» no relacionadas con restricciones de internet a nivel de país, indicando una causa técnica interna. Las áreas más afectadas en EE.UU. incluyeron Nueva York y Dallas, y también hubo problemas persistentes en Canadá, Perú y Alemania. Los usuarios de la aplicación móvil de X parecieron ser los más afectados.

La Respuesta Oficial de X y Elon Musk

X, a través de la cuenta @XEng, reconoció la interrupción el 23 de mayo, indicando que estaban «experimentando una interrupción del centro de datos» y trabajando para remediarla. Sin embargo, algunas fuentes señalaron que X no confirmó específicamente que el incendio de Oregón fuera la causa en sus comunicados iniciales, a pesar de la fuerte conexión circunstancial.

Elon Musk abordó el incidente con mayor franqueza, admitiendo que las medidas de «redundancia de conmutación por error (failover redundancy) no funcionaron en este caso». Esta fue una admisión crucial que apuntó a una deficiencia sistémica en la arquitectura de resiliencia de la plataforma. Musk también afirmó que «se deben realizar mejoras operativas importantes» y anunció su compromiso personal, diciendo que volvería a «pasar 24/7 en el trabajo y durmiendo en salas de conferencias/servidores/fábricas» para solucionar los problemas.

A pesar de los comunicados, X recibió críticas por la falta de comunicación oportuna (la confirmación oficial llegó horas después de los reportes iniciales) y la ausencia de un panel de estado público para que los usuarios consultaran la situación.

Factores Contribuyentes y Problemas Sistémicos

El incidente no se atribuye únicamente al incendio, sino que parece ser el resultado de factores sistémicos:

Dependencia de centros de datos arrendados: X arrienda espacio, como en la instalación afectada, lo que implica dependencia de terceros, aunque la arquitectura de resiliencia es su responsabilidad.
Consolidación de centros de datos: Decisiones post-adquisición, como el cierre del centro de datos de Sacramento y la migración de servidores, probablemente impulsadas por la reducción de costos, pudieron haber concentrado riesgos y introducido vulnerabilidades. Un incidente similar de interrupción prolongada ocurrió tras el cierre de Sacramento.
Fallo de redundancia: La admisión de Musk confirma que los sistemas de conmutación por error, diseñados para desviar tráfico a otros centros en caso de fallo, no funcionaron como se esperaba. Esto sugiere una dependencia excesiva de la instalación afectada, un diseño deficiente o falta de pruebas de los mecanismos de redundancia.
Reducción drástica de personal: La significativa disminución de la plantilla de ingeniería (una reducción estimada del 83% desde 2022 según un análisis) ha generado preocupaciones sobre la capacidad de X para mantener, operar y responder eficazmente a las crisis de su compleja infraestructura. Es plausible que la falta de personal experimentado haya afectado la configuración y prueba de los sistemas de redundancia y prolongado el tiempo de recuperación.
Historial de inestabilidad: El incidente se suma a un patrón de interrupciones recurrentes y problemas de fiabilidad en la plataforma desde la adquisición, incluyendo caídas significativas en 2022, 2023, 2024 y marzo de 2025, lo que indica problemas sistémicos subyacentes.

Implicaciones Amplias para X y la Industria

El incidente tiene consecuencias significativas más allá de la interrupción temporal:

• Erosión de la confianza del usuario: Las interrupciones repetidas dañan la percepción de fiabilidad. Encuestas posteriores a incidentes previos mostraron una reducción en la confianza.
• Pérdida de usuarios: Algunos usuarios migraron o probaron plataformas rivales como Mastodon o Discord tras la caída de mayo de 2025.
• Impacto financiero y reputacional: La inestabilidad se traduce en pérdida de ingresos publicitarios (una interrupción de 24 horas podría costar hasta 10 millones de dólares) y erosiona la confianza de los anunciantes, quienes buscan plataformas fiables.
• Costos de remediación: Abordar la fragilidad infraestructural requerirá inversiones significativas en hardware, software y personal cualificado.
• Riesgos regulatorios y de inversión: La inestabilidad podría atraer escrutinio regulatorio y afectar la valoración de la empresa.
• Oportunidad para competidores: La inestabilidad de X beneficia a plataformas rivales.

Además, el suceso resalta preocupaciones más amplias sobre la seguridad de los centros de datos a nivel global, especialmente en relación con los riesgos de incendio asociados a las baterías de ion-litio. Expertos locales han solicitado planes de emergencia detallados y consultas con bomberos en la aprobación de nuevas instalaciones. Esto subraya la creciente tensión entre la necesidad de infraestructura digital y las preocupaciones de seguridad y ambientales de las comunidades.

Recibe nuestra Newsletter de Cloud semanal