Eine Cybersecurity Krise, die die Welt erschütterte

Der CrowdStrike Zwischenfall 2024

Ein fehlerhaftes Update löst eine globale IT Krise aus, die als «Y2K24» bekannt wurde. Millionen von Windows-Systemen stürzen ab, kritische Infrastrukturen werden lahmgelegt und Unternehmen weltweit sind betroffen. Erfahre, wie CrowdStrike reagierte, welche Massnahmen ergriffen wurden und welche Lehren für die Zukunft gezogen werden.

Eine Cybersecurity Krise, die die Welt erschütterte

Am 19. Juli 2024 führte ein routinemässiges Update von CrowdStrike, einem führenden Anbieter von Cybersicherheitslösungen, zu einem beispiellosen globalen IT Ausfall. Das Ereignis, das als «Y2K24» bekannt wurde, hatte weitreichende Auswirkungen und zeigte die Verwundbarkeit unserer modernen IT Infrastrukturen.

Der Zwischenfall führte zu einer massiven Unterbrechung kritischer Infrastrukturen und hatte weltweite wirtschaftliche Folgen. Schätzungen zufolge betrugen die direkten und indirekten Kosten mehrere Milliarden Dollar. Besonders betroffen waren Sektoren wie das Gesundheitswesen, Transportwesen, Finanzdienstleistungen und öffentliche Verwaltung.

Technische Analyse

Die Wiederherstellung der betroffenen Systeme dauerte längere Zeit an. Bei Systemen welche zusätzlich mit BitLocker geschützt werden, musste ausserdem noch der sogenannte BitLocker Recovery Key bezogen werden, damit der Wiederherstellungsprozess korrekt abgeschlossen werden konnte. Dies führte in verschiedenen Umgebungen zu weiteren Problemen, da das System welches diese Recovery Keys verwaltet ebenfalls von dem Ausfall betroffen war.

Die Cybersicherheitsbranche reagierte rasch auf den Vorfall. Mehrere Unternehmen begannen, ihre Update und Verteilungsprozesse zu überprüfen, um ähnliche Zwischenfälle in der Zukunft zu vermeiden. CrowdStrike selbst kündigte umfassende interne Untersuchungen und eine Überarbeitung ihrer Test und Veröffentlichungsverfahren an.

Zeitstrahl

Zeitstrahl des CrowdStrike Zwischenfalls 2024

18. Juli 2024

Unabhängiger Azure Plattform Ausfall: Ein unabhängiger Azure Plattform Ausfall blockiert für einige Unternehmen den Zugriff auf Speicher und Microsoft 365 Anwendungen in der zentralen Region der Vereinigten Staaten.

19. Juli 2024

04:09: CrowdStrike verteilt ein Konfigurationsupdate für seine Falcon Treibersoftware für Windows PCs und -Server. Das Update verursacht, dass Maschinen in eine Boot Schleife oder einen Wiederherstellungsmodus gehen.
04:09: Beginn weit verbreiteter Abstürze und Neustarts, beginnend in Ozeanien und Asien aufgrund der Zeitzone.
05:27: CrowdStrike setzt das Inhaltsupdate zurück.
06:48: Google Compute Engine meldet Probleme mit Windows VMs.
07:15: Google identifiziert das CrowdStrike Update als Ursache.
09:45: CrowdStrike CEO George Kurtz bestätigt, dass der Fix bereitgestellt wurde und versichert, dass das Problem nicht das Ergebnis eines Cyberangriffs ist.

Sofortige Auswirkungen

Verschiedene Zeiten: Berichte über Störungen in mehreren Sektoren, darunter Fluggesellschaften, Banken, Krankenhäuser, Regierungsdienste und mehr.
Den ganzen Tag über: Notfallbesprechungen und Reaktionsmassnahmen von Regierungen in verschiedenen Ländern, einschliesslich der Vereinigten Staaten, des Vereinigten Königreichs und Australiens.
Laufend: Finanzmärkte reagieren mit erheblichen Kursverlusten bei CrowdStrike und Microsoft.
Swiss International Air Lines streicht über 30% der Flüge: Anhaltendes operatives Chaos bei Swiss, mit erheblichen Störungen und Stornierungen.

Nachfolgende Tage

Laufende Bugfixes: Viele betroffene Computer müssen manuell repariert werden, was zu verlängerten Ausfällen und Störungen in verschiedenen Sektoren führt.
Reaktionen der Industrie: Cybersicherheitsexperten fordern mehr Redundanz und dezentrale Systeme, um solch weit verbreitete Ausfälle in Zukunft zu verhindern.
Reaktionen von Unternehmen und Regierungen: Fortlaufende Bemühungen, die Normalität wiederherzustellen und die Auswirkungen des Ausfalls zu bewältigen.

Wichtige Punkte und langfristige Auswirkungen

Geschätzter finanzieller Schaden: Rund 10 Milliarden US Dollar globaler finanzieller Schaden.
Diskussionen über Zentralisierung: Der Vorfall wirft Fragen zur Zentralisierung der IT Infrastruktur und zur Notwendigkeit von Vielfalt bei Cybersicherheitsanbietern auf.
Globale Reichweite: Der Ausfall betrifft mehrere Länder und Sektoren und spiegelt die weit verbreitete Nutzung von CrowdStrike- und Microsoft-Produkten weltweit wider.

Fazit

Der Zwischenfall zeigt uns wie anfällig unsere modernen, dauerhaft verbundenen IT Systeme sind und welche Abhängigkeit zu Lieferanten besteht. Die meisten betroffenen Unternehmen wurden von diesem Vorfall wohl zumindest teilweise unvorbereitet getroffen, da sie sich in den letzten Jahren auf einen Ransomware Vorfall oder ein anderes, böswilliges Szenario vorbereitet haben. Dass es sich nun um einen «simplen» Vorfall eines fehlerhaften Updates mit massiven Auswirkungen handelt, zeigt auf, dass man auch die Grundlagen nicht ausser Acht lassen darf. Im Risikomanagement weisen die Gefährdungen «Software Schwachstellen oder Fehler» und «Ausfall von Geräten und Systemen» auf solche Szenarien hin und sollten der entsprechende Auslöser sein, um diese Risiken zu behandeln. Sei es mit entsprechenden Backup & Recovery Prozessen, Table Top Exercises oder einem etablierten Business Continuity Management.

Die Krise hat ebenfalls die Bedeutung sorgfältiger Softwareentwicklung und robuster Testprozesse unterstrichen, um die Integrität und Verfügbarkeit von IT Systemen zu gewährleisten. Es bleibt zu hoffen, dass die Lehren aus diesem Vorfall dazu beitragen werden, die Sicherheit und Zuverlässigkeit digitaler Infrastrukturen weltweit zu verbessern.