Storm 0588 Nachbereitung

Am 5.9 hat Microsoft eine Detailanalyse zum Storm-5880-Vorfall veröffentlicht, die letztlich zeigt, dass wie mit Restrisiken leben müssen. Storm-0588 hat aber einige Kunden und Datenschützer aufgerüttelt und auch ich wurde mehrfach um eine Einschätzung gebeten, ob Microsoft 365 denn sicher und vertrauenswürdig ist oder Microsoft sein System überhaupt im Griff hat?

Vorgeschichte

Wie Microsoft beschrieben hat, wurde bei einem Vorgang im Jahre 2021 ein Dump (Bluescreen) von einem System erstellt, in dem das geheime Schlüsselmaterial eines "Issuing Service" enthalten war. Dieser Dump ist über viele Stationen irgendwie zu jemand gekommen, der dann mutmaßlich im Sommer 2023 damit "Nachschlüssel" für den Zugriff auf sensible Exchange Online Postfächer generieren konnte.

Nach dem Microsoft-Bericht waren ja „nur“ ca. 25 Tenant betroffen, weil die Angreifer vermutlich wohl möglichst lang unerkannt bleiben wollten. Das macht natürlich auch eine Erkennung schwierig in den tausenden von Logs. Bei Storm-0588 ist es wohl aufgefallen, weil ein Kunde nicht nur ausführliche Protokolle erstellt hat, sondern auch das reguläre Nutzerverhalten durch Regeln erfasst hat und damit „unerwartete Zugriff“ aufgefallen sind. Mit dem Wissen um diese Zugriffe konnte Microsoft dann gezielt alle Zugriffe darauf analysieren, den Kreis der Opfer reduzieren, den Fehler im System dingfest machen und letztlich stopfen. Dass aber einige Informationen abgeflossen sind, ist nicht rückgängig zu machen

Die Storm-5880 Lücke wurde von Microsoft sehr schnell hier dokumentiert

Da es diesmal “die Cloud“ betraf, war die Lücke zu dem Zeitpunkt schon gefixt. Meinen Artikel Storm-0558 haben ich ca. 3 Tage später publiziert. Nachdenklich hat mich die Tatsache gemacht, dass die „großen Medien“ erst ca. 14 Tage danach überhaupt mal wach geworden sind. Überwachen dort keine Security Analysten das Microsoft MSRC-Blog oder hat man dort einfach die Tragweite einfach nicht erkannt?

Störfälle überall

Der STORM-0558-Vorfall ist sicher ein größeres Erdbeben hinsichtlich Vertrauenswürdigkeit von Microsoft 365. Natürlich „darf“ so etwas eigentlich nicht passieren und muss durch den Hersteller möglichst abgesichert sein. Da stimme ich vollkommen mit meinen Lesern und Kunden überein. Allerdings zeigt die Realität immer wieder, dass es nie eine 100% Sicherheit geben kann.

Selbst in der Energiewirtschaft (z.B. AKWs) rechnen die Betreiber und Gesetzgeber mit Wahrscheinlichkeiten eines GAU und erstellen Notfallpläne, wie darauf zu reagieren ist. Wir wissen aber alle, dass es in der Vergangenheit passiert ist und warum sollte es zukünftig nicht wieder passieren?

Störfall

Kurzfassung

Three Mile Island

Reaktorkernschmelze aufgrund menschlichen Fehlers und zu wenig Überwachung.

  • Notpumpen und Ventile waren 42h vorher bei einem anderen Test geschlossen und nicht mehr geöffnet worden
  • Überdruckventil öffnete aber blieb hängen und hat nicht mehr geschlossen. Keine Anzeige im Kontrollraum
  • Aus heutiger Sicht notwenigen Sensoren waren damals nicht eingebaut und der Kontrollraum wusste daher wohl nicht, was eigentlich passiert.

Tschernobyl

Reaktorkernschmelze aufgrund menschlicher Fehlbedienung bei einem Testlauf und Nachteile im Reaktordesign

Fukushima

Reaktorkernschmelze aufgrund Erdbeben mit folgendem Tsunami. Vielleicht ist ein direkter Standort an der Küste genauso ungeschickt wie in Regionen mit seismologischer Aktivität.

Bei allen drei Beschreibungen der Störfällen fällt auf, dass es nie ein Einzelfehler sondern eine Verkettung mehrerer Einzelpunkte waren, die letztlich zur Katastrophe geführt haben. Einige Probleme waren schon Teil der Konstruktion aber auch der menschliche Faktor spielt in allen Fällen eine Rolle? Vielleicht sollten wir in der IT auch Gesetze und Vereinbarungen, die von Gerichten kassiert werden (z.B. Schrems I/II), als "Störfall" beschreiben? In die Presse schafft es immer nur die Spitze eines Eisbergs.

Microsoft Störfall

Was hat das nun mit Microsoft zu tun? Aus meiner Sicht ist Storm-0588 für die Microsoft 365 Cloud schon mit einem GAU vergleichbar. War doch auf einen Schlag die komplette Umgebung kompromittiert. Wenn ein Angreifer sich ein Ticket für jeden UPN ausstellen kann und neben Exchange Online auch andere Dienste und sogar 3rd-Party Applikationen diesem Vertrauen, dann stehen alle Türen offen. Microsoft kann eigentlich froh sein, dass der Angreifer es auf wenige ausgewählte Firmen und Postfächer abgesehen hat um möglichst nicht ertappt zu werden. Der Angreifer hat damit wohl keinen direkten Schaden durch Datenveränderung, Unterdrückung oder Konfigurationsveränderungen verursacht. Wenn eine Plattform nicht mehr vertrauenswürdig ist und als kompromittiert gilt, müsste sie ja komplett neu aufgebaut oder auf einen früheren Stand zurückgesetzt werden. Das geht schon bei einer Firma kaum und in Microsoft 365 ist dies undenkbar.

Daher ist der Artikel vom 5. Sep 2023 so wichtig. Microsoft hat versucht den Root-Cause der Kompromittierung zu ermitteln und beschreibt dies auf:

Der Artikel ist durchaus lesenswert und nicht allzu technisch. Es gibt zwar auch hier keine absolute Sicherheit aber Microsoft beschreibt, wie das geheime Schlüsselmaterial letztlich "verloren" wurde. Sie lernen nebenbei auch etwas, wie Microsoft seine internen Prozesse und Umgebungen aufgesetzt hat. Wir erfahren aber auch, dass viele Sicherheitsvorkehrungen vorhanden aber nicht ausreichend aktiv waren. Natürlich hat auch Microsoft aus den Fehlern gelernt und die entsprechenden Schutzeinrichtungen verbessert.

Vergleicht man den Artikel mit dem Bericht über den Three-Mile-Island”-GAU (https://de.wikipedia.org/wiki/Reaktorunfall_im_Kernkraftwerk_Three_Mile_Island), dann gibt es doch die ein oder andere Ähnlichkeit und bringt uns zur bekannten Aussage.

Was schief gehen kann, geht auch irgendwann schief.

Natürlich fragen wir uns, ob dies nun einfach Pech oder Zufall war oder ob Microsoft ein strukturelles Problem hat. Dann fragt man sich auch, warum so viel in einer Kette schief gegangen ist. Wir sollten aber davon ausgehen, dass auch andernorts etwas falsch läuft aber immer nur die Vorgänge ans Tageslicht kommen, die so gravierend sind. Natürlich trägt eine höhere Komplexität und größere Nutzung dazu bei, das mehr Fehler gefunden aber vor allem auch gemacht werden. Wer schon mal ein Haus gebaut hat, was definitiv "einfacher" sein sollte als ein AKW wird auch viel erzählen können. Denken Sie als Administrator einmal an ihre "einfachen Powershell Einzeiler". Sind die immer fehlerfrei gelaufen, obwohl die Komplexität minimal war? Ich kenne Aussagen von Entwicklern, dass Produkte teilweise 30% oder mehr Code zur Fehlerbehandlung und Wert-Validierung haben, der auch in sich fehlerhaft sein kann.

Microsoft halte ich zugute, dass Sie ihre Fehler dokumentieren und mit etwas Abstand die Zusammenhänge erklären. Viele andere „Breaches“ anderer Firmen und Produkte werden entweder nicht bekannt oder verschwinden nach der Lösung aus dem News-Archiv und der Firmenwebseite spurlos.

Ist OnPremises besser?

Gerade Firmen, die z.B. erst Exchange Online und SharePoint aus der Cloud nutzen und damit relativ einfach sogar wieder zurück migrieren könnten, überdenken ihre Cloud-Strategie. Wer viele Jahrzehnte eine lokale Umgebung vermeintlich sicher betrieben hat und gut kennt, kann diese vielleicht auch weiter betreiben. Dabei wird aber gerne vergessen, dass sich das gesamte Umfeld immens verändert hat. Das Internet ist heute allgegenwärtig, Produkte werden kontinuierlich weiter entwickelt und damit aktualisiert. Das bringt natürlich auch neue Fehler mit, die wieder gepatcht werden müssen. Eine abgeschottete Umgebung funktioniert heute eigentlich nicht mehr, denn ohne Kommunikation kann keine Firma existieren.

In dem Zug könnten sich dann natürlich fragen, ob Windows noch als sichere Plattform zu bewerten ist. Wenn Betriebssysteme, Treiber und Applikationen "über Internet" aktiviert und aktualisiert werden müssen, dann vertrauen Sie auch auf dieser Ebene dem jeweiligen Hersteller. So haben Treiber und Antivirenprogramme sehr umfangreiche Berechtigungen und laden wie selbstverständlich neuen Code vom Hersteller nach. Können Sie sicher sein, dass diese Pipeline nie kompromittiert wird? Negativbeispiele der Vergangenheit zeigen, dass dies nicht der Fall ist.

Aber selbst wenn die genutzte Software noch keine erkannten Lücken hat und der Hersteller auf neue Lücken rechtzeitig reagiert, müssen Sie als Administrator diese Updates auch einspielen. Das passiert leider nicht immer umgehend, da Ausfälle und Verhaltensänderungen berücksichtigt werden müssen und einfach die Prioritäten sich verschieben. In der Cloud kümmert sich der Anbieter direkt darum und selbst OnPremises gibt es z.B. von Microsoft neue Funktionen, solche Lücken ganz schnell zu schließen. Der EEMS-Server wurde für Exchange kurz nach dem Hafnium Desaster ins Produkt eingebaut und gibt es mittlerweile auch für Skype for Business

Dennoch brauchen Sie nur einmal auf https://Shodan.io schauen, wie viele Exchange Server noch "sehr alt" sind. Sie finden über den Weg aber auch sehr viele andere Produkte und Betriebssysteme mit bekannten und dokumentierten Lücken, die dennoch weiter am Internet betrieben werden.

Manchmal wünsche ich mit eine Regelung wie beim KFZ. Ohne TÜV und Haftpflicht darf das Fahrzeug nicht mehr auf die Straße.

Microsoft hat ja durchaus auch in der Vergangenheit mit Lücken zu tun gehabt, z.B. Exchange Server und Hafnium. Das kann den Fehler nicht entschuldigen, aber Fehler werden gemacht und es bedeutet nicht, dass die Daten „OnPremises“ damit sicherer wären. Gerade in letzter Zeit haben mir gefühlt zu viele Firewalls, Application Server, VPN-Server, MDM-Lösungen etc. schwerwiegende Lücken.

Kann ich Microsoft 365 noch trauen?

Damit stehen wir wieder am Anfang. In der Security-Branche gibt es einen wichtigen Satz:

Assume Breach - Es gibt zwei Arten von Firmen: Die, die kompromittiert wurden und die, die es noch nicht bemerkt haben.

Es gibt keine 100% Sicherheit, sei es in der Cloud oder OnPremises oder im Hybridbetrieb. Das soll nicht von Storm-5880 ablenken aber wir werden immer ein Restrisiko eingehen müssen und letztlich eine Risikofolgeabschätzung durchführen müssen.

Die Aufarbeitung des Vorfalls von Microsoft dokumentiert in Teilen, welchen Aufwand Microsoft hier treibt. Es gibt eigene Adminkonten mit minimalen Rollen, starke Authentifizierung, dedizierte Computer und Netzwerk für spezielle Aufgaben, Prozess zur Verarbeitung aber dennoch hat es nicht gereicht. Es hat wieder einmal ein Mensch einen Fehler gemacht. Nun schauen Sie sich ihre Umgebung an. Welches Sicherheitsniveau haben Sie bei sich schon eingeführt? Leider hat die Mehrzahl der Firmen immer noch kein TLS 1.2 Enforcement aktiv oder Kerberos RC4 Abschaltung erzwungen. Ich sehe sogar noch Firmen, in denen der IT-Mitarbeiter täglich als "DomainAdmin" arbeitet, welcher Kontenwechsel jedes mal "nervt" und natürlich werden Updates direkt wird auf dem Server herunter geladen und welche PowerShell-Module mit "Install-Module" aus öffentlichen Repositories wie GitHub, PSGallery u.a. heruntergeladen werden, wird auch nicht genauer hinterfragt. Betriebskonzepte und Vorgehen zum Patch Management sind oft nur ansatzweise vorhanden. Nicht umsonst sind Seiten wie meine Exchange 2016 Update Checkliste sehr oft abgefragt.

Wenn Sie mich nun fragen, ob sie Microsoft 356 seit Storm-0588 noch guten Gewissens nutzen können, dann würde ich nach Radio Eriwan mit einem "Im Prinzip Ja...." antworten. Die Frage müsste aber eher darauf abzielen, wie sie die erforderlichen Dienste sicher betreiben können.

Ich stehe immer noch auf dem Standpunkt, dass speziell kleinere Firmen mit z.B. Exchange Online viel besser fahren, als einen eigenen Server zu betreiben.

Es ist aber eine individuelle Betrachtung erforderlich. ich bin sicher, dass Microsoft in den nächsten Monaten weitere Informationen und Erklärungen veröffentlichen wird und die ein oder andere Firma auch ein direktes Gespräch mit Microsoft zur Storm-0588-Thematik führen wird. Das findet dann aber auch einer nicht technischen Ebene statt. Dann sind wie wieder bei der Neubewertung der Risiken, Technische und organisatorische Maßnahmen (TOMs) etc.

Einen 100% Schutz wird es auch in Zukunft nicht geben. Das müssen wir auch in vielen anderen Themenbereichen einfach akzeptieren. Das Geschäftsmodell der KFZ-Haftpflicht Versicherer basiert darauf, dass Menschen und zukünftig auch Computer einen Fehler machen und der Schaden reguliert wird. Und auch Atomkraftwerke sind weltweit weiter auf Grundlage von Kosten, Nutzen, Risikorechnungen im Betrieb.

Weitere Links