Microsoft Cloud Ausfälle

Das Marketing wird sicher nicht die Probleme von Cloud-Anbietern aufführen. Schließlich könnte dies ja Kunden davon abhalten, Office 365 oder andere Cloud-Dienste zu nutzen. Wer aber seriös ist, muss natürlich auch das Thema beleuchten und auch Kunden sollen verstehen, dass es 100% niemand bezahlen kann. Microsoft dokumentiert aber zumindest SLAs, womit sich viele IT-Abteilungen auch auf Nachfrage sehr schwer tun. Meist haben Sie auch einen etwas verklärten Blick auf vergangene Ausfälle und am Ende war alles ja gar nicht so schlimm.

Wo ist das Problem?

Mit Cloud-Diensten wird die Bereitstellung sogar noch kniffliger nun mindestens drei Parteien im dem Bild mitspielen:

  • Lokal
    Der Cloud-Dienst kann nie ohne ihre lokale Funktion nutzbar sein. Ihr PC muss nun mal laufen und die Applikation installiert sein. eine Verbindung zum Internet mit funktionierender Namensauflösung und ggfls. Proxy/Firewall muss die Pakete übertragen. Das allein ist es aber nicht. Die Anwender müssen sich an der Cloud authentifizieren und wenn Sie Pass-Through Authentifizierung (PTA) oder ADFS Authentifizierung nutzen, dann nutzt die Cloud ihre lokalen Server. Ein entsprechendes Monitoring ist hier auf jeden Fall angebracht.
  • Transfernetzwerke
    Microsoft tut alles, damit zwischen ihrem Zugangspunkt zum Internet und dem Dienst in der Cloud ein möglichst schneller, kurzer und "verwalteter" Weg geschaltet ist. Dennoch können auch diese Strecken über den Provider gestört sein. Das kann der klassische Bagger sein. Es kann aber auch eine DoS-Attacke auf ihren Internet-Zugang oder Provider o.ä. den Weg stören. Auch diese Teilstecke können und sollten Sie entsprechend überwachen, z.B. mit .End2End-HTTP, End2End Office 365, End2End-UDP3478 u.a.
  • Microsoft Cloud
    Sie können sehr sicher sein, dass Microsoft seine Umgebung aktiv und permanent überwacht und daher Probleme und Fehler sehr schnell erkennt und behebt. Dennoch können Fehler auftreten. Dann sollten Sie zumindest per Überwachung erkennen, dass das Problem vermutlich nicht bei ihnen ist. Knifflig ist hierbei, dass es bei Microsoft sehr viele Server und Übergänge gibt und eine Störung eigentlich nie eine binäre Situation darstellt.

Wenn Sie glauben einen Ausfall erkannt zu haben, dann haben Sie zumindest schon mal für sich bestimmt, was ein Ausfall ist. Das ist gar nicht so einfach, weil eine Störung auch nur eine Teilmenge betreffen kann. So habe ich schon Fälle gesehen, in denen neue Anwender nicht mehr arbeiten konnten aber bestehende Anwender weiter aktiv waren. Das kann z.B. daran liegen, dass neue Anwender sich einfach aufgrund einer lokalen Störung des ADFS-Servers nicht mehr anmelden konnten während die Tickets der bestehenden Anwender noch weiter gültig waren. Es gab aber auch schon Fälle, dass ein Server in der Cloud Probleme hatte. Da Microsoft die Postfächer der Anwender aber auf sehr viele Server verteilt, bemerken das immer nur ganz weniger oder sogar nur ein einzelner Benutzer. So etwas können Sie aber gar nicht zuverlässig überwachen. Selbst wenn Sie per EWS und Impersonation jedes Postfach immer mal wieder öffnen würden, wäre da dann nur ein EWS-Test aber kein ActiveSync oder Mapi/HTTP. Wenn Sie diese Unschärfe noch mit der Lokalität des Anwender erweitern, d.h. dass ein Anwender in einer Niederlassung einen anderen Internetzugang und damit Azure-Eingang nutzt, lassen sich quasi unendlich viele Konstellationen bestimmen, die sie sicher nicht alle prüfen können.

Eine Unterbrechung einer Erreichbarkeit ohne Datenverlust ist immer noch anders einzuschätzen, als eine Störung mit Datenverlust. Bei Exchange Online hat Microsoft schon seit Exchange 2010 mit der DAG eine Konstellation geschaffen, bei der Mails eigentlich nicht mehr verloren gehen sollten. Der Transport stellt die Mail zur nächsten Station zu und löscht Sie erst, wenn die nächste Station bestätigt hat, dass Sie die Information ihrerseits auf ein weiteres System, d.h. den nächten Transportdienst oder ein Replikat des Postfachs, gespeichert hat. Es müssten also schon zwei Server hintereinander mit sehr kurzem Abstand ausfallen. Die Wahrscheinlichkeit ist sehr gering aber eben nicht unmöglich.

Bei anderen Diensten, z.B. SQ-Datenbanken, können Daten auch per Log-Shipping oder Snapshots auf einen anderen Server übertragen und so schneller gegen Verluste gesichert werden als es ein klassischen "Einmal Backup in der Nacht" je könnte. Allerdings gibt es auch hier eine zeitliche Verzögerung. Bei AzureDBs macht Microsoft angeblich alle 5 Minuten einen Snapshot. Wird hier eine Datenbank gelöscht, wie dies Anfang 2019 sogar passiert ist, dann sind bis zu 5 Minuten nicht mehr wiederherstellbar. Aber auch hier sollten Sie sich genau fragen, welches SLA sie als IT-Abteilung eigentlich ihrer Firma zusichern, wenn Sie über lokale Server sprechen.

Wer wie Microsoft, aber Millionen Server, Festplatten und Netzwerkverbindungen betreibt, wird immer mit Ausfällen zu rechnen haben. Ausfälle gehören sogar eher zur Tagesordnung. Große Hoster sprechen von 1-2% Ausfallrate bei Festplatten/Jahr. Reparaturen, RAID-Rebuilds oder Reseeding von Daten in Clustern und DAGs gehören also in der Cloud zum Regelfall. On-Premises sind Administratoren bei solchen Aktionen deutlich nervöser unterwegs und wenn Ersatzhardware erst zugeliefert werden muss, dann hält die Spannung auch länger an

Office 365 Status

Microsoft veröffentlicht ihre eigenen Werte auf https://docs.microsoft.com/de-de/office365/servicedescriptions/office-365-platform-service-description/service-health-and-continuity. Mitte Feb 2020 sah das alles ganz gut aus.

Allerdings bedeuten auch 99,99% bis zu 52:36 Minuten/Jahr. Solche Zusammenfassungen sind auch sehr allgemein, denn ein Service aus vielen Diensten besteht, dann wird ein Teil vermutlich auch nur anteilig einbezogen. Jeder Ausfall ist gefühlt zu lange

Größere Office 365 und Azure Störungen

Aber auch Office 365 und Azure sind von Störungen gezeichnet, die mehr oder mindert groß bekannt werden. Ich habe auf PRTG mit Office 365 schon lange einen Sensor gebaut, mit dem ich das Status-Panel meines Tenant abrufe und in PRTG visualisiere. Sie sehen dort, dass es fast nie einen Zeitpunkt gibt, in dem alle Anzeigen auf "Grün" sind. Irgendwo ist immer was. Schön nur, dass es meist Kleinigkeiten sind, z.B. etwas eingeschränkte Performance, Verzögerungen beim Provisioning oder dass eine Teilfunktion (z.B. Free/Busy Abfragen in Outlook) nur wenige Benutzer eventuell betrifft.

Es gibt aber die ein oder andere Großstörung, die dann auch den Weg in die Medien schafft.

Datum Beschreibung und Links

4./5. Sep 2018

Blitzschlag stört AzureAD und damit auch die ein oder andere Anmeldung.

19. Nov 2018

Probleme bei der Anmeldung mit MFA. Das sperrt vor allem die Admin-Konten aus, die vielleicht auf dem Status nachschauen wollten, was gerade defekt ist.

24. Jan 2019

EX172491: Störung bei Exchange Online

29/30. Jan 2019

Größere Probleme bei der Erreichbarkeit und der Funktion von Safelinks

19. Okt  2019

Ausfall der MFA-Anmeldung

Herbst 2019

Teams-Ausfall bei einigen Kunden über mehrere Stunden

3. Feb 2020

Teams Anmeldeprobleme, da ein Zertifikat abgelaufen war.

Zwischenzeit

Ich habe es aufgegeben, für jeden Incident im AdminCenter einen Eintrag zu addieren und beschränke mich auf die größeren Probleme, zu denen ich auch eine Seite erstellt habe. Ich rate ihnen im Microsoft 365 Message Center eine entsprechende Alarmierung einzurichten und parallel z.B. dem Twitteraccount "Microsoft 365 Status" https://twitter.com/MSFT365status zu folgen und die Cloud in ihr Monitoring einzubeziehen.

25. Jan 2023

Weitere Links