Teams Channel IT Status

"Big Data" ist in aller Munde und auf dieser Seite beschreibe ich eine etwas andere Analyse für ein Endpoint Monitoring, wenn Sie z.B.: kein Rimscout haben

Auslöser

Mitarbeiter in Firmen nutzen Services der IT oder eines Cloud Dienstleisters, um ihre eigentliche Arbeit zu erbringen, Sie schreiben Rechnungen, erstellen Angebote, konstruieren Produkte, erfassen Betriebsdaten oder erstellen eine Reisekostenabrechnung und lesen und schreiben natürlich Mails und Chat-Nachrichten.

Selbst wenn Sie eine Verfügbarkeit von 99,9% versprechen, sind dies bei 365 Tagen oder 365x24 = 8736 Stunden immer noch bis zu ca. 8h "Ausfall" pro Service im Jahr. Es kann also passieren, dass ein Service sogar über einen ganzen Arbeitstag nicht erreichbar ist, und sie sind immer noch im 99,9%-SLA. Da solche SLA-Vorgaben pro Service berechnet werden, können noch mehr Dienste zu unterschiedlichen Zeiten ausfallen. Auch die Definition eines "Ausfalles" ist immer wieder Streitpunkt, denn wie behandeln sie eine Teilstörung oder eine "Trägheit", die behindert aber kein Ausfall ist? Und wie behandeln Sie Teilausfälle bei den Clients, z.B. weil ein Etagenswitch oder ein Internet-Provider Probleme macht und nur eine kleine Teilmenge ihrer Mitarbeiter nicht arbeiten kann?

Die meisten Firmen haben nicht einmal ein Monitoring diesbezüglich. Sicher erkennen Sie mit einem Servermonitoring im Rechenzentrum, wenn der von ihnen gehostete Server ausgefallen ist. Mit einem passenden Monitoring können Sie auch versuchen, einen Cloud-Service zu überwachen, was aber schon deutlich schwieriger ist, da dieser geografisch verteilt ist und zumindest die Anwender im Homeoffice sicher andere Netzwerkpfade nutzen.

Das ist übrigens auch ein Grund für Programme wie Rimscout, mit denen wir die tatsächliche Erreichbarkeit und Geschwindigkeit von Anwendern zu den von ihnen genutzten Diensten überwachen.

Org-Wide-Team Channel

Wenn Sie aber solche Möglichkeiten wie Rimscout noch nicht einsetzen, dann können Sie nur die Anrufe und neuen Tickets beim Helpdesk betrachten. Vielleicht können Sie auch aus dem Kaffee-Verbrauch, dem Lärmpegel in Büros oder die Personen in der Raucherecke ihre Rückschlüsse auf eine Störung ziehen. Aber haben Sie schon mal in den globalen Microsoft Team -Kanal geschaut? Vor einige Tagen habe ich in eine Teams eines Kunden gesehen, dass dieser Kanal plötzlich eine rege Aktivität verzeichnet hat. Ein Blick in den Kanal hat auch die ganze Bescherung gezeigt:

Eine kleine unbedeutende Anfrage eines Anwenders mit "Everything down" führte in kürzester Zeit zu einem Sturm an Bestätigungen, der natürlich mit den passenden Giphys und Meme's garniert wurde. Hier nur eine ganz keine Auswahl.

So ein allgemeiner Kanal kann durchaus auch etwas zum Frustabbau beitragen.

Auswertung

Interessanter ist die Ansicht, wenn wir uns die Kanal-Statistiken anschauen. Der Peak am 8. Juni der Aktivitäten ist nicht zu übersehen.

Auch die Detailansicht zeigt eine deutliches Übergewicht der "Reaktionen", ohne aber die einzelnen Reaktionen weiter aufzuschlüsseln.

Nur die eigentliche Ursache ist hier natürlich nicht zu ermitteln. Die Tatsache, dass die Anwender aber noch in Teams arbeiten konnten, hilft bei der Eingrenzung. Der Fehler konnte also nicht mit dem Internet-Zugang, dem Provider, Proxy-Server, Inspection Proxy und auch nicht bei Microsoft selbst zusammenhängen. Die Probleme konzentrierten sich auf "OnPremises"-Systeme in der Zentrale. Später hat der Kunde am Ende all dieser Diskussionen und Rückmeldungen einfach einen Link zum Intranet gepostet, auf dem der aktuelle Status und die Root-Cause Analyse dokumentiert und weiter aktualisiert wurde. So ein Ausfall ist ja keine einmalige Geschichte, sondern bis zur kompletten Behebung.

Monitoring

Dieses Beispiel bringt mich auf die Idee, ob ein "Störungen"-Kanal in einem "Org-Wide-Teams ein brauchbarer Kommunikationskanal für Endanwender zur IT-Abteilung sein kann. Ein Kanal hat natürlich den "Chatbereich" zur freien Kommunikation, in dem Anwender bei einer neue Störung einfach einen neuen Beitrag starten können. Andere Anwender können sich an den Beitrag anhängen und ihre Probleme addieren. Der Beitrag kann von Helpdesk-System natürlich überwacht werden, z.B. per Microsoft Graph oder Power Automate. Leider hat Microsoft die Webhooks abgekündigt, um eine Ticketnummer anreichen und mit Active Cards sogar Interaktion zu erlauben.

Ob sie nun aber auch die Anzahl der Postings, Erwähnungen oder Reaktionen automatisiert erfassen und in ihr Enterprise Monitoring überführen, überlass ich ihnen :-)

Weitere Links