Azure Monitoring

Microsoft bietet mit Intune und dem gehosteten Monitoring auf Basis von SCOM natürlich eine fertige Überwachungslösung für Azure-Applikationen und mittlerweile auch für OnPremise-Systeme an. Diese Seite beschreibt aber den Aufbau einer eigenen Überwachung auf Basis einer Azure-VM, um die Erreichbarkeit der eigenen "OnPremise"-Umgebung zu verifizieren. Denn was hilft ihnen das beste interne Monitoring, wenn ihre Internet-Verbindung oder gar der Strom ausfällt und das Monitoring daher gar keinen Alarm mehr absetzen kann. Natürlich gibt es auch heute schon "Hosted Monitoring"-Lösungen, die direkt die Überwachung und Alarmierung durchführen, z.B.: http://www.monitor.us/ aber hier ist man auf bestimmte Tests festgelegt. Die Stärke von PRTG sind ja gerade auch eigene Anpassungen.

Diese Seite beschäftigt sich NICHT mit der Überwachung von Diensten in Azure, sondern mit dem Betrieb einer Überwachung in Azure, um die Erreichbarkeit der eigenen OnPremise-Umgebung zu überwachen.

Her mit der VM !

In Azure eine virtuelle Maschine mit Windows Server zu bekomme, geht einfach: Einfach ein Azure Konto anlegen und eine passende Maschine anlegen. Eine kleine Maschine inklusive Windows fängt bei 10€/Monat an:

Nach etwas warten können Sie sich per RDP auf den Server verbinden, die Installationsquellen z.B. von PRTG herunter laden und installieren.

Richtig überwachen

Das Ziel dieser kleinen VM ist natürlich die Überwachung der externen Erreichbarkeit von Diensten. Natürlich könnten Sie dazu einfach auf der VM einen PRTG-Agenten installieren, der dann von ihrer lokalen Instanz aus der Ferne angefragt wird. Aber das hilft ihnen ja nicht beim Ausfall genau ihrer eigenen OnPremise Umgebung. Daher sollte die Probe aus der Cloud autark arbeiten. Eine typische Umgebung könnte wie folgt aussehen:

 

Mehrere Dinge sind dabei zu beachten:

  • Self-Monitoring
    Zuerst sollte der Wachhund natürlich auch überwacht werden. Es wäre doch peinlich, wen dieses System "ausfällt" und niemand es merkt. Also überwacht man den Überwacher entweder "selbst" durch regelmäßige Statusmails an einen Admin oder die intern vorhandene Überwachung prüft auch diese externe Überwachungsinstanz.
  • Der Weg zum Ziel und Abhängigkeiten
    Ehe Sie nun direkt die Funktion von "Outlook WebApp" oder ADFS prüfen, sollten Sie den Weg zu den Servern als Checks aufnehmen. Das kann schon ein einfacher PING zum Eingangsrouter des Providers und des Anschlussrouters ihrer Firma sein. Auch hier gibt es in der Regel zwei Seiten, d.h. die WAN-Seite des Routers in ihrem RZ und die LAN-Seite. Cisco-Router z.B.: antworten nicht auf einen Ping auf die IP-Adresse der LAN-Seite, wenn der Link "down" ist. Über mehrere Abfragen sollten Sie erst den Weg zum Ziel analysieren, um die Störmeldung korrekt zu erstellen.
    Über entsprechende Abhängigkeiten der Sensoren sollten Sie sicherstellen, dass dann z.B.: ein Fehler beim OWA-Check erst dann einen Alarm erzeugt, wenn die Verbindungsprüfungen bis zum Ziel fehlerfrei sind. Es kann ja sonst auch sein, dass der Weg zwischen dem Azure-Host und ihrem LAN unterbrochen ist oder ihr DNS-Provider gerade ein Problem hat. Das sollten Sie natürlich auch "überwachen", z.B. indem Sie per Probe bei verschiedenen Servern das Vorhandensein eines Eintrags und die Korrektheit der Werte abfragen.
  • Sinnvoll überwachen
    Wenn die Überwachung von Extern erfolgt und ihn ihrer Hoheit liegt, dann ist es auch weniger risikobehaftet wirklich eine "synthetische Transaktion" samt gültiger Anmeldung vorzunehmen. Per PowerShell, IMAP, POP3, SMTP o.ä. ist es sehr einfach mit Authentifizierung eine Testmail zu senden und wieder abzurufen oder einen Webservice aufzurufen. Bezüglich der "öffentlichen Webseite" kann man überlegen, hier sogar einen "Inhaltsvergleich" vorzunehmen um Änderungen zu erkennen. Nicht jede Änderung ist Absicht und eine verunstaltete Webseite ist sicher nicht im Interesse eines unternehmens. Einige Dienste wie z.B. Exchange 2013 erlauben sogar qualifizierte Anfragen in der Form "https://<servername>/ews/healthcheck.htm", um die Gesundheit eines Dienstes zu überwachen.
  • Nachbarschaft prüfen
    Eine Internetanbindung und darüber bereitgestellte Dienste sind immer im Zusammenhang zu sehen. Denken Sie hier auch an IP-Routing, DNS-Einträge., SSL-Zertifikate samt CRLs etc.

Umsetzung

Ich habe mir einmal PRTG auf einer kleinen "Basis A0"-VM (ca. 11€/Monat) installiert, die von extern nur ein paar ganz wenige Dienste gezielt überwacht. Eine Beschränkung macht Sinn, da PRTG als Freeware nur 100 Sensoren prüft aber vor allem weil die A0-VM mit 20 GB Disk, 768 MB Ram und einer CPU nicht wirklich sehr schnell ist. Aber für ein paar Tests reicht das vollkommen aus. Hier mal ein Blick auf die überwachten Stationen und Server bei Net at Work.

Natürlich muss man in den Einstellungen noch die Abhängigkeiten anpassen. Per Default ist ein Gerät vom "PING" abhängig und alle anderen Sensoren des Geräts vom Gerät selbst. In den Einstellungen ist die sichtbar und veränderbar. Hier am Beispiel des Internet-Gateways "gate.netatwork.de", welches angepingt wird. Hier habe ich die Abhängigkeit auf den PING des davor stehenden Routers gebunden.

 

Wenn also der PING auf den Router auf der Seite des Internet-Providers schon nicht geht, dann müssen die nachgelagerten Tests gar nicht mehr ausgeführt werden. So erspart man sich Fehltalarme, dass ich einen Kollegen auf die Server ansetzen, obwohl "nur" mal wieder ein Bagger die Leitung gekappt hat. Diese Abhängigkeiten muss man natürlich dann so weiter durchziehen, insbesondere wenn Systeme nicht per "PING" erreichbar sein sollen. Leider kann man die Abhängigkeiten nicht am Test selbst einstellen, sondern immer nur au dem Gerät, d.h. man koppelt ein Gerät an den erfolgreichen Test des vor ihm in der Kette stehenden Geräts.

Network Map

Wer etwas mehr Zeit investiert, kann natürlich in PRTG selbst die verschiedenen Checks auf eine "MAP" ziehen, positionieren und mit Icons versehen. Das könnte dann so aussehen. (Zeitaufwand <5 Minuten)

 

Wer es perfekter haben will, kann natürlich auch mit einem Zeichenprogramm seiner Wahl, ich nutze gerne Visio, einen Netzwerkplan zeichnen und bei PRTG als Hintergrund  hinterlegen. Dann muss man nur noch die relevanten Checks an die richtige Stelle der Map ziehen und schon ist das "Bild" fertig.

Da man diese Ansichten auch auf einem Smartphone oder Tablet anzeigen kann, können Sie so jederzeit von überall einen Status ihrer Internetanbindung und der veröffentlichten Dienste erhalten.

Allerdings ist auch so eine Probe natürlich "nur" eine Stichprobe von dieser einen Azure-VM, die in einem Microsoft Datacenter steht.

Ich habe in 2011 von verschiedenen Endpunkten die Pfade verfolgt und die Verbindungen zu Net at Work von den verschiedenen Providern dokumentiert.

 

Es ist gut zu sehen, dass jeder einen eigenen Zugang zum Provider hat. Der Provider hat wohl mehrere Peerings.

Report als Statusbericht

PRTG erlaubt es, einen Report über eine Gruppe von Sensoren auszuführen und per Mail an eine Benutzergruppe zu senden. Sie können den Inhalt des Report dynamisch über entsprechende Tags bei den Geräten und Sensoren oder über die manuelle Auswahl der relevanten Objekte generieren lassen. Hier habe ich von rechts einfach die komplette Gruppe "Net at Work" nach links addiert, d.h. ich habe nicht mit "Tags" gearbeitet.

Der Report listet dann eine Zusammenfassung der Sensoren auf:

 

Vielleicht fällt dann einem Admin doch mal auf, wenn der Report Ausbleibt, was auf ein Problem der Überwachung hinweisen könnte. Wer allerdings sowieso schon eine Monitoring-Lösung "OnPremise" einsetzt, könnte von dort auch einfach die Instanz in Azure automatisiert überwachen.

Alternativen zum "Selbstbetrieb"

Die Konfiguration und der Betrieb einer VM in Azure kostet zwar keine lokalen Server aber kostenfrei ist das auch nicht. Insofern können Sie natürlich auch die komplette Überwachung an einen spezialisierten Dienstleister übertragen. Es gibt gleich mehrere Firmen, bei denen Sie "Tests" ausführen lassen können. Einige dieser Dienste sind teilweise kostenfrei, aber dann meist limitiert auf wenige Tests, lange Intervalle oder absichtlich verzögerte Alarmmeldungen. Dennoch ist dies durchaus eine legitime Option. Sie punkten sicher dadurch, wenn im Service noch eine SMS-Option oder die Überwachung der Überwachung selbst mit enthalten ist. Diese Liste ist keine Repräsentativer Marktüberblick und sollte nicht als Empfehlung missverstanden werden.

An den Preisen kann man aber auch durchaus sehen, dass man als Admin auch schon eine Azure-VM samt Windows Lizenz bekommen kann und PRTG ist ja schnell installiert.

Weitere Links