Betreiben

Die Planung und Installation ist erste der Anfang. In der Regel laufen Server 2-4 Jahre, ehe sie abgeschrieben, zu langsam, zu klein oder einfach im Rahmen der Wartung ersetzt werden.

Überwachen

Was hilft ihnen die beste Verfügbarkeitslösung, wenn Sie aufgrund der automatischen Redundanz gar nicht den Ausfall einer Komponente erkennen. Insofern ist das Thema Überwachung von Exchange ganz oben auf der Prioritätenliste. Es steht sogar noch vor dem Cluster selbst, da ein Cluster ohne Management in der Regel sogar weniger verfügbar ist, als ein Single Server.

Es ist daher essenziell, das Sie ihre Server komplett überwachen, um erste Anzeichen von Problemen zu erkennen und Gegensteuern zu können oder Ausfälle, die der Benutzer bislang noch nicht bemerkt hat, auch unbemerkt bleiben.

Messen

Wer Verfügbarkeit verspricht muss in der Regel auch beweisen, welche Verfügbarkeit geliefert wurde. Allein ein PING pro Sekunde ist für die Überwachung von Exchange nicht ausreichend. Selbst umfangreichere Überwachungen des Servers bezüglich Hardware, Betriebssystem und Applikationsserver sind nur ein Teil der notwendigen Schritte.

Ihr Kunde bzw. ihr Geschäftsführer möchte ja die Verfügbarkeit des "Mailsystems" bewerten und dazu gehört natürlich auch die Internetleitung, über welche die Mails gesendet und empfangen werden, der Domaincontroller mit dem Exchange die Empfänger ausliest, die verschiedenen Warteschlangen, die LAN Verbindungen und die Nutzung durch Clients.

Schließlich müssen Sie Betriebsdaten haben, um die Verfügbarkeit zu belegen und für die nächsten Server die Dimensionierung bestimmen zu können.

Erkennen

Über eine geeignete Überwachung sollten Sie auch schnell einen Ausfall oder eine FunktionsEinschränkung erkennen können. Wenn irgendwo eine Störung ist, dann erkennt man dies meist an drei Dingen:

  • Aktive Tests
    Ein Baustein einer Fehlererkennung ist die aktive Prüfung bestimmter Funktionen des bereitgestellten Service. Das kann eine einfache DNS-Abfrage (NSLOOKUP) sein über Webanfragen mittels WGET und anderen Tools bis zu Testmails. Problem bei all diesen Tests ist, dass Sie nur zyklisch laufen und daher nicht sekundengenau einen Fehler aufdecken. Eine Testnachricht alle 5 Minuten kann im Extremfall einen Fehler erst nach 4:59 Minuten erkennen.
  • Betriebsparameter, Eventlog und Zugriffsüberwachung
    Daher ist die aktive Überwachung von Betriebsparametern wie Performancecounter, Eventlogs und auch die Zugriffe der Mitarbeiter (IIS-Logs, POP3-Logs, SMTP-Logs) wichtig, um Abweichungen von Normalwerten umgehen zu erkennen.
    Gerade wenn sie Nachrichten verarbeiten, gibt es Warteschlangen, die einfach zu überwachen sind. Eine Störung führt bei entsprechender Last immer dazu, dass an einer Stelle die Queue wächst und woanders nichts mehr ankommt.
  • Viele klingelnde Telefone
    Sicher der ungünstigste Fall, wenn die Anwender es bemerken, dass ein Service ein Problem hat. Zwar hilft im Bereich Exchange auch der Cached Mode ein Stück weit mit, dass Ausfälle oder Unterbrechungen etwas versteckt ablaufen, aber wer nicht proaktiv arbeitet, bekommt so die Quittung

Wenn die verschiedenen Prüfpunkte aber einen Fehler erkennen, ist dies noch keine Antwort darauf, was wirklich ausgefallen ist.

Wissen

Jetzt kommt es auf das Know-how der Mitarbeiter und Dienstleister an. Höher verfügbare Systeme stellen höhere Anforderungen an die Betreiber als "Single Server". Es gibt naturgemäß viel mehr "Standard Server" als Cluster. Das Betriebspersonal muss daher regelmäßig trainieren können und sich Werkzeuge und Strategien zurecht legen, um eine Störung genauer lokalisieren und letztlich beheben zu können.

Unterschätzen Sie diese Komponente nicht. Auch eine TestUmgebung, die mit virtuellen Maschinen sehr günstig aufgebaut werden kann, ist eine Grundvoraussetzung, um KonfigurationsÄnderungen vorab zu testen

Informieren

In heutiger Zeit kann man als Betreiber den Kopf kaum noch mit Ausreden aus der Schlinge ziehen. Sehr viele Anwender sind sehr fit, was Computertechnik betrifft und können sehr wohl unterscheiden, ob der Fehler eher an ihrem Endgerät oder doch beim fraglichen Server zu suchen ist. Gehen Sie diese Probleme aktiv an und informieren Sie die Anwender z.B. über eine Status-Webseite. Einige Firmen stellen solche Statusseiten sogar öffentlich.

Cern Monitoring
Quelle: https://winservices.web.cern.ch/winservices/ (14. Nov 08)

Nebenbei reduziert dies auch die Anrufe an der Hotline, wenn der Anwender selbst das "Problem" sehen kann und davon auszugehen ist, dass die IT-Ableitung dies auch schon weiß.