Überwachung von Servern und Exchange

Zur einen stabilen Betrieb gehört auch eine Überwachung der Server und Systeme. Die zu prüfenden Dinge, um Fehler oder Einbrüche zu erkennen sind vielfältig:

  • Im Bereich Netzwerk ist die Überwachung der Switches, Router und WAN-Verbindung wichtig
  • Bei den Servern ist zwischen Hardware und Software zu unterscheiden.

Viele Firmen nutzen schon Programme wie MOM2005, WhatsUp, HostMon, Nagios oder Systeme der Hersteller zur Überwachung der Hardware wie Dell OpenManage, Fujitsu-Siemens ServerView, HP Insight Management etc. Dies ist besonders beim Einsatz von RAID-Systemen notwendig, da hier ein Ausfall einer Festplatte sonst kaum bemerkt wird.

Was soll ich den überwachen ?

Aber das ist nach meiner Meinung nach nicht genug. Zusätzliche Überwachungen sind sinnvoll, um Probleme von Servern rechtzeitig zu erkennen, die nicht von der Hardware abhängen. Dazu zählen:

  • Eventlog
    Hier finden Sich die meisten Fehler und Warnungen aber auch überflüssige Informationen. Häufig gibt es sogar Ereignisse, die Sie gerne erkennen würden, die aber erst mit einer höheren Diagnoseeinstellungen gemeldet werden. Eine Software sollte dann die wichtigen Events zentral einsammeln, so dass auch nach einem Defekt die Meldungen davor zur Verfügung stehen und vor allem all die unwichtigen Meldungen unterdrückt werden.
  • Performance Counter und Betriebsstatistiken
    Exchange Überwachungspraxis - Perfmon
    Viele numerischen Daten stellt Windows als Performance Counter bereit.. Dies ist durchaus mit SNMP zu vergleichen, womit die Betriebsdaten eines Netzwerkgeräts ausgelesen werden können. Eine Monitoringlösung sollte wichtige Counter auslesen und bei Grenzwertverletzungen alarmieren. Ebenso wichtig ist aber auch die langfristige Aufzeichnung von ausgewählten Daten zur Trendanalyse und historischen Auswertung. Interessant wird dies, wenn eine Lösung auch Daten ermitteln kann, die nicht über Windows Performance Counter verfügbar sind, z.B.: die Größe von Postfächern in einem Exchange Informationsspeicher.
  • Funktionstests auf höherem Level)
    Viele Fehler und Performanceeinbrüche zeigen Sich jedoch nicht direkt im Eventlog. Daher ist es auch wünschenswert, Tests auf höherer Ebene durchzuführen. Das kann eine Testmail pro Stunde sein, deren Durchlaufzeit gemessen wird. Ebenso kann eine Webseite geholt und mit einem Sollwert verglichen werden. So werden Veränderungen und die Erreichbarkeit auf einmal geprüft. Aber auch gezielte Verbindungen zu kritischen Systemen (Ping auf Internetrouter, Verbindung zum Hostsysteme, Abfrage von DNS-Informationen etc.) sind ein guter Ansatz, Fehler früh zu erkennen.
  • Patches und Einstellungen
    Software hat Fehler und oft sind kritische Patches erforderlich. Eine Überwachung der Server auf ihre Aktualität ist daher angebracht. Zwar können Sie mit Windows Update ihre Server auch manuell patchen, aber zur Aktualität gehören auch BIOS, Netzwerkartentreiber, Software von Drittherstellern und Systemeinstellungen. Der Microsoft Baseline Security Analyser (MBSA) zeigt gut, dass außer den Patches auch Konfigurationseinstellungen durchaus überwacht werden sollten. Übrigens gibt es auch ein MOM Management Pack für MBSA, so dass fehlende Patches auch im Monitoring eine Meldung erzeugen und den Status des Servers ändern. Ebenso kann auch eine Inventarisierungssoftware wie SMS hier nicht nur fehlende Patches erkennen sondern auch installieren. Das ist nicht einmal auf Microsoft Patches beschränkt (Siehe auch http://blogs.msdn.com/fabricem/archive/2005/02/02/365815.aspx)
  • Hardware
    Moderne Server überwachen sich selbst und melden Ausgefallene Lüfter, Speicherriegel, Festplatten und andere Defekte an eine Konsole. Es ist interessant, wenn auch diese Meldung in die bestehende Überwachungssoftware übernommen werden. So bietet DELL als erstes ein MOM Management Pack für DELL Open Manage an, womit eben diese Meldungen in MOM übertragen werden. Andere Hersteller sind hier schon gefolgt.
  • Sicherheit ist Trumpf
    Ein etwas anderer Bereich der Überwachung bezieht sich auf die Integrität und Sicherheit des Servers. So sollten Eindringungsversuche, zurückgesetzte Kennworte aber auch ausgetauschte Treiber und Programme auf Servern berichtet werden, da Sie potentiell auf unerwünschte Veränderungen hinweisen. Bis zu einem gewissen Grade kann dies auch eine Monitoring-Lösung (z.B.: Überwachung des Sicherheitseventlogs) übernehmen. Größere Ansprüche fallen dann aber eher in den Bereich des Auditing.

Auch Microsoft Exchange ist daraus aufgelegt, lange problemlos zu funktionieren, solange die Randbedingungen eingehalten werden und die Basis funktioniert. Aber dies behaupten Autohäuser von ihren Fahrzeugen genauso, wie wir von unseren Zähnen. Und trotzdem bringen wir unseren fahrbaren untersatz regelmäßig in die Inspektion und wir selbst mindestens einmal im Jahr beim Zahnarzt auf den Liegestuhl zur Kontrolle.

Wie kann ich denn überwachen ?

Genauso sollten Sie es sich zur Regel machen, ihren Exchange Server regelmäßig zu überprüfen und zu überwachen. Wenn Sie sich dazu entschieden haben, ihren Exchange Server zu überwachen, dann sollten Sie sich überlegen, Wie sie dies am besten machen. Mit Windows haben Sie hier vier verschiedene Wege, die sich umsetzen können:

  • Regelmäßige Kontrolle des Eventlog oder über Syslog
    Viele Fehler deuten sich schon früh an. Warum auf den Fehler warten, wenn Sie schon aktiv eingreifen können. Auch beim Einsatz von richtiger Serverhardware finden Sie im Eventlog die Meldungen, wenn eine Festplatte ihres RAID-Systems ausgefallen ist, oder andere Hardwarekomponenten Probleme verursachen.
    Sie finden hier auch den berühmten -1018 Fehler und andere Anzeichen schleichender Probleme.
  • Kontrolle mittels Performancemonitor (Perfmon)
    Dieses Programm ist ein Goldstück und die meisten Administratoren können es nicht mal. Auf der Konsole oder mittels Ressource Kit als Dienst gestartet können Sie betriebswichtige Parameter des Servers permanent überwachen und protokollieren
    So erhalten Sie langfristige Trends was Speicherbedarf, Festplattenplatz oder Rechenleistung betrifft. Nichts ist peinlicher als ein Server mit voll gelaufener Festplatte.
  • SNMP (SNMP)
    Windows kann per SNMP abgefragt werden. Auch Exchange kann in SNMP eingebunden werden, indem die Performance Counter im SNMP-Dienst gepflegt werden. Damit ist dann auch eine Überwachung vieler Exchangeserver mit Programme wie HP OpenView oder anderen SNMP Management Stationen möglich. Diverse Links zu Freeware Programme etc. finden Sie auf der Praxisseite.
  • Kontrolle des Active Directory mit REPLMON
    Exchange 2000 ist essentiell abhängig von der Funktion des Active Directory. Vielleicht merken Sie einen Fehler im AD nicht so schnell bei den normalen Diensten (Datei und Druckfreigabe) aber Exchange wird dann sehr schnell das Mailrouting und die Nachrichtenzustellung nicht mehr korrekt durchführen können. Daher sollten sie sicherstellen, dass ihr Active Directory korrekt funktioniert. Dazu dient ebenso die Kontrolle des Eventlog aber ebenso die Überwachung der Replikation mit REPLMON. (Support Tools). REPLMON kann bei Fehlern Eventlog Einträge machen oder Nachrichten senden.
  • Exchange Systemaufsicht
    Exchange 5.5 kann sich selbst und auch andere Exchange Server überwachen und Dienste automatisch neu starten, wenn diese warum auch immer nicht mehr laufen sollten. Dazu muss aber der Exchange Administrator z.B. auf dem Server gestartet sein. Unter Windows 2000 ist diese Funktion im Betriebssystem eingebaut.
    Auch mit Exchange 2000 kann die Systemaufsicht die Funktion bestimmter Dienste kontrollieren, anzeigen und Aktionen auslösen. Zusätzlich kann der Systemmonitor auch Testnachrichten senden und deren umlaufzeit müssen und alarmieren. Aber auch hier ist keine Statistik enthalten Allerdings muss für den Betrieb dieses Monitors der Exchange Administrator gestartet sein und auch die Monitor gestartet sein. Es ist kein Dienst.
  • Windows 2000 Dienstkontrolle
    Windows 2000 kann Dienste permanent überwachen. Sollte ein Dienst nicht mehr reagieren, kann Windows 2000 optional den Dienst neu starten, den gesamten Server neu starten oder eine Anwendung ausführen, die von Ihnen gewünschte Aktionen durchführt.

Genau genommen sollte diese Arbeit eine Software für Sie übernehmen. Weiter unten bei den Link sind einige Produkte aufgeführt.

Exchange 2000/2003 Selfmonitoring

Microsoft Exchange hat selbst die Funktion, sich und die Connectoren zu überwachen. Im Exchange System Manager finden Sie unter dem Punkt "Extras" einen Bereich Überwachung und Monitoring. Hier sehen Sie auf einen Blick den Status der gesamten Server und Connectoren in ihrer Organisation. Hier können Sie auch Alarmfunktionen einrichten, wenn bestimmte Server kritisch sind.

Wenn Sie auf den Eigenschaften des Server unten die Checkbox "Gesamte Überwachung für diesen Server deaktivieren" anschalten, dann wird der Server in den "Wartungsmodus" versetzt. Damit wird die Überwachung temporär deaktiviert und Sie können den Server umkonfigurieren. ohne dass Exchange entsprechende Alarme generiert.

Erweiterte Funktionen

Neben den Basisfunktionen, die teilweise mit dem Betriebssystem selbst oder Programmen von Exchange ausgeführt werden können, sind viele weitere Funktionen denkbar, z.B.:

  • Selbstschutz
    Was hindert sie daran, dass der Performancemonitor den Internet Mail Dienst oder den MTA automatisch herunterfährt, wenn eine bestimmte Anzahl von Nachrichten pro Sekunde überschritten wird ?. Damit verlieren Viren oder Attacken wie Melissa ihre Schärfe. Zwar stoppt dies den Mailverkehr, aber ein Server, der nur noch Virennachrichten routet ist auch nicht mehr richtig produktiv.
  • Webmon
    Im Exchange 2000 Resource Kit ist das Programm WEBMON dabei, welches ihnen über ASP-Seiten und Auswertungen von Performance Countern (WMI) den Status ihrer Exchange Organisation, der Warteschlangen und wichtiger Serverparameter anzeigt. So erhalten sie sehr schnell einen Status.
  • Alarmierung
    Sie sollten alle Hilfsmittel nutzen, um von Fehlern eine Information zu erhalten.
    Der Performance Monitor kann permanent Betriebsparameter (z.B.: die Warteschlange des MTA) überwachen und beim Überschreiten oder auch unterschreiten von von Grenzwerten eine Programm starten. Diese könnte Sie dann per SMS, Pager oder Netzwerknachricht informieren
  • Backup Protokoll
    Sie sichern hoffentlich Exchange "Richtig", d.h. Online. Ihre Backupsoftware sollte dann auch sauber ein Backupprotokoll schreiben und ihnen auch bei einem Fehler Bescheid sagen. Sie erkennen auch im Eventlog den Start und das Ende eines Backup. Wenn Sie bisher nicht überwachen, dann sollten sie JETZT einfach als Stichprobe mal nachsehen, ob ihr Backup gestern gelaufen ist
  • OWA-Kontrolle
    Wenn Sie Outlook Webzugriff anbieten, dann sollten Sie sich überlegen, eine Testroutine zu bauen, die die Funktion überprüft. Bei der ersten Stufe reicht das regelmäßige abholen der Startseite per WGET oder HTTPGET und ein FC (Filecompare) mit einem Sollwert. So sehen Sie , dass ihr OWA noch läuft und dass er nicht "verändert" wurde. Über Dienste wie www.anonymoizer.com oder www.rewebber.de können sie in einem Aufwasch auch noch ihren Proxy Server und die Erreichbarkeit von außen testen
  • RPCPING / PING
    Sie können mit den Programme RPCPING aus dem Ressource Kit jederzeit eine gegenseitige Kontrolle der RPC-Kommunikation zwischen Servern aufbauen. Ein RPCPING z.B. alle 10 Minuten mit einer Auswertung der Rückgabe kann rechtzeitig ihnen Fehler oder unterbrochene Leitungen signalisieren. Das geht natürlich auch mit PING.
  • ISINTEG und ESEUtil
    Früher wurden Exchange Server regelmäßig heruntergefahren und auf der Datenbank ein Konsistenzcheck mit ISINTEG etc. gemacht. Dies ist glücklicherweise nicht mehr notwendig, da Exchange 5.5 mit SP1 diese Prüfungen online durchführt. Auch ein Backup sorgt für einen Check der Datenbank auf Basis der CRC-Prüfsummen. Diese Routinetätigkeit ist daher nicht mehr anzuraten.
  • Verbindungsleitungskontrolle
    Wenn Sie mehr als einen Standort haben haben oder eine Internetanbindung vorhanden ist, dann kann es von Interesse sein, die Belastung dieser Weitverkehrsstrecken zu können. Auch beim Einsatz von RAS-Servern ist der Nutzungsgrad der Modems interessant, so dass Sie früher als ihre Anwender merken, wenn die Besetztrate oder die Geschwindigkeit aufgrund intensiver Benutzung ihre Grenzwerte und zugesicherte Leistung überschreiten.

Soweit sollen meine Anregungen zur Überwachung und Kontrolle eines Exchange Servers auf dieser Webseite reichen. Die Umsetzung der einzelnen Prüfpunkte kann manuell oder besser noch automatisch erfolgen. Allerdings gibt es dazu nicht nur einen gangbaren Weg, sondern viele Möglichkeiten, um die gewünschten Kontrollen durchzuführen. Zudem sind individuell für jeden Server und jede Umgebung die Grenzwerte und Alarmschwellen zu ermitteln. Getreu dem Motto alle Elektriker "wer misst, misst meistens Mist" ist hier ein gesundes Verhältnis zwischen Interfallen, Datenmenge und Alarmierung zu finden. Hunderte von Alarmen täglich werden genauso schnell ignoriert, wie mangelhafte Datenmengen, die im Falle eines Falles keine Auswertung mehr zulassen.

Ich kann Ihnen aber hier anbieten, im Rahmen eines Projektauftrags mit ihnen Zusammen eine Lösung zu erarbeiten.

Welche Produkt ist das Beste ?

Es gibt wahrlich sehr viele Tools zur Überwachung von Servern und Netzwerken auf dem Markt und die Bandbreite reicht von kostenfreien FreeWare Tools wie (MRTG Monitoring und Nagios (http://www.nagios.org bzw. http://www.icinga.org/ ) über Produkte für den kleinen Geldbeutel wie HostMon und ähnlich bis zu kommerziellen Produkten wie MOM2005 und ähnlichen.

Für welches Produkt Sie sich entscheiden hängt von ihren Anforderungen ab. Meist werden Sie zwei oder drei Produkte oder Tools kombinieren, denn jedes der Produkte hat Stärken und Schwächen. So kann MOM2005 sehr gut Windows Server überwachen, aber für die Überwachung von WAN-Verbindungen, Switches und Unix-Systeme eignet es sich ohne zusätzliche  Produkte weniger gut. Sehr viele Hersteller entwickeln aber entsprechende Management Packs um eben dies zu reduzieren. Das gleiche Bild zeigt sich aber auch bei anderen Produkten, die oft erst durch Zusatzmodule zur Hochform auflaufen. Daher sind fast alle Produkte auch so gebaut, dass Sie ihre Meldungen an ein anderes System weitergeben können oder ihrerseits Meldungen von anderen Systemen mit einbeziehen können.

Eine etwas leichtere Entscheidung können Sie aber beim Produkt hinsichtlich des Betriebssystems treffen: Die Installation, Einbindung und Konfiguration das A. Und O. einer Überwachungslösung. Alles Überwachen können Sie nicht, weil sich dann das System selbst beschäftigt und der überwachende Server zu viele Daten sammelt. Aber ein Problem nicht zu erkennen, weil zu wenig überwacht wird, ist ebenso fatal. Das Know-how, was nun wie zu überwachen ist, steckt aber nicht in dem eigentlichen Überwachungsprodukt, sondern ist Ergebnis ihrer Konfiguration oder Voreinstellungen durch produktspezifische Knowledge Packs. Diese gibt es z.B. für die verschiedensten Produkte (BMC, HPOpenView, MOM etc.) von dem Hersteller der Management Software oder dem Produkthersteller. Sofern die Management Lösung den Export eigener erlaubt, gibt es auf auch eine Community von Personen die gegenseitig ihre meist kostenfrei Pakete zur Verfügung stellen.

Aber zuletzt benötigen Sie natürlich das Know-how den Überwachungsserver selbst zu betreiben. Wer hier eher in der Windows Welt zuhause ist, wird eine Überwachungslösung basierend auf Windows vorziehen. Eine generell bessere oder schlechtere Eignung eines speziellen Betriebssystems kann ich nicht ausmachen. Es gibt aber sicher einige Produkte, die nicht für beide Plattformen zur Verfügung stehen. So z.B. Nagios (Unix) und MOM (Windows)

Bewertungskriterien

Es gibt sehr viele unterschiedliche Programme zur Überwachung von Systemen und Servern. Viele Hersteller liefern teilweise schon Produkte für ihre eigene Hardwareüberwachung mit. für die Überwachung von Windows und besonders Exchange ist aber mehr gefragt als nur ab und an ein PING abzusetzen oder einen numerischen Wert auszulesen. Hier ein paar Kriterien zur Bewertung von Produkten.

Eventlog

Das Windows Eventlog enthält normalerweise alle kritischen Meldungen eines Server. Wird das Diagnoseprotokoll aktiviert, dann stehen sogar noch sehr viel mehr Meldungen im Eventlog, die verarbeitet werden sollten. Siehe auch Überwachung von Exchange - Eventlog

Funktion MOM2005 Produkt2

Eventlog Überwachen
Kann das Programm einfach Eventlogs mehrerer Server überwachen und zentral konsolidieren (Datenbank)

Ja

 

Meldung von Ausbleibenden Eventlogs ?

Ja

 

Konsolidierung mehrerer gleicher Meldungen ?

Ja

 

Gibt es ein Exchange Template zur Überwachung der sinnvollen Events ?
z.B. Alarm wenn 9551 Fehler (Siehe auch 9551-Melder, -1018 Fehler etc

Exchange Management Pack

 

 

 

 

Performance Counter

Viele wichtige Aussagen zur Leistung und Verfügbarkeit lassen sich bei Windows und Exchange aus den Performance Countern (Siehe Exchange Überwachungspraxis - Perfmon) auslesen.

Funktion MOM2005 Produkt2

Performance Counter
Kann das Produkt überhaupt einfach Performance Counter auslesen und bei Überschreitung von Grenzwerten alarmieren ?

Ja

 

Historische Aufzeichnung
Können die Werte auch längere Zeit vorgehalten werden, so dass auch nach einigen Stunden die Werte von damals ausgewertet werden können

Ja

 

Konsolidierung
d.h. ältere Werte zur Reduzierung der Datenbankgröße zusammenfassen

Ja Vollversion

 

Vorgefertigte Überwachungen
Gibt es ein Exchange Template zur Überwachung der sinnvollen Counter ?

Exchange Management Pack

 

Funktionskontrolle

Was Eventlog und Perfmon nicht leisten sind aktive Prüfungen von Funktionen. Bei Exchange könnte das  z.B.: eine Anmeldung per POP3 sein, eine Testmail etc.

Funktion MOM2005 Produkt2

Funktionsskripte

Ja
Management Packs

 

vorgefertigte Funktionsskripte

Ja
Management Packs

 

Exchange: TestMails, MAPI-Logon, POP3-Logon, Antwortzeiten etc. (Siehe MOM2005)

Ja
Exchange Management Pack

 

Nett ist auch immer die Funktion, wenn die Ergebnisse anderer Programme (MBSA, ExPBA etc.) ebenfalls einen Status im Monitoring System einstellen können.

Integration

Funktion MOM2005 Produkt2

Einbinden anderer Überwachungstools
Meist ist nicht nur ein sondern es sind mehrere spezialisierte Programme im Einsatz. können deren Meldungen alle in eine Konsole zusammengefasst werden ?

Ja, über Management Packs, z.B. DELL, FSC

 

SNMP
Kann das System Statusinformationen und Werte  über SNMP auslesen und übernehmen ? Im Detail ist dann noch zu klären, ob Werte auch gespeichert und als Grafik aufbereitet werden können.

über WMI oder VBS

 

SNMP Trap
Kann das System Meldungen in Form von SNMPTraps entgegen nehmen

 

 

Syslog
Kann das System SYSLOG-Meldungen entgegen nehmen ?

 

 

Agentless und Agentgesteuert ?

Ja

 

Betriebssysteme Windows, Unix, andere
Sehr viele Netzwerk sind zwar mit Windows Servern bestückt, aber eine Infrastruktur besteht aus weit mehr Systemen, z.B.: Bandlaufwerke, Switches, Router, Hostsysteme, Drucker etc. können diese ebenfalls überwacht werden und wenn ja, wie gut ?

Bedingt, Drittprodukte

 

Redundanz, Cluster
Könne zwei Systeme parallel die Server überwachen ?

Vollversion

 

Kaskadierung
Kann eine Managementstation ihre Fehler z.B. an einen Dienstleister melden ?

Vollversion

 

Berechtigung
Erlaubt das System die Vergabe von Berechtigungen und administrativen Gruppen, d.h. wer das System konfigurieren darf (Administrator) und wer dann das System bedienen darf (Operatoren)

Ja
Administrator
Operatorengruppen

 

Reporting

Wenn das Management System schon Counter aufzeichnet, dann könnte es auch für die Erstellung Berichten heran gezogen werden. Was auf der einen Seite z.B. als Überwachung der Postfachgröße dient kann auf der anderen Seite natürlich ebenso gut als Report der Postfachgrößen genutzt werden. Auch Langzeittrends (Wie schnell wachsen die Postfächer und bestimmte öffentliche Ordner etc.) sind sehr hilfreich.

Funktion MOM2005 Produkt2

Server: Freie Plattenkapazität

Ja

 

Exchange Mailboxgröße und Datenbankgröße

Ja

 

Verfügbarkeit und Antwortzeiten

Ja

 

Status und Tracking

Funktion MOM2005 Produkt2

Alarm selbstlöschend
d.h. kann das System einen Status wieder auf grün setzen, wenn der Fehler alleine behoben wurde (z.B.: angezeigt durch einen anderen Event

Ja

 

"Management View"
Ansicht für die IT-Leiter und höher, um schnell einen Überblick zu erhalten

Ja
z.B. als WebSeite im Intranet einzubinden

 

Zur Bewertung sollten Sie nicht nur die Funktionalität als solches gewichten, sondern auch der Zeitbedarf für die Einrichtung. Gerade beim Thema Eventlog haben Sie beim Einsatz von MOM in einer Microsoft Umgebung natürlich durch die Management Packs einen riesigen Vorsprung, den Sie mit anderen Produkten erst mühsam selbst erarbeiten müssten. Allerdings gibt es auch für andere Produkte (z.B. HP OpenView etc.) regelrechte Communities, in denen entsprechende Einstellungen ausgetauscht werden können. Daher ist es wichtig, dass die individuellen Einstellungen einfach exportiert und importiert werden können.

Weitere Links

Es gibt sicher noch mehr Produkte und Lösungen. Sie sollten sich auf jeden Fall mehrere Produkte ansehen um die unterschiede zu erkennen und ihre Anforderungen zu definieren. Meist werden Sie sogar eine Sammlung verschiedener kleiner Programme einsetzen als vielleicht ein großes Paket, welches Sie dann nicht mehr handhaben können.