Lync Ausfall

Haben Sie sich schon mal überlegt, was so alles in ihrer Lync Umgebung ausfallen kann?. Das ist beileibe nicht nur der einzelne Standardserver, mit dem sich viele Firmen wohl gerade beschäftigen.

Was kann ausfallen ?

Wer seriös eine Lync-Umgebung betreiben will, muss alle Aspekte berücksichtigen und für jeden Teilbereich vier Punkte klären:

  • Funktionsbeschreibung
    Welche Funktion nimmt die einzelne Komponente in dem Umfeld mit Lync ein?
  • Hochverfügbarkeit
    Wie wird die Verfügbarkeit beim Ausfall aber auch bei regulären Wartungen gewährleistet?
  • Sicherung
    Wie werden die Daten, Informationen, Konfigurationen dieser Komponente "gesichert" um bei einem Verlust oder Veränderung wieder wieder herstellen zu können?
  • Wiederherstellung
    Welche Schritte sind für die Wiederherstellung der Komponente erforderlich.

Schauen Sie mal auf das Bild, auf dem ich alleine 14 Punkte aufführe, von denen einige Punkte (z.B. 4) sogar noch aufgeteilt werden könnten:

Hier eine Erläuterung der einzelnen Komponenten. Es fällt ihnen vielleicht auf, dass die ersten 8 Elemente gar keine Lync-Komponenten sind. Es gibt also eine Menge Abhängigkeiten

Komponente Beschreibung

1

Gebäudeenvironment, also mechanischer Schutz, Strom, USB, Wasser, Zugangskontrolle, Kühlung

2

Netzwerkverbindungen, bestehend aus Router, Kabel, WAN-Links, Firewalls

3

Serverhardware, sei des der physikalische Lync Server oder die HyperV-Plattform, Storage aber auch Windows Basisbetrieb.

4

Infrastruktur bestehend aus DNS, DHCP, NTP, Domaincontroller, LDAP, Zertifikatsdienste etc.

5

Der Reverse Proxy sichert die Lync Webdienste aus dem Internet ab.

6

Loadbalancer sind für die Verteilung von HTTP-Traffic auf LyncWeb zuständig

7

Exchange UM ist die Voicemail und signalisiert ebenfalls "Missed Call".

8

Die Office Web Components Webdienste stellen Powerpoints als HTML5-in Meetings bereit, damit diese auch auf allen Clients mit Animationen angezeigt werden können.

9

Der eigentliche Lync Pool oder ein Server darin kann natürlich ein Problem haben.

10

User Backend Database, BuddyListe. Das kann der komplettausfall der Pooldatenbank sein oder auch nur der Verlust einer Buddyliste z.B.: beim Move eines users von einem ausgefallenen Pool (Lync 2010)

11 

Der Lync Fileshare ist bei Lync 2010 auf einem Cluster oder bei Lync 2013 kann DFS genutzt werden. Auch diese Daten sind gegen Verlust, Löschen, Ausfall zu sichern

12 

Die XDS-Datenbank enthält die Topologie und ein Verlust muss durch einen Restore wieder hergestellt werden. Gut, wer ab und an mit einem Export-CSConfiguration hier vorgesorgt hat.

13

Die Datenbanken CDR/QoE sind für das Monitoring und die Qualitätssicherung erforderlich und ein Verlust würde alte Daten und die Möglichkeit der Auswertung verbauen.

14

Die dynamischen Datenbanken RTCDyn, CPSDyn, RGCDyn müssen für die Funktion vorhanden sein. Allerdings ist ein Verlust nicht tragisch, da sie nur flüchtige Daten enthalten. Sie können also leer neu angelegt werden.

Sie sehen also, dass bei Fragen zur Verfügbarkeit von Lync oder Teilfunktionen die Sicht sich nicht auf die wenigen Lync Server beschränken darf, sondern immer das Gesamtsystem berücksichtigen muss.

Ein Backup/Recovery-Konzept muss also auch diese fremden Komponenten zumindest erwähnen und die zuständigen Personen und Ressourcen benennen. Und natürlich müssen für alle Komponenten auch auf ihre Hochverfügbarkeit beleuchtet werden, d.h. ob ein Ausfall einer Teilkomponente überhaupt einen merklichen Ausfall bedeutet. Womit wir dann direkt bei der Definition der SLAs (Service Level Agreements) sind, die man natürlich auch nach Funktionen unterscheiden kann, z. B. dass Telefonie eine höhere Verfügbarkeit (z.B. mit einer SBA) bereit gestellt wird als Konferenzfunktionen. Und direkt auf dem Fuß folgt dann natürlich die Kontrolle des SLA über ein Monitoring. Monitoring ist zudem auch hilfreich um Fehler von einzelnen, vielleicht hochverfügbaren, Komponenten zu erkennen, von denen die Anwender noch gar nichts wissen.

Eventuell komme ich zu späterer Zeit noch einmal dazu, zu jeder der Komponenten einen Backup und Recovery Plan für die MSXFAQ aufzubereiten. Bislang mache ich das individuell für Kunden.

Aber damit eine Wiederherstellung überhaupt erfolgreich sein kann, bedarf es schon einiger Vorarbeiten.

Strategien gegen den Ausfall

Bitte haben Sie Verständnis dafür, dass ich hier NICHT die Lösungen für alle Probleme der Welt beschreibe. Das hat weniger etwas mit nicht wollen denn eher mit nicht können ohne Kontakt mit der Umgebung oder dem Kunden zu haben. Sicher gibt es einfache Antworten auf einfache Fragen. Ein Loadbalancer kann man einfach durch einen zweiten verfügbar machen, Netzwerkverbindungen lassen sich über Trunks und Adapterteaming absichern und Gateways kann man ebenfalls redundant auslegen. Das sind aber alles direkte technische Antworten für einzelne Komponenten aber keine strukturelle Designs, Notfallpläne, Desasterstrategien und vor allem keine Schulung der Betreiber.

Wen jemand heute Lync "Hochverfügbar" bereitstellen möchte, sei es für den Eigenbetrieb oder als Dienstleister, dann muss er nach meinem Verständnis von "Verfügbarkeit" nicht nur die Hardware und Software für den Kunden passend auslegen sondern auch das Betriebspersonal entsprechend unterweisen und Handlungsanleitungen entwerfen. Und das ist ein individuelle Prozess und würde den umfang der MSXFAQ und komplett sprengen.

Zumal es ja gar nicht "nur" um Lync geht, sondern sie die gesamte Prozesskette betrachten müssen. Allzu oft haben Firmen z.B. einen Windows Cluster als "Hochverfügbar" verkauft aber z.B. das Monitoring nicht korrekt ausgeführt. Und denken Sie mal an die "geplanten" Änderungen durch Updates, umbauten etc. Wie oft haben Sie ein "Das merkt keiner" gesagt und dann wurde es doch zu einem ungeplanten Ausfall., weil Sie eine Abhängigkeit nicht beachtet haben? Nicht umsonst arbeiten auch routinierte Piloten beim Start ihre Checkliste ab, der KFZ-Mechaniker seinen Wartungsplan, der TÜV-Prüfer sein Protokoll. Haben Sie z.B. dokumentierte und getestete Anleitungen für die Installation von Windows Updates ?

Weitere Links