Anleitung: Cluster für High Availability (HA) in VMware vSphere erstellen

    Kurse zu Amazon Web Services: Technische Grundlagen und Bereitstellung von Cloud-Lösungen. Wunschtermine und Inhouse-Trainings möglich. Mehr Infos »

    (Anzeige)

    Funktionsweise eines HA-Clusters in vSphereEine wesent­liche Funktion von ESXi-Clustern besteht darin, die Hoch­verfüg­barkeit von virtuellen Maschinen zu gewähr­leisten. Diesem Zweck dient das Feature vSphere HA, welches VMs beim Ausfall eines Hosts auf einem anderen startet. Die Akti­vierung von HA bewirkt den auto­matischen Start der Host-Überwachung.

    Die Inbetrieb­nahme von vSphere-HA ist einfach. Ist noch kein Cluster-Objekt in vCenter vorhanden, dann genügt ein Rechtsklick auf das Datacenter, um einen ESXi-Verbund zu erstellen. Hierbei kann der Nutzer dann wahlweise die Cluster-Funktio­nalitäten HA, DRS, EVC oder vSAN (auch parallel) aktivieren.

    Start von Host-Überwachung und Zugangssteuerung

    Danach muss man nur noch die Hosts per Drag & Drop in den Cluster ziehen. Wer schon ein Cluster-Objekt hat, kann HA auch nachträglich aktivieren oder deaktivieren, etwa bei Wartungs­aufgaben im Netzwerk oder beim Herunter­fahren eines Hosts. Im Gegensatz zum Deaktivieren von DRS funktioniert das jederzeit auch ohne Umschalten in den Wartungsmodus.

    Der Assistent zum Erstellen eines HA-Cluster aktiviert automatisch die Host-Überwachung.

    Wie die Abbildung zeigt, aktiviert der HA-Assistent per Default die Host-Überwachung, die auch ohne weitere Detail-Konfiguration gut und weitgehend wartungsfrei funktioniert (der Standard-Response auf Ausfälle ist dann "VMs neu starten").

    Die Aktion schaltet zudem die Zugangs­steuerung an, welche das Berechnen bzw. Überwachen der Failover-Kapazität gestattet. Die VM-Überwachung bleibt per Vorgabe jedoch ausgeschaltet.

    Master-Slave-Modell

    Beim Aktivieren von vSphere-HA wird automatisch ein einzelner Host zum Master-Host bestimmt. Der Master-Host kommuniziert mit dem vCenter-Server und überwacht den Zustand aller geschützten virtuellen Maschinen und der Slave-Hosts.

    Hat man HA erfolgreich aktiviert, dann werden auf dem Master-Host und den Slave-Hosts die HA-Agenten gestartet und der vom Master initiierte Austausch der primären Taktsignale über das Management-Netzwerk sowie der Datastore-Taktsignale beginnt. Slaves tauschen unter­einander keine Taktsignale aus. Fällt der Master selbst aus, wird ein neuer Master gewählt.

    Funktionsweise des Fault Domain Manager

    Die Grafik zeigt, dass ein vCenter zwar für das Erstellen und Verwalten des HA-Clusters benötigt wird, wozu wie gehabt der vpxd-Daemon  und die vpxa-Agenten miteinander kommunizieren. Dagegen bleibt die HA-Funktionalität auf den Hosts auch ohne vCenter erhalten.

    Sie wird über den FDM (Fault Domain Manager) erbracht, der direkt mit dem Host-Daemon kommuniziert und - sofern er der Master-Agent ist - auch die die sekündlich ausgetauschten Takt-Signale über das Management-Netzwerk initiiert. Den aktuellen Betriebs­zustand und/oder Fehler-Status von vSphere HA erkennt der Admin jederzeit bei markiertem Cluster im Reiter Übersicht im Abschnitt HA Status.

    Die Übersicht zu vSphere HA liefert alle wichtigen Statusinformationen.

    Ausfallszenarien

    Aus der Sicht von vSphere HA sind verschiedene Ausfall-Szenarien vorstellbar, die der Master-Host erkennen und mit denen er angemessen umgehen soll. So muss er zum Beispiel zwischen einem ausgefallenen Host und einem Host unterscheiden, der sich in einer Netzwerk­partition befindet oder der netzwerk­isoliert ist. Dazu verwendet er die beschriebenen  Netzwerk- und Datenspeicher-Taktsignale.

    Der Administrator kann für Host-Isolierungen sowie Netzwerkfehler, VM-Ausfälle oder Storage-Fehler jeweils eigene Standard-Responses konfigurieren, mit denen HA auf diese Ereignisse reagiert. Außerdem erfordern mehrschichtige Anwendungen, die sich über mehrere VMs erstrecken, häufig einen orchestrierten VM-Restart. Auch dieser lässt sich konfigurieren.

    1 Kommentar

    Bild von Tim Brettschneider
    31. Juli 2018 - 18:33

    Toller Artikel und sehr ausführlich beschrieben!
    Wie würden Sie ein Ausfallszenario monitoren und erkennen?