Tags: vSphere, Hochverfügbarkeit, Cluster
vSphere HA schützt VMs bei Host-Ausfällen, indem es sie auf einem anderen Server neu startet. Bleiben die Taktsignale aus, dann versucht es durch Analyse des Fehlers unnötige Neustarts zu vermeiden. Ähnliche Health-Checks bietet HA auch für das Gast-OS sowie Anwendungen und kann notfalls die VM zurücksetzen.
Schutz ist bei vSphere HA eigentlich das falsche Wort, weil es im Gegensatz zu vSphere Fault Tolerance nicht fehlertolerant ist. vSphere HA startet bei Host-Fehlern aber VMs, sofern sich deren virtuelle Disks auf einem Shared Storage befinden, auf einem anderen Host neu.
Den Ausfall eines Hosts bemerkt der Master-Host im HA-Cluster anhand des Ausbleibens von HA-Taktsignalen, die er mit Slave-Hosts über den VMKernel-Adapter Management austauscht.
Weitere Fehlerszenarien
Über die Jahre hat VMware sein vSphere HA (auch ESXi HA) verfeinert, so dass es nicht nur Host-Ausfälle erkennen kann und darauf mit dem Neustarten der betroffenen VMs reagiert. So könnte HA-Taktsignale über das Management-Netzwerk auch durch Netzwerkfehler ausbleiben.
Der ausgeklügelte Fehlererkennungs-Algorithmus des vSphere-HA-Fault Domain Managers ist aber in der Lage, Host- von Netzwerkausfällen (Host-Isolierung oder Netzwerk-Partitionierung) zu unterscheiden, indem er Pings für Liveness mit solchen für konfigurierte Isolationsadressen kombiniert.
Im Gegensatz zur Standardreaktion "VM neu starten" bei Host-Ausfällen ist die passende Antwort bei Netzwerkfehlern aber frei konfigurierbar, weil die richtige Reaktion von den spezifischen Gegebenheiten bei Speicher- oder Management-Netzwerk abhängt.
Seit vSphere 6 kann ESXi HA auch Datastore-Zugriffsfehler (APD oder PDL) erkennen und voneinander unterscheiden. Das Feature heißt VM Komponenten Schutz (VMCP). In diesem Fall laufen Host und VMs noch, diese erreichen aber Ihren VMDKs nicht mehr.
Auch hier ist der Neustart von VMs nicht immer die richtige Option. Daher sind alle Antworten auf die verschiedenen Szenarien konfigurierbar (siehe dazu: vSphere-HA: Antworten auf Fehler im Cluster konfigurieren).
VM- und Anwendungsschutz
Darüber hinaus gibt es noch zwei weitere Fehler-Szenarien, mit denen vSphere HA umgehen kann, nämlich den direkten Schutz von VMs und Anwendungen. Dabei fallen VMs nicht aus, weil deren Host betroffen ist, sondern das Gastsystem und die Anwendung selbst.
Für die Überwachung tauschen Gastsystem und Anwendung ebenfalls eine eigene Art von Taktsignalen mit Hilfe der VMware Tools aus, welche daher zur Nutzung dieses Features installiert sein müssen. Bleiben diese aus, startet vSphere HA die VM neu.
Beim Einschalten des Features kann man zwischen Nur VM Überwachung und VM- und Anwendungsüberwachung wählen.
Der VM-Überwachungsdienst überprüft anhand der regelmäßigen Taktsignale sowie der I/O-Aktivität des VMware-Tools-Prozesses, der im Gastbetriebssystem läuft, ob die virtuellen Maschinen im Cluster noch ausgeführt werden.
Wenn innerhalb des Fehlerintervalls keine Taktsignale empfangen werden, wird zusätzlich das I/O-Statistikintervall (ein Attribut auf Cluster-Ebene) geprüft. Dieses bestimmt, ob während der vergangenen zwei Minuten von der virtuellen Maschine ein Festplatten- oder Netzwerkzugriff ausgegangen ist.
Trifft das nicht zu, dann wird die virtuelle Maschine zurückgesetzt. Der Standardwert von 120 Sekunden lässt sich in den erweiterten Optionen mit dem Parameter
das.iostatsinterval
anpassen.
vSphere Guest SDK
Die Anwendungsüberwachung klingt erstmal interessant, kommt aber nur selten zum Einsatz. Hier die Erklärung: Dafür braucht man eine Applikation, die das vSphere HA Application Monitoring API unterstützt und in der Lage ist, entsprechende Taktsignale zu verarbeiten. Das für die Entwicklung solcher Programme erforderliche vSphere Guest SDK kann von VMware heruntergeladen werden.
Ist die Anwendung dank SDK für die Überwachung bereit, arbeitet das Feature ähnlich wie die VM-Überwachung. Wenn die Taktsignale für eine Applikation nicht innerhalb einer angegebenen Frist empfangen werden, startet deren virtuelle Maschine neu.
Nicht vorbereitete Anwendungen überwachen
Summa summarum ist das Feature also erstmal nur sinnvoll, wenn man selbst eine neue Anwendung programmiert und das SDK integriert. Man kann jedoch die Überwachung im Gastbetriebssystem für Application HA beispielsweise auch mit vCenter Hyperic erweitern.
Das Produkt wird allerdings seit 2020 nicht mehr von VMware verkauft bzw. ist eingestellt. Es konnte mit Hilfe spezieller Agenten, die in jeder der überwachten VMs installiert sind, den Neustart der Anwendung auslösen.
Außerdem ist es theoretisch möglich, Anwendungen über vRealize LogInsight mithilfe des Microsoft Content Packs zu überwachen. Es unterstützt Windows-VMs und benötigt dazu kleine leichtgewichtige Agenten. Es liefert verwertbare Daten für Windows-Betriebsmanager, insbesondere zur Fehlerbehebung und Ermittlung von Problemen.
Täglich Know-how für IT-Pros mit unserem Newsletter
Thomas Drilling arbeitet seit mehr als 20 Jahren selbständig als Redakteur und Autor für viele ehemalige und aktuelle IT-Magazine sowie Blogs. Thomas ist zudem Buchautor und IT-Consultant.
Seit 5 Jahren ist Thomas neben seiner journalistischen Tätigkeit hauptberuflicher, selbständiger IT-Trainer für VMware und Microsoft.
Seine Themenschwerpunkte sind Virtualisierung und Cloud Computing, speziell VMware, Amazon Web Services, Google Cloud und Microsoft Azure. Thomas ist zertifizierter VMware Professional, Advanced Professional und wurde von VMware in den Jahren 2016, 2017, 2018, 2019 und 2020 mit dem Blogger-Status vExpert ausgezeichnet.
Thomas ist außerdem zertifizierter AWS Solutions Architect, Sysops Engineer und Devops Engineer sowie Microsoft Certified Azure Administrator.
Thomas führt aktuell jeden zweiten Montag einen 4-tägigen Grundlagenkurs in Cloud Computing mit AWS via Zoom-Meeting durch. Weitere Informationen und Anmeldung über sein AWS-Blog.
Ähnliche Beiträge
Weitere Links