Tags: vSphere, Hochverfügbarkeit, Cluster
vSphere HA schützt VMs bei Host-Ausfällen, indem es sie auf einem anderen Server neu startet. Bleiben die Taktsignale aus, dann versucht es durch Analyse des Fehlers unnötige Neustarts zu vermeiden. Ähnliche Health-Checks bietet HA auch für das Gast-OS sowie Anwendungen und kann notfalls die VM zurücksetzen.
Schutz ist bei vSphere HA eigentlich das falsche Wort, weil es im Gegensatz zu vSphere Fault Tolerance nicht fehlertolerant ist. vSphere HA startet bei Host-Fehlern aber VMs, sofern sich deren virtuelle Disks auf einem Shared Storage befinden, auf einem anderen Host neu.
Den Ausfall eines Hosts bemerkt der Master-Host im HA-Cluster anhand des Ausbleibens von HA-Taktsignalen, die er mit Slave-Hosts über den VMKernel-Adapter Management austauscht.
Weitere Fehlerszenarien
Über die Jahre hat VMware sein vSphere HA (auch ESXi HA) verfeinert, so dass es nicht nur Host-Ausfälle erkennen kann und darauf mit dem Neustarten der betroffenen VMs reagiert. So könnte HA-Taktsignale über das Management-Netzwerk auch durch Netzwerkfehler ausbleiben.
Der ausgeklügelte Fehlererkennungs-Algorithmus des vSphere-HA-Fault Domain Managers ist aber in der Lage, Host- von Netzwerkausfällen (Host-Isolierung oder Netzwerk-Partitionierung) zu unterscheiden, indem er Pings für Liveness mit solchen für konfigurierte Isolationsadressen kombiniert.
Im Gegensatz zur Standardreaktion "VM neu starten" bei Host-Ausfällen ist die passende Antwort bei Netzwerkfehlern aber frei konfigurierbar, weil die richtige Reaktion von den spezifischen Gegebenheiten bei Speicher- oder Management-Netzwerk abhängt.
Seit vSphere 6 kann ESXi HA auch Datastore-Zugriffsfehler (APD oder PDL) erkennen und voneinander unterscheiden. Das Feature heißt VM Komponenten Schutz (VMCP). In diesem Fall laufen Host und VMs noch, diese erreichen aber Ihren VMDKs nicht mehr.
Auch hier ist der Neustart von VMs nicht immer die richtige Option. Daher sind alle Antworten auf die verschiedenen Szenarien konfigurierbar (siehe dazu: vSphere-HA: Antworten auf Fehler im Cluster konfigurieren).
VM- und Anwendungsschutz
Darüber hinaus gibt es noch zwei weitere Fehler-Szenarien, mit denen vSphere HA umgehen kann, nämlich den direkten Schutz von VMs und Anwendungen. Dabei fallen VMs nicht aus, weil deren Host betroffen ist, sondern das Gastsystem und die Anwendung selbst.
Für die Überwachung tauschen Gastsystem und Anwendung ebenfalls eine eigene Art von Taktsignalen mit Hilfe der VMware Tools aus, welche daher zur Nutzung dieses Features installiert sein müssen. Bleiben diese aus, startet vSphere HA die VM neu.
Beim Einschalten des Features kann man zwischen Nur VM Überwachung und VM- und Anwendungsüberwachung wählen.
Der VM-Überwachungsdienst überprüft anhand der regelmäßigen Taktsignale sowie der I/O-Aktivität des VMware-Tools-Prozesses, der im Gastbetriebssystem läuft, ob die virtuellen Maschinen im Cluster noch ausgeführt werden.
Wenn innerhalb des Fehlerintervalls keine Taktsignale empfangen werden, wird zusätzlich das I/O-Statistikintervall (ein Attribut auf Cluster-Ebene) geprüft. Dieses bestimmt, ob während der vergangenen zwei Minuten von der virtuellen Maschine ein Festplatten- oder Netzwerkzugriff ausgegangen ist.
Trifft das nicht zu, dann wird die virtuelle Maschine zurückgesetzt. Der Standardwert von 120 Sekunden lässt sich in den erweiterten Optionen mit dem Parameter
das.iostatsinterval
anpassen.
vSphere Guest SDK
Die Anwendungsüberwachung klingt erstmal interessant, kommt aber nur selten zum Einsatz. Hier die Erklärung: Dafür braucht man eine Applikation, die das vSphere HA Application Monitoring API unterstützt und in der Lage ist, entsprechende Taktsignale zu verarbeiten. Das für die Entwicklung solcher Programme erforderliche vSphere Guest SDK kann von VMware heruntergeladen werden.
Ist die Anwendung dank SDK für die Überwachung bereit, arbeitet das Feature ähnlich wie die VM-Überwachung. Wenn die Taktsignale für eine Applikation nicht innerhalb einer angegebenen Frist empfangen werden, startet deren virtuelle Maschine neu.
Nicht vorbereitete Anwendungen überwachen
Summa summarum ist das Feature also erstmal nur sinnvoll, wenn man selbst eine neue Anwendung programmiert und das SDK integriert. Man kann jedoch die Überwachung im Gastbetriebssystem für Application HA beispielsweise auch mit vCenter Hyperic erweitern.
Das Produkt wird allerdings seit 2020 nicht mehr von VMware verkauft bzw. ist eingestellt. Es konnte mit Hilfe spezieller Agenten, die in jeder der überwachten VMs installiert sind, den Neustart der Anwendung auslösen.
Außerdem ist es theoretisch möglich, Anwendungen über vRealize LogInsight mithilfe des Microsoft Content Packs zu überwachen. Es unterstützt Windows-VMs und benötigt dazu kleine leichtgewichtige Agenten. Es liefert verwertbare Daten für Windows-Betriebsmanager, insbesondere zur Fehlerbehebung und Ermittlung von Problemen.
Täglich Know-how für IT-Pros mit unserem Newsletter
Thomas Drilling arbeitet ist seit fast 30 Jahren selbständig in der IT-Welt sowohl als Consultant, als auch als Redakteur, Buchautor und Journalist für viele ehemalige und aktuelle IT-Magazine sowie Blogs.
Aktuell bestätigt sich Thomas schwerpunktmäßig als IT-Trainer für Cloud-Computing in den Bereichen Microsoft Azure, Amazon Web Services und VMware.
Thomas ist zertifizierter Microsoft-Trainer für nahe das gesamte Portfolio an Microsoft Azure Trainings. Thomas ist außerdem zertifizierter Microsoft Azure Solutions Architect Expert sowie VMware Certified Professional und wurde von VMware in den Jahren 2016 bis 2022 mit dem Blogger-Status vExpert ausgezeichnet.
Thomas führt aktuell jeden Monat zwei selbstkonziperte 4-tägigen Grundlagenkurse in Cloud Computing mit Azure durch, die sich inhaltlich bewusst von den Microsft-Kursen abheben und vorzuweise als Bootcamp in eine besonderen Lokation stattfinden. Optional kann aber aber auch remote via Microsoft Teams teilgenommen werden.
Das aktuelle Trainingsprogramm findet sich unter Azure-Trainings. Weitere Informationen und Anmeldung über sein Azure-Blog.
Verwandte Beiträge
Weitere Links