VMs bei Absturz des Gast-OS über vSphere HA Application Monitoring neu starten


    Tags: , ,

    VMware vSphere HAvSphere HA schützt VMs bei Host-Aus­fällen, in­dem es sie auf einem anderen Server neu star­tet. Bleiben die Takt­signale aus, dann ver­sucht es durch Ana­lyse des Fehlers un­nötige Neu­starts zu vermeiden. Ähnliche Health-Checks bietet HA auch für das Gast-OS sowie Anwen­dungen und kann not­falls die VM zurück­setzen.

    Schutz ist bei vSphere HA eigentlich das falsche Wort, weil es im Gegensatz zu vSphere Fault Tolerance nicht fehlertolerant ist. vSphere HA startet bei Host-Fehlern aber VMs, sofern sich deren virtuelle Disks auf einem Shared Storage befinden, auf einem anderen Host neu.

    Den Ausfall eines Hosts bemerkt der Master-Host im HA-Cluster anhand des Ausbleibens von HA-Takt­signalen, die er mit Slave-Hosts über den VMKernel-Adapter Management austauscht.

    Die Architektur von vSphere HA. Quelle: Duncan Epping/Frank Dennemann (VMware).

    Weitere Fehlerszenarien

    Über die Jahre hat VMware sein vSphere HA (auch ESXi HA) verfeinert, so dass es nicht nur Host-Ausfälle erkennen kann und darauf mit dem Neustarten der betroffenen VMs reagiert. So könnte HA-Taktsignale über das Management-Netzwerk auch durch Netzwerkfehler ausbleiben.

    Der ausgeklügelte Fehlererkennungs-Algorithmus des vSphere-HA-Fault Domain Managers ist aber in der Lage, Host- von Netzwerk­ausfällen (Host-Isolierung oder Netzwerk-Partitionierung) zu unterscheiden, indem er Pings für Liveness mit solchen für konfigurierte Isolations­adressen kombiniert.

    Im Gegensatz zur Standard­reaktion "VM neu starten" bei Host-Ausfällen ist die passende Antwort bei Netzwerk­fehlern aber frei konfigurierbar, weil die richtige Reaktion von den spezifischen Gegebenheiten bei Speicher- oder Management-Netzwerk abhängt.

    Seit vSphere 6 kann ESXi HA auch Datastore-Zugriffsfehler (APD oder PDL) erkennen und von­einander unterscheiden. Das Feature heißt VM Komponenten Schutz (VMCP). In diesem Fall laufen Host und VMs noch, diese erreichen aber Ihren VMDKs nicht mehr.

    Auch hier ist der Neustart von VMs nicht immer die richtige Option. Daher sind alle Antworten auf die verschiedenen Szenarien konfigurierbar (siehe dazu: vSphere-HA: Antworten auf Fehler im Cluster konfigurieren).

    Konfiguration der Antworten von HA auf vorgegebene Fehlertypen

    VM- und Anwendungsschutz

    Darüber hinaus gibt es noch zwei weitere Fehler-Szenarien, mit denen vSphere HA umgehen kann, nämlich den direkten Schutz von VMs und Anwendungen. Dabei fallen VMs nicht aus, weil deren Host betroffen ist, sondern das Gastsystem und die Anwendung selbst.

    Für die Überwachung tauschen Gastsystem und Anwendung ebenfalls eine eigene Art von Taktsignalen mit Hilfe der VMware Tools aus, welche daher zur Nutzung dieses Features installiert sein müssen. Bleiben diese aus, startet vSphere HA die VM neu.

    Beim Einschalten des Features kann man zwischen Nur VM Überwachung und VM- und Anwendungs­überwachung wählen.

    Optionen für die VM-Überwachung im vSphere Client

    Der VM-Überwachungs­dienst überprüft anhand der regelmäßigen Taktsignale sowie der I/O-Aktivität des VMware-Tools-Prozesses, der im Gast­betriebs­system läuft, ob die virtuellen Maschinen im Cluster noch ausgeführt werden.

    Wenn innerhalb des Fehlerintervalls keine Taktsignale empfangen werden, wird zusätzlich das I/O-Statistikintervall (ein Attribut auf Cluster-Ebene) geprüft. Dieses bestimmt, ob während der vergangenen zwei Minuten von der virtuellen Maschine ein Festplatten- oder Netzwerkzugriff ausgegangen ist.

    Trifft das nicht zu, dann wird die virtuelle Maschine zurückgesetzt. Der Standardwert von 120 Sekunden lässt sich in den erweiterten Optionen mit dem Parameter

    das.iostatsinterval

    anpassen.

    vSphere Guest SDK

    Die Anwendungs­überwachung klingt erstmal interessant, kommt aber nur selten zum Einsatz. Hier die Erklärung: Dafür braucht man eine Applikation, die das vSphere HA Application Monitoring API unterstützt und in der Lage ist, entsprechende Taktsignale zu verarbeiten. Das für die Entwicklung solcher Programme erforderliche vSphere Guest SDK kann von VMware herunter­geladen werden.

    Ist die Anwendung dank SDK für die Überwachung bereit, arbeitet das Feature ähnlich wie die VM-Überwachung. Wenn die Taktsignale für eine Applikation nicht innerhalb einer angegebenen Frist empfangen werden, startet deren virtuelle Maschine neu.

    Mit dem vSphere Guest SDK können Entwickler ihre Anwendungen für Anwendungs­überwachung befähigen.

    Nicht vorbereitete Anwendungen überwachen

    Summa summarum ist das Feature also erstmal nur sinnvoll, wenn man selbst eine neue Anwendung programmiert und das SDK integriert. Man kann jedoch die Überwachung im Gast­betriebs­system für Application HA beispielsweise auch mit vCenter Hyperic erweitern.

    Das Produkt wird allerdings seit 2020 nicht mehr von VMware verkauft bzw. ist eingestellt. Es konnte mit Hilfe spezieller Agenten, die in jeder der überwachten VMs installiert sind, den Neustart der Anwendung auslösen.

    Außerdem ist es theoretisch möglich, Anwendungen über vRealize LogInsight mithilfe des Microsoft Content Packs zu überwachen. Es unterstützt Windows-VMs und benötigt dazu kleine leicht­gewichtige Agenten. Es liefert verwertbare Daten für Windows-Betriebsmanager, insbesondere zur Fehlerbehebung und Ermittlung von Problemen.

    Täglich Know-how für IT-Pros mit unserem Newsletter

    Wir ver­wenden Ihre Mail-Adresse nur für den Ver­sand der News­letter.
    Es erfolgt keine per­sonen­be­zogene Auswertung.

    Bild von Thomas Drilling

    Thomas Drilling arbeitet seit mehr als 20 Jahren selb­ständig als Redakteur und Autor für viele ehe­malige und aktuelle IT-Magazine sowie Blogs. Thomas ist zudem Buch­autor und IT-Consultant.

    Seit 5 Jahren ist Thomas neben seiner journa­listischen Tätig­keit haupt­beruflicher, selb­ständiger IT-Trainer für VMware und Microsoft.

    Seine Themen­schwer­punkte sind Virtua­lisierung und Cloud Com­puting, speziell VMware, Amazon Web Services, Google Cloud und Microsoft Azure. Thomas ist zerti­fi­zierter VMware Professional, Advanced Professional und wurde von VMware in den Jahren 2016, 2017, 2018, 2019 und 2020 mit dem Blogger-Status vExpert ausge­zeichnet.

    Thomas ist außerdem zertifi­zierter AWS Solu­tions Archi­tect, Sysops Engineer und Devops Engineer sowie Microsoft Certified Azure Admini­strator.

    Thomas führt aktuell jeden zwei­ten Mon­tag einen 4-tägigen Grund­lagenkurs in Cloud Computing mit AWS via Zoom-Meeting durch. Weitere Infor­mationen und Anmel­dung über sein AWS-Blog.

    Ähnliche Beiträge

    Weitere Links