Tags: vSphere, Troubleshooting
Bei der Fehlersuche in komplexen IT-Infrastrukturen muss man sich unabhängig von Art, Tools-Chain und Hersteller eine stringente Methodik angewöhnen, um sich nicht zu verzetteln. Dazu zählen Top-Down- und Bottom-Up-Analysen. Wie das in einer vSphere-Umgebung aussehen könnte, zeigt dieser Beitrag.
Nahezu alle IT-Infrastrukturen lassen sich in verschiedene Abstraktionsebenen zerlegen. Selbst wenn man sich nur auf einer davon bewegt, wie etwa dem zugrundeliegenden Netzwerk, lässt sich dieses in weitere Schichten aufteilen, deren Kenntnis im Rahmen des ISO/OSI-Modells auch bei der Fehlersuche hilft.
Beispiel für ein Netzwerkproblem
Ob man sich dabei am ISO/OSI-Modell mit seinen 7 Schichten oder dem Internet/DOD-Schichtenmodell mit 4 Ebenen orientiert, ist gar nicht so entscheidend. Wichtig ist aber in jedem Fall beurteilen zu können, ob bei der Ursachenforschung eine Top-Down-, Devide and Conquer- oder Bottom-Up-Analyse sinnvoller ist.
Reagiert beispielsweise ein Web-Server nicht auf Anfragen auf Port 443, lässt sich aber per Ping erreichen (ICMP-Protokoll), dann braucht man den Fehler in Kenntnis des OSI-Modells nicht im Layer-2, etwa bei der Switch-Konfiguration zu suchen.
Schichten einer virtuellen Infrastruktur
Ähnlich verhält es sich in einer Virtualisierungsinfrastrukrur wie VMware vSphere. Hier können wir die vier funktionalen Ebenen physische Hardware, ESXi-Host, virtuelle Maschine und Anwendung bzw. Guest OS unterscheiden, wie folgende Abbildung zeigt.
Symptomatik
Die größte Schwierigkeit besteht nun darin, ein auftretendes Symptom einer Ursache zuzuordnen. Aufgrund der oben skizzierten Funktionsebenen lässt sich diese nämlich nicht auf dem ersten Blick eindeutig ausmachen. Daher ist eine stringente Methodologie unbedingt einzuhalten. Eine solche könnte so aussehen:
- Definieren des Problems
- Identifizieren der Ursache
- Lösung implementieren
Problem-Arten
Probleme wiederum lassen sich grob klassifizieren. Typische Systemprobleme sind etwa
- Konfigurationsfehler
- Ressourcen-Engpässe
- Software-Bugs
- Defekte Hardware
- Netzwerk-Attacken
Systemprobleme können sich auf zahlreiche Aspekte auswirken, wie die Verwendbarkeit, Korrektheit, Zuverlässigkeit oder die Performance. Dabei ist es aber leider häufig auf dem ersten Blick so, dass die Symptome das Problem selbst zu sein scheinen. Daher ist das Sammeln von Symptomen immer der erste Schritt zur Problembehandlung.
Dabei ist zu beachten
- Eine einzige Ursache wird von den Benutzern möglicherweise in Form mehrerer Symptome gemeldet.
- Die Unterscheidung zwischen Symptomen und den Hauptursache eines Problems ist oft nicht einfach, aber zwingend erforderlich.
Dazu zwei Beispiele:
Symptom | Mögliche Ursache(n) | Wahre Wurzel des Problems |
---|---|---|
Nutzer kann sich nicht per vSphere Client zu vCenter verbinden | vCenter-Server-Dienst (vpxd) läuft nicht Netzwerkpfad zur vCenter-Appliance ist nicht verfügbar |
vCenter-Appliance-Datenbank defekt Der Router, der für die Bereitstellung der Route zwischen dem User-Desktop und dem vCenter-Server verantwortlich ist, ist ausgefallen oder defekt |
Eine oder mehrere LUNs auf dem Storage-Array sind auf einem bestimmten ESXi-Host nicht sichtbar | Pfad-Fehler zwischen ESXi-Host und Storage-Array Die LUNs sind nicht sichtbar, weil sie auf dem betreffenden Host nicht korrekt präsentiert werden |
Das Netzwerk bzw. der bevorzugte Pfad zwischen ESXi-Host und Storage-Array ist ausgefallen und kein redundanter Pfad verfügbar Am Storage-Array liegt ein Konfigurationsfehler vor, der durch eine kürzlich erfolgte Konfigurationsänderung auf dem Array verursacht wurde. |
Fehleranalyse
Ein erster Schritt zur systematischen Fehlersuche besteht dann darin, so viele Informationen wie möglich einzusammeln, die mit dem Problem potenziell im Zusammenhang stehen. Dazu ist es nützlich, sich folgende Fragen zu stellen.
- Kann das Problem reproduziert werden?
- Was ist der Reichweite des Problems? Tangiert es nur ein Objekt oder eventuelle mehrere?
- Bis wann hat das System vorher einwandfrei funktioniert? Falls ja, gab es Änderungen an der Umgebung oder der Konfiguration?
- Handelt es sich um ein bekanntes Problem? Hierzu ist es wichtig, Release Notes, Dokumentationen oder die Knowledge Base zu konsultieren. Meist reicht es auch schon, die Fehlermeldung (möglichst auf Englisch) in Google zu suchen.
Darüber hinaus muss man lernen, Fehler- und Diagnosemeldungen in der GUI oder in Log-Files richtig zu interpretieren.
Scheitert beispielsweise ein vMotion-Vorgang wie in der folgenden Abbildung, dann kann man schon durch aufmerksames Lesen der Fehlermeldung darauf schließen, dass das vMotion-Netzwerk falsch konfiguriert ist. Quell- und Ziel-Host können nämlich nicht über das vMotion-Netzwerk kommunizieren.
Forscht man im Event-Browser des vSphere-Clients etwas tiefer, findet man schnell das folgende zugeordnete Event:
Demnach funken die vMotion-Kernel-Adapter für Quell- und Ziel-Host offenbar nicht im gleichen Subnet (10.0.1.x/ 10.0.8.x), womit keine gültige Route zustande kommt. Einer von beiden muss also umkonfiguriert werden.
Beispiel für Top-Down-Analyse
Spielen wir nun ein Beispiel durch, wie man sich per Top-Down-Analyse zum so genannten Root-Cause vorarbeitet. Angenommen eine virtuelle Maschine antwortet nicht mehr. Wie lässt sich dieses Symptom sinnvoll je einer der vier Ebenen zuordnen?
![]() |
Das Problem wurde/wird durch eine Operation an/mit der virtuellen Maschine verursacht, etwa eine vMotion oder einen Snapshot. Falsch konfigurierte Ressource-Steuerung durch Shares oder Limits auf VM-Ebene sorgen dafür, dass sie zu wenige Ressourcen erhält, um zu antworten. Es sind nicht mehr ausreichend Host-Ressourcen wie CPU oder Memory verfügbar. Teile der der physischen Ressourcen sind nicht verfügbar. |
Lösung
Zur Lösung des Problems muss wie beschrieben der Root-Cause, also die wahre Ursache sicher identifiziert werden. Hat man die Ursache ermittelt, muss man die Auswirkungen des Problems auf die bestehenden Betriebsabläufe bewerten.
Ist die Auswirkung hoch, muss das Problem sofort gelöst werden. Ist die Auswirkung moderat, kann man das Problem beseitigen, wenn das zum gegenwärtigen Zeitpunkt möglich ist. Ansonsten verschiebt man die Lösung auf das nächste Wartungsfenster, genau wie bei Problemen mit geringen Auswirkungen auf die Betriebsabläufe.
Klassifizierung von Problemen durch VMware
In Bezug auf eine vSphere-Umgebung klassifiziert VMware mögliche Lösungen und deren Auswirkungen wie folgt:
- Eine kurzfristige Lösung ist ein Workaround, der es erlaubt, den Betrieb weiter laufen zu lassen.
- Eine langfristige Lösung würde dann eine Rekonfiguration innerhalb des nächsten Wartungsfensters erfordern.
Dabei muss man die Auswirkung der Lösung auf den laufenden Betrieb im Rahmen der Wirkungsanalyse beurteilen.
Täglich Know-how für IT-Pros mit unserem Newsletter
Thomas Drilling arbeitet ist seit fast 30 Jahren selbständig in der IT-Welt sowohl als Consultant, als auch als Redakteur, Buchautor und Journalist für viele ehemalige und aktuelle IT-Magazine sowie Blogs.
Aktuell bestätigt sich Thomas schwerpunktmäßig als IT-Trainer für Cloud-Computing in den Bereichen Microsoft Azure, Amazon Web Services und VMware.
Thomas ist zertifizierter Microsoft-Trainer für nahe das gesamte Portfolio an Microsoft Azure Trainings. Thomas ist außerdem zertifizierter Microsoft Azure Solutions Architect Expert sowie VMware Certified Professional und wurde von VMware in den Jahren 2016 bis 2022 mit dem Blogger-Status vExpert ausgezeichnet.
Thomas führt aktuell jeden Monat zwei selbstkonziperte 4-tägigen Grundlagenkurse in Cloud Computing mit Azure durch, die sich inhaltlich bewusst von den Microsft-Kursen abheben und vorzuweise als Bootcamp in eine besonderen Lokation stattfinden. Optional kann aber aber auch remote via Microsoft Teams teilgenommen werden.
Das aktuelle Trainingsprogramm findet sich unter Azure-Trainings. Weitere Informationen und Anmeldung über sein Azure-Blog.
Verwandte Beiträge
- VMware vCenter mit dem vSphere Diagnostic Tool analysieren
- VMware bringt App mit Benachrichtigungen zu Patches, Schwachstellen und Troubleshooting
- Lösung: vMotion ist im vSphere Client ausgegraut
- Tipps und Tools für die Diagnose von Netzwerkproblemen in VMware vSphere
- Troubleshooting von VMware vSphere: Logs, Events und Tasks
Weitere Links