Defekter RAID-Controller im UCS – LSI MegaRAID Fehlerdiagnose
VMs in einem Cisco UCS-Chassis fallen plötzlich aus, der vSphere-Zugriff funktioniert nicht mehr, und beim Neustart zeigt das System LSI MegaRAID-Fehlermeldungen. Ein defekter RAID-Controller oder ausgefallene Festplatten können eine ganze VMware-Infrastruktur lahmlegen. Hier ist der strukturierte Weg zur Diagnose und Lösung.
Symptome erkennen
Typische Anzeichen für einen MegaRAID-Problem im UCS-Umfeld:
– VMs gehen offline, ohne dass man sie gestoppt hat
– vSphere-Client kann keine Verbindung zum ESXi-Host aufbauen
– Beim Reboot erscheint im POST-Screen die Meldung No Configuration Present oder Enclosure X, Drive Y - Failed
– Das RAID-Set ist degraded oder offline
– Im CIMC/IMC-Log finden sich Controller-Fehlermeldungen
Neustart über das CIMC-Webinterface
Wenn ESXi nicht mehr reagiert, ist der erste Schritt ein Neustart über das Cisco Integrated Management Controller (CIMC)-Webinterface – das Out-of-Band-Management des UCS-Blades oder -Rackmounts. Das CIMC ist unabhängig vom Betriebssystem und funktioniert auch bei einem komplett hängenden System:
1. CIMC-IP-Adresse im Browser aufrufen (typisch im Management-VLAN)
2. Mit CIMC-Credentials einloggen (Standard: admin/password)
3. Unter Server → Power den Server neu starten (Power Cycle)
4. Unter Server → Remote Presence → Launch KVM Console den Bootvorgang beobachten
RAID-Status mit MegaCLI analysieren
Wenn das System noch bootet (oder von einem ESXi-USB/CD), analysiert man den RAID-Controller mit MegaCLI (bzw. dem moderneren StorCLI). Unter ESXi ist MegaCLI als VIB installierbar.
# Alle Controller anzeigen
MegaCli64 -AdpAllInfo -aALL
# RAID-Konfiguration anzeigen
MegaCli64 -LdInfo -Lall -aALL
# Alle Festplatten anzeigen
MegaCli64 -PDList -aALL
# Fehler-Log des Controllers
MegaCli64 -FwTermLog -Dsply -aALL
Besonders aufschlussreich ist der PDList-Output. Dort findet man den Status jeder einzelnen Festplatte: Online, Degraded, Failed oder Unconfigured Bad.
„No Configuration Present“ – was tun?
Die Meldung No Configuration Present bedeutet, dass der RAID-Controller keine RAID-Konfiguration findet. Das passiert wenn:
– Der Controller selbst defekt ist und seine Konfiguration verloren hat
– Mehrere Festplatten gleichzeitig ausgefallen sind
– Die Festplatten physisch neu gesteckt und in falscher Reihenfolge angeschlossen wurden
– Der Controller ausgetauscht wurde, ohne die Konfiguration zu importieren
Wenn noch Festplatten vorhanden sind, lässt sich die Konfiguration oft importieren:
# Fremde Konfiguration anzeigen
MegaCli64 -CfgForeign -Scan -aALL
# Fremde Konfiguration importieren (wenn vorhanden)
MegaCli64 -CfgForeign -Import -aALL
Ausgefallene Festplatte ersetzen und Rebuild starten
Bei einem ausgefallenen Drive in einem RAID-5 oder RAID-6 Array kann man die Festplatte ersetzen und den Rebuild anstoßen:
# Ausgefallene Festplatte identifizieren (Enclosure:Slot)
MegaCli64 -PDList -aALL | grep -E "Enclosure|Slot|State"
# Neue Festplatte als Hot-Spare konfigurieren
MegaCli64 -PDHSP -Set -PhysDrv[E:S] -a0
# Rebuild manuell anstoßen
MegaCli64 -PDRbld -Start -PhysDrv[E:S] -a0
# Rebuild-Fortschritt verfolgen
MegaCli64 -PDRbld -ShowProg -PhysDrv[E:S] -a0
Physische Festplattenverbindungen prüfen
Ein häufig übersehener Grund für RAID-Fehler sind lockere physische Verbindungen. Im UCS-Chassis lohnt es sich, die Festplatten physisch auszuwerfen und wieder einzusetzen – manchmal reicht schon ein schlechter Kontakt, um das Array offline zu nehmen. Dabei auf die Laufwerk-LEDs achten: Konstant gelb bedeutet Fehler, blinkend gelb bedeutet Rebuild.
Controller-Austausch
Wenn der Controller selbst defekt ist (kein POST, Controller wird nicht erkannt, ständige Cache-Fehler trotz funktionierender BBU), muss er ersetzt werden. Dabei unbedingt den gleichen Controllertyp verwenden, da RAID-Konfigurationen controller-spezifisch gespeichert werden. Nach dem Tausch die Konfiguration importieren:
MegaCli64 -CfgForeign -Import -aALL
Fazit
Ein defekter RAID-Controller oder ausgefallene Festplatten im UCS-Chassis sind kein Grund zur Panik – aber ein Grund zur Eile. Mit dem strukturierten Vorgehen via CIMC, MegaCLI und physischer Inspektion lässt sich die Ursache schnell eingrenzen. Wichtig: Regelmäßige Backups und Monitoring der RAID-Health (z. B. via Nagios oder vCenter Alarms) verhindern, dass ein Festplattenausfall unbemerkt bleibt, bis das zweite Laufwerk ebenfalls ausfällt.


