Bad RAID controller

VMs in einem Cisco UCS-Chassis fallen plötzlich aus, der vSphere-Zugriff funktioniert nicht mehr, und beim Neustart zeigt das System LSI MegaRAID-Fehlermeldungen. Ein defekter RAID-Controller oder ausgefallene Festplatten können eine ganze VMware-Infrastruktur lahmlegen. Hier ist der strukturierte Weg zur Diagnose und Lösung.

Symptome erkennen

Typische Anzeichen für einen MegaRAID-Problem im UCS-Umfeld:

– VMs gehen offline, ohne dass man sie gestoppt hat
– vSphere-Client kann keine Verbindung zum ESXi-Host aufbauen
– Beim Reboot erscheint im POST-Screen die Meldung No Configuration Present oder Enclosure X, Drive Y - Failed
– Das RAID-Set ist degraded oder offline
– Im CIMC/IMC-Log finden sich Controller-Fehlermeldungen

Neustart über das CIMC-Webinterface

Wenn ESXi nicht mehr reagiert, ist der erste Schritt ein Neustart über das Cisco Integrated Management Controller (CIMC)-Webinterface – das Out-of-Band-Management des UCS-Blades oder -Rackmounts. Das CIMC ist unabhängig vom Betriebssystem und funktioniert auch bei einem komplett hängenden System:

1. CIMC-IP-Adresse im Browser aufrufen (typisch im Management-VLAN)
2. Mit CIMC-Credentials einloggen (Standard: admin/password)
3. Unter Server → Power den Server neu starten (Power Cycle)
4. Unter Server → Remote Presence → Launch KVM Console den Bootvorgang beobachten

RAID-Status mit MegaCLI analysieren

Wenn das System noch bootet (oder von einem ESXi-USB/CD), analysiert man den RAID-Controller mit MegaCLI (bzw. dem moderneren StorCLI). Unter ESXi ist MegaCLI als VIB installierbar.

# Alle Controller anzeigen
MegaCli64 -AdpAllInfo -aALL

# RAID-Konfiguration anzeigen
MegaCli64 -LdInfo -Lall -aALL

# Alle Festplatten anzeigen
MegaCli64 -PDList -aALL

# Fehler-Log des Controllers
MegaCli64 -FwTermLog -Dsply -aALL

Besonders aufschlussreich ist der PDList-Output. Dort findet man den Status jeder einzelnen Festplatte: Online, Degraded, Failed oder Unconfigured Bad.

„No Configuration Present“ – was tun?

Die Meldung No Configuration Present bedeutet, dass der RAID-Controller keine RAID-Konfiguration findet. Das passiert wenn:

– Der Controller selbst defekt ist und seine Konfiguration verloren hat
– Mehrere Festplatten gleichzeitig ausgefallen sind
– Die Festplatten physisch neu gesteckt und in falscher Reihenfolge angeschlossen wurden
– Der Controller ausgetauscht wurde, ohne die Konfiguration zu importieren

Wenn noch Festplatten vorhanden sind, lässt sich die Konfiguration oft importieren:

# Fremde Konfiguration anzeigen
MegaCli64 -CfgForeign -Scan -aALL

# Fremde Konfiguration importieren (wenn vorhanden)
MegaCli64 -CfgForeign -Import -aALL

Ausgefallene Festplatte ersetzen und Rebuild starten

Bei einem ausgefallenen Drive in einem RAID-5 oder RAID-6 Array kann man die Festplatte ersetzen und den Rebuild anstoßen:

# Ausgefallene Festplatte identifizieren (Enclosure:Slot)
MegaCli64 -PDList -aALL | grep -E "Enclosure|Slot|State"

# Neue Festplatte als Hot-Spare konfigurieren
MegaCli64 -PDHSP -Set -PhysDrv[E:S] -a0

# Rebuild manuell anstoßen
MegaCli64 -PDRbld -Start -PhysDrv[E:S] -a0

# Rebuild-Fortschritt verfolgen
MegaCli64 -PDRbld -ShowProg -PhysDrv[E:S] -a0

Physische Festplattenverbindungen prüfen

Ein häufig übersehener Grund für RAID-Fehler sind lockere physische Verbindungen. Im UCS-Chassis lohnt es sich, die Festplatten physisch auszuwerfen und wieder einzusetzen – manchmal reicht schon ein schlechter Kontakt, um das Array offline zu nehmen. Dabei auf die Laufwerk-LEDs achten: Konstant gelb bedeutet Fehler, blinkend gelb bedeutet Rebuild.

Controller-Austausch

Wenn der Controller selbst defekt ist (kein POST, Controller wird nicht erkannt, ständige Cache-Fehler trotz funktionierender BBU), muss er ersetzt werden. Dabei unbedingt den gleichen Controllertyp verwenden, da RAID-Konfigurationen controller-spezifisch gespeichert werden. Nach dem Tausch die Konfiguration importieren:

MegaCli64 -CfgForeign -Import -aALL

Fazit

Ein defekter RAID-Controller oder ausgefallene Festplatten im UCS-Chassis sind kein Grund zur Panik – aber ein Grund zur Eile. Mit dem strukturierten Vorgehen via CIMC, MegaCLI und physischer Inspektion lässt sich die Ursache schnell eingrenzen. Wichtig: Regelmäßige Backups und Monitoring der RAID-Health (z. B. via Nagios oder vCenter Alarms) verhindern, dass ein Festplattenausfall unbemerkt bleibt, bis das zweite Laufwerk ebenfalls ausfällt.

Defekter RAID-Controller im UCS – LSI MegaRAID Fehlerdiagnose