Systeme und ihr Umfeld

Speichertechnik

RAID ist nicht unfehlbar

Von Stuart Booth, Bicester (UK)

RAID-Systeme werden häufig als Allheilmittel für Probleme bei der Speicherung von Daten angesehen. Teilweise unterbleiben daher sogar Backups. Je nach Konfiguration und Einsatzzweck der Arrays kann das katastrophale Konsequenzen haben – denn auch RAIDs können technischen Fehlern oder Umgebungseinflüssen zum Opfer fallen.

Die allgemeine Meinung lautet, dass RAID-Systeme (Redundant Arrays of Independent Disks) ausfallsicher sind, wie der Begriff "Redundanz" im Namen schon suggeriert. In der Tat verbessern RAIDs – abgesehen von Level 0 – die Verfügbarkeit und eventuell auch die Zugriffszeiten auf gespeicherte Daten. Weiter spezialisierte RAID-Systeme, wie etwa Level 10 oder Level 53, verkraften sogar den Ausfall mehrerer Festplatten im System. Aus solcher Ausfallsicherheit zu folgern, dass kein Backup nötig ist, wäre jedoch fatal.

Neben allen technischen und Umweltrisiken ist noch immer der Mensch Fehlerquelle Nummer eins, sei es auf Anwendungs- oder Administrationsebene. Gegen einen voreiligen oder irrtümlichen Löschbefehl eines Anwenders kann jedoch kein RAID schützen. Außerdem erfordern komplexe Speichersysteme fachmännische Administration. Normalerweise werden Installation und Support solcher Systeme mit dem Produkt als Gesamtpaket verkauft. Meistens kommen RAIDs vorkonfiguriert ins Haus oder werden vor Ort unter Anleitung installiert. Leider bürden viele Unternehmen nach Ablauf der vertraglich vereinbarten Support-Periode (manchmal auch schon vorher) dem eigenen IT-Personal die komplette technische Betreuung des Systems auf, ohne für eine entsprechende Schulung zu sorgen. Wissenslücken zeigen sich eventuell erst bei der Handhabung von Extremsituationen.

Hauptursache bei der Entstehung von Notfällen sind meist Handlungen des direkt beteiligten IT-Personals. Oft genug gestehen sich IT-Experten zu spät ein, dass sie ein Problem nicht selbst handhaben können, sondern die Hilfe eines Experten brauchen. Oder über den Versuch, möglichst schnell etwas zu retten, werden mögliche Konsequenzen des eigenen Handelns übersehen. Für die meisten Menschen ist es zwar kein Problem, bei normalen Verkehrs- und Wetterbedingungen Auto zu fahren. Geraten wir jedoch plötzlich auf Glatteis, so reagieren wir leicht panisch und unbedacht. Eine ähnliche Situation kann bei IT-Problemen auftreten und sie schnell eskalieren lassen, wenn Erfahrung und Wissen nicht ausreichen, um das Problem zu beherrschen. Genau an diesem Punkt entsteht die Mehrzahl aller Datenunfälle.

Schwachstellenverschiebung

Doch auch in der Technik stecken Risiken: RAID verhindern zwar, dass eine einzelne Festplatte schon zum Systemausfall führt – oder reduzieren zumindest das entsprechende Risiko. Allerdings bleibt das RAID selbst als singuläre Schwachstelle bestehen: Üblicherweise sind die Festplatten in ein gemeinsames Gehäuse eingebaut. Tritt Überhitzung auf, kommen vermutlich alle Festplatten gleichzeitig zu Schaden. Eine schlecht geplante Konstruktion des RAID-Einbaus kann zudem bewirken, dass sich Schwingungen einer beschädigten Festplatte auf die noch funktionierenden Platten übertragen und mit deren Eigenschwingungen in Resonanz geraten. Im günstigsten Fall wird das Ergebnis eine schlechte Performance des Systems sein und schlimmstenfalls werden die vorher problemlos laufenden Festplatten ebenfalls zerstört.

Auch können RAID-Controller ausfallen oder die physischen Verbindungen zwischen Array und Host-Rechner beschädigt werden, während das System gerade wichtige Daten empfängt. Eine Unterbrechung der Kabelverbindung beim Schreibvorgang führt fast immer zu großen Schäden in der Datenstruktur. Weitere nicht zu unterschätzende Schadensursachen sind Spannungsspitzen oder der Ausfall der USV. Gerade wenn eine Unterbrechungsfreie Stromversorgung ausfällt, zerstört sie dabei sehr häufig auch die Geräte, die sie eigentlich schützen soll.

Viele RAID-Systeme unterstützen den Austausch beschädigter Speichermedien im laufenden Betrieb (Hot Swap). Wenn eine Festplatte ausfällt, so wird diese vom RAID-System automatisch als fehlerhaft gekennzeichnet und kann vom Operator entnommen werden. Dabei gibt es aber keine weitere Fehlertoleranz: Entnimmt er versehentlich das falsche Element, so bricht das Array, das seine Redundanz bereits durch die defekte Festplatte verloren hat, sofort gänzlich zusammen. Erschwerend kommt hinzu, dass RAID-Systeme oft nur mit speziellen Festplattentypen arbeiten. Sind keine Ersatzteile vorrätig, laufen die Arrays während der Beschaffung meist ohne Redundanz.

Aber selbst wenn die richtige Ersatzplatte korrekt installiert ist, muss das RAID erst wieder in den ursprünglichen Zustand versetzt werden. Die Wiederherstellung der Datenstruktur auf dem Array nach dem Austausch des defekten Datenträgers benötigt einen Großteil der verfügbaren Rechenleistung und Bus-Kapazität. Aus diesem Grund ist die Systemperformance während der Wiederherstellungsphase sehr eingeschränkt. Daher gibt es bei vielen RAID-Systemen eine Wiederherstellungsoption mit möglichst geringer Beeinflussung des Normalbetriebs. Das System nutzt dann nur Leerlaufphasen zur Restrukturierung – je nach Last kann das sehr lange dauern. Vogon hat schon Datenrettungen von RAIDs durchgeführt, die nach einer Woche Synchronisationszeit noch immer nicht in den Originalzustand zurückversetzt waren und während dieser Zeit daher nicht redundant arbeiten konnten. Wenn in so einem Fall erneut eine Festplatte ausfällt, so zieht sie die anderen automatisch in Mitleidenschaft und es kommt zu sehr großen Datenverlusten.

Besonders sorgfältig ausgelegte RAID-Systeme enthalten daher immer Festplatten aus verschiedenen Chargen, um möglichst auszuschließen, dass eventuell vorhandene Herstellungsfehler oder Alterungseffekte zum wiederholten Auftreten von Fehlern während der Wiederherstellungsphase führen.

RAID-Motivation

Die beiden wichtigsten Gründe für den Einsatz von RAID-Technologie sind hohe Verfügbarkeit für geschäftskritische Systeme sowie erhöhte Leistungsfähigkeit für speicherintensive Anwendungen. Und offensichtlich ist RAID-Technologie überall dort notwendig, wo die Kapazität des geplanten logischen Geräts größer ist als die Kapazität einzelner Plattenspeicher.

Eine weit verbreitete Meinung lautet, dass eine Datensicherung auf solchen Systemen sehr viel schwieriger durchzuführen ist als bei anderen Speichern. Das muss nicht so sein. Die wichtigsten Fehlerursachen bei Datensicherungen von RAID-Systemen liegen in der Komplexität der Anwendungen, der Speicherkapazität des Arrays und der Menge an gespeicherten Daten.

Für die neueste Sicherungsgerätegeneration ist andererseits der Einsatz eines RAID-Systems sogar Voraussetzung für den sinnvollen Betrieb, da ein einzelner Plattenspeicher gar nicht in der Lage ist, genügend Datendurchsatz zu liefern, um die Streamer schnell genug zu "füttern".

Sicherlich sind Server für unternehmenskritische Anwendungen wie beispieslweise Oracle, SQL, Exchange oder Notes, beim Backup nicht unproblematisch; das ist aber mit oder ohne RAID gleichermaßen der Fall. Diese Anwendungen haben sehr komplexe innere Strukturen. Oft verwenden sie ihr eigenes internes Dateisystem und die darin enthaltenen Objekte sind teilweise verschlüsselt und komprimiert. Das größte Problem bei der Datensicherung solcher Applikationen ist jedoch, dass diese rund um die Uhr permanent im Einsatz sind. Teilweise existieren für diese Anwendungen allerdings spezielle Backup-Lösungen.

Getrennte Lagerung

Ein RAID-System wird die Zuverlässigkeit der Daten erhöhen, darf aber nicht als Alternative zu einem verlässlichen Backup dienen. (Backup-)Daten, die man gegen jeglichen Verlust schützen muss, sollten sowohl an einem logisch und auch physisch anderen Ort gespeichert und aufbewahrt werden als das Original. Am besten wählt man auch ein anderes Speichermedium, da Umweltbedingungen, die für den einen Datenträger schädlich sind, bei einem anderem Medium weniger Einfluss auf die Haltbarkeit haben. Ein gutes Beispiel hierfür sind die in verschiedenen Gegenden Europas in den letzten Jahren aufgetretenen Überflutungen: Wasser und Festplatten, also auch RAID-Systeme, passen für gewöhnlich nicht sonderlich gut zusammen. Normalerweise lassen sich Daten von überfluteten Festplatten retten, jedoch ist dies sehr aufwändig. Die Daten von durchnässten Magnetbändern sind hingegen meist sehr viel einfacher und schneller wiederherzustellen.

In südlichen England wurden kürzlich große Landstriche nach heftigen Regenfällen überschwemmt. Eine betroffene Firma hatte jeweils ein RAID-System in zwei Büros mit einer Entfernung von etwa 20 km stationiert. Beide Systeme waren über ein Glasfaserkabel für den synchronen Datenabgleich verbunden. Dadurch wurde die Datensicherung der SQL-Server-Daten von einem RAID-System auf das andere gewährleistet. Ein regelmäßiges Backup auf Magnetband war jedoch nicht vorhanden. Nur wenn beispielsweise auf das RAID-System neue Software aufgespielt oder der SQL-Server von keinem Anwender genutzt wurde, hat man solche Backups durchgeführt. Unglücklicherweise genügte die räumlche Entfernung nicht, um eines der beiden RAID-Systeme von der Überflutung auszunehmen...

Es sind aber beileibe nicht immer Naturkatastrophen notwendig, um ein Festplattenarray zu beschädigen: Erst kürzlich bekam Vogon das RAID-Array eines Abteilungsservers zur Datenrettung, weil jemand vom Reinigungspersonal aus Versehen mit dem Staubsauger an den Server-Schrank gestoßen war.

Stuart Booth ist Data Recovery Manager bei Vogon International Ltd.

© SecuMedia-Verlags-GmbH, D-55205 Ingelheim,
KES 6/2000, Seite 66