Von RAID bis Rettung Planvolles Handeln im Umgang mit Datenträgern

Ordnungsmerkmale

erschienen in: <kes> 2006#3, Seite 18

Rubrik: Management und Wissen

Schlagwort: Datenrettung

Zusammenfassung: Endgültiger Datenverlust ist selten zwingend. Allerdings sollte man eine klare Vorstellung von Wert und Dringlichkeit seiner Daten sowie einen umfassenden Disaster-Recovery-Plan haben, um im Fall der Fälle richtig handeln zu können. Organisatorische und technische Maßnahmen können zudem die Wahrscheinlichkeit einer eventuell notwendigen Datenrettung senken.

Autor: Von Peter Böhret, Böblingen

Trotz gestiegener Sensibilisierung in Sachen Datensicherung und -sicherheit nehmen hier die Schadensfälle weiterhin zu. Dies liegt sowohl, bedingt durch rechtliche Bestimmungen, am vermehrten Archivierungsbedarf als auch an der wachsenden Zahl mobiler Lösungen wie Notebooks, PDAs, Smartphones und USB-Speicher – doch auch bei "klassischen" Festplatten gibt es nach wie vor Probleme, die allerdings nicht selten schon durch organisatorische Maßnahmen abzufedern gewesen wären.

Dennoch: Auch wenn man mit entsprechender Vorsicht bei der Handhabung im täglichen Umgang und der Integration der Geräte in einen Disaster-Recovery-Plan Schadensfälle reduzieren kann. Festplatten – egal in welcher Bauform – bergen als "rotierende Massenspeicher" immer ein mechanisch und elektrisch bedingtes Restrisiko. In mittleren und großen Unternehmen steht hier das Thema RAID im Vordergrund – gerade dabei ist jedoch ein planvolles Vorgehen wichtig, um die zusätzliche Sicherheit durch diese Technik zu erhalten.

[Foto: verbranntes Notebook - Quelle: Kroll Ontrack]
Mit dem zunehmenden Einsatz mobiler Systeme und Speichermedien wird auch hier eine klare Einbindung in Backup- und Disaster-Recovery-Strategien notwendig.

Leider gibt es immer wieder – auch prominente – Beispiele, wo mangelnde Planung aufgrund von Naivität, übermäßigem Vertrauen in die Technik oder schlicht Ressourcenmangel Probleme herbeiführen oder verschlimmern. Bei einer namhaften europäischen Großbank waren zum Beispiel in einem NSS-RAID5 von insgesamt 10 Festplatten gleich vier Festplatten mit jeweils 75 GByte defekt. Für die Wiederherstellung der Daten und der Funktionsfähigkeit des Systems wurden unter Einsatz von Remote Data Recovery (RDR) 78 Stunden benötigt. Betroffen waren vor allem Mail- (PST) und Office-Files; die Gesamtkosten beliefen sich insgesamt auf circa 37 000 €, was unter dem Aspekt einer millionenschweren Bedeutung dieser Daten eher noch als günstig angesehen werden kann. Viel bestürzender war die Erkenntnis, dass kein Backup vorhanden war.

Letzter Ausweg: Labor

Die Grenzen für eine physikalische Datenrettung haben sich in den letzten zehn Jahren eigentlich nicht verändert – lediglich die Kapazität bei Festplatten ist deutlich größer geworden. Weiterhin gilt, dass bei einer Beschädigung oder Zerstörung der Datenträger-Beschichtung – zum Beispiel beim Headcrash – die physikalischen Informationen an den beschädigten Stellen nicht mehr vorhanden und daher auch nicht recovery-fähig sind. Ebenso aussichtslos ist eine Daten-Wiederherstellung, falls eine bereits gelöschte Datei durch neue Daten überschrieben wurde.

[Foto: Lesekopfsammlung im Labor - Quelle: Kroll Ontrack]
OP-Bereich für Festplatten: Als letzter Ausweg kommt die Demontage und Wiederherstellung im Reinraum eines Datenrettungs-Labors infrage.

Auf der "anderen Seite" passen die Datenrettungs-Dienstleister ihre Technik ständig den neuen Anforderungen im Markt an: Dies bedeutet beispielsweise eine Anlehnung an Microsoft-Systeme von ungefähr 80 %. Derzeit haben Vista und WinFS die obersten Prioritäten in der internen Entwicklung bei Datenrettungs-Lösungen. Die neueren Systeme bei Apple im Zusammenhang mit der Intel-Allianz werden ebenfalls sorgfältig beobachtet; je nach Marktvolumen werden auch dort Rettungs-Tools weiter ausgebaut. Zudem: Weder das Windows Encrypting File System (EFS) noch eine komplette Verschlüsselung von Festplatten (bspw. in Notebooks) stellen heute noch ein prinzipielles Hindernis dar.

Datenrettungsfälle bei Bändern gehen derzeit merklich zurück; dennoch sind oft gerade hier besonders wichtige Daten betroffen. Dieses Medium ist für Backup und Archivierung nach rechtlichen Vorgaben weiterhin dominant – mit WORM-Datenträgern (Write Once Read Many) lassen sich derzeit am ehesten die aktuellen gesetzlichen Auflagen erfüllen. Diese Anforderungen erfordern aber auch eine Anpassung unternehmensinterner Prozesse und eine Überarbeitung der IT-Systeme und somit auch der Vorgehensweise im Schadensfall. Auch andere Datenträger wie externe Festplatten, DVDs oder USB-Speicher werden – trotz teilweise geringer Eignung für ein sicheres Backup – immer häufiger eingesetzt und müssen daher ebenfalls in einem Notfall-Plan vermerkt werden.

Auch wenn eine technische Datenrettung heute prinzipiell für solche Medien möglich ist: Auf den immer weiter verbreiteten mobilen Speichermöglichkeiten sollten vorsorglich entweder keine geschäftskritischen Daten gespeichert werden oder diese Geräte müssen zumindest beim regelmäßigen Synchronisieren in die Backup-Strategie des Unternehmens (s. u.) eingebunden sein.

----------Anfang Textkasten----------

Tipps bei Datenverlust

----------Ende Textkasten----------

Vorsorge: Disaster-Recovery-Plan

Damit im Falle eines Falles alles möglichst reibungslos abläuft, ist ein Disaster-Recovery-Plan notwendig. Dafür sollten unter anderem folgende Fragestellungen behandelt werden:

Aus organisatorischer Sicht sind im Notfall der schnelle Zugriff auf einen aktuellen Überblick zur IT-Infrastruktur (inkl. Informationen zu evtl. Auslagerungs- und Backup-Verträgen oder -Standorten) sowie klare Anweisungen wichtig. Dazu gehört als erster Schritt auch eine sofort erreichbare, aktuelle und gut lesbare Liste von Notrufnummern. Zudem stellt sich die Frage nach Zuverlässigkeit und Dauer von Zweit- und Notstromversorgung sowie eventuell Ausweich-(TK)-Netzanbindung für eventuelles Remote-Recovery. Ein wesentlicher Punkt für die Zuverlässigkeit eines Disaster-Recovery-Plans ist zudem seine regelmäßige Prüfung und Adaption an veränderte Bedingungen sowie regelmäßige Testläufe (vgl. <kes> 2006#2, S. 28).

RAID, aber richtig

In Unternehmen besonders häufig für unterschiedliche Sicherungsaufgaben anzutreffen: RAID-Verbünde (Redundant Arrays of Independent Disks). Die Verfügbarkeit von Rechnersystemen lässt sich durch den Einsatz von Disk-Arrays wesentlich erhöhen. Ein Allheilmittel gegen Datenverluste stellt RAID jedoch nicht dar. Um eine Ausfallsicherheit nahe 100 % zu erreichen, müssen alle Komponenten des Speichersubsystems inklusive Controller, Netzteil und Lüftern redundant ausgelegt werden. Solche Lösungen bietet die Storage-Industrie zwar durchaus an, preiswert sind sie aber nicht gerade.

Darüber hinaus ereignen sich Ausfälle von Laufwerken und anderen Komponenten nicht immer unabhängig voneinander: In der Praxis treten immer wieder Situationen auf, durch die sich die Ausfallwahrscheinlichkeit des gesamten Disk-Arrays schlagartig erhöht. Dazu zählen beispielsweise durch Blitzschlag verursachte Überspannungen, Überschwemmungen oder Brände. Auch Computer-Viren, -Würmer und Trojaner befallen RAID-Systeme ebenso gern wie Daten auf Einzellaufwerken. Und schließlich kann selbst das zuverlässigste Array den Risikofaktor Nummer Eins nicht ausschalten: den Menschen. Denn den weitaus größten Teil aller irreparablen Datenverluste verursacht nicht etwa versagende Technik, sondern gravierende Fehlbedienung durch den Benutzer. Beschädigte oder gelöschte Dateien sind aber auch auf dem zuverlässigsten Plattenverbund unwiederbringlich verloren.

RAID-Controller in Servern und Workstations bilden dennoch ein zentrales Element für Performance und Datensicherheit bei Datentransfers zwischen Festplatte und Betriebssystem. Die optimale Leistung ist aber von der Konfiguration des eingesetzten RAID-Controllers abhängig (vgl. Kasten). Wählt man hier die falsche Einstellung, gehen nach eigens durchgeführten Tests schnell bis zu 66 % an Transferleistung verloren. Besonders die batteriegepufferte Write-Back-Option bringt einen hohen Leistungsgewinn. Alle anderen Optionen wie Adaptive Read Ahead oder Cached I/O erzielen nur geringfügig differierende Leistungswerte. Allerdings können diese je nach Anwendung der Hardware wie Datenbank-Server oder Streaming-System variieren und sollten vom Anwender entsprechend optimiert werden.

Die richtige Konfiguration des RAID-Verbunds ist zudem auch entscheidend dafür, ob im Ernstfall eine schnelle und umfassende Datenrettung durchgeführt werden kann oder ob der Ernstfall überhaupt eintritt. In Verbindung mit einem RAID-Controller mit optionalem Cache offerieren Hersteller beispielsweise häufig ein Batterie-Pack zur Pufferung der Daten bei Stromausfall. Dieses Feature sollte der Anwender unbedingt mitbestellen, denn erst eine Batteriepufferung des Controller-Speichers ermöglicht die sichere Nutzung der performance-steigernden Write-Back-Funktion und verhindert gegebenenfalls Datenverlust. Wer das Maximum an Sicherheit haben will, sollte allerdings ohnehin eine unterbrechungsfreie Stromversorgung (USV) vorsehen, die alle wichtigen Komponenten auch bei einem Stromausfall mit Energie versorgt.

----------Anfang Textkasten----------

Hintergrund: RAID-Optionen

Redundant Arrays of Independent Disks (RAID) helfen Daten auch dann zu bewahren, wenn – je nach eingesetzter Redundanz – eine oder mehrere der beteiligten Festplatten ausfallen (abgesehen vom reinen "Performance-RAID" mit Level 0). Für Leistung und Sicherheit kommt es aber auch hier auf die richtigen Einstellungen an.

Rechnersysteme, die mit einem RAID-Controller ausgestattet sind, zeigen während der Boot-Phase rudimentäre Informationen über den Adapter und das installierte RAID-Level an. Der Administrator kann jedoch durch Eingabe einer Tastenkombination in das interne Konfigurationsmenü des Adapters gelangen und dort neben verschiedenen RAID-Level-Optionen und ihrer Initialisierung auch unterschiedliche Schreib-, Lese- und Cache-Einstellungen vornehmen. Diese so genannten Policies sind von dem eingesetzten RAID-Controller abhängig und können sich von Produkt zu Produkt deutlich unterscheiden. Die oft wenig beachteten Funktionen haben bei einer falschen Einstellung enorme Auswirkungen auf die Leistung des Storage-Systems.

Write Back/Through

Im Allgemeinen verfügen die meisten RAID-Controller über zwei unterschiedliche Strategien, um Daten vom Betriebssystem auf die Festplatten zu schreiben: Write Back und Write Through. Beim Write Back schickt der Controller einen "Completion-Status" (Bestätigungsbefehl) an das Betriebssystem, sobald der Pufferspeicher des Controllers die Schreibdaten für die Festplatte vom System erhalten hat. Der Controller hält die Informationen so lange im Cache, bis er einen geeigneten Zeitpunkt findet, die Daten an die Festplatte zu übertragen. Dies erfolgt zu einem Zeitpunkt, zu dem die Systemressourcen nicht voll beansprucht werden, sodass diese Strategie die Schreibleistung signifikant verbessert.

Allerdings hat das Write-Back-Verfahren auch Nachteile: Tritt eine Störung bei der Stromversorgung auf, sind unter Umständen wichtige Daten, die noch nicht vom Cache-Controller auf die Festplatte geschrieben wurden, unwiderruflich verloren. Deshalb ist es empfehlenswert, die meist optional erhältliche Batteriepufferung des Cache-Controllers mitzubestellen oder sich gleich für eine USV zu entscheiden.

Anders verhält sich die Write-Through-Strategie: Diese sendet einen "Completion-Status" erst dann an das Betriebssystem, wenn die Daten sicher auf die Festplatte geschrieben wurden. Deshalb kostet das Verfahren Übertragungs- beziehungsweise System-Performance, da die Informationen ohne Zwischenpufferung direkt, ohne Rücksicht auf aktuelle Systemauslastung, auf die Festplatte geschrieben werden. Daher unterscheidet sich die Schreibleistung mit aktiviertem Write-Through-Cache kaum von der Performance eines Controllers ohne Cache-Unterstützung.

(Adaptive) Read Ahead

Wie bei den Schreiboperationen bietet ein RAID-Controller auch für Leseanweisungen verschiedene Caching-Strategien. Im Einzelnen sind dies Read Ahead (als Default-Einstellung), Adaptive und No Read Ahead. Bei der Read-Ahead-Strategie fordert der Controller neben den tatsächlichen Daten auf der Festplatte auch diejenigen Informationen an, die "daneben" liegen. Diese "vorweg genommenen" Daten werden im Cache zwischengespeichert. Werden sie beim nächsten Request verlangt, kann der Controller sie direkt aus dem Puffer lesen und weiterleiten; ein Zugriff auf die Festplatte ist dann nicht mehr erforderlich. Das spart Zeit und erhöht die Performance bei Datenanforderungen. Besonders bei zusammenhängenden Datenstrukturen, die sequenziell gelesen werden, wie Video-Streams oder Audio-Files, kann dieses Verfahren seine besondere Stärke ausspielen. Auch die Defragmentierung einer Festplatte wirkt sich positiv auf die Performance des Storage-Systems aus, wenn die Read-Ahead-Funktion des Controllers aktiviert ist.

Die Adaptive-Read-Ahead-Option umfasst eine "intelligente" Read-Ahead-Strategie: Diese aktiviert Read-Ahead-Lesezugriffe erst dann, wenn zwei aufeinander folgende Read-Anweisungen tatsächlich Daten aus zwei hintereinander liegenden Sektoren der Festplatte auslesen. Erhält der RAID-Controller Datenanfragen aus verschiedenen Sektoren der Festplatte, schaltet er in den No-Read-Ahead-Modus um, wertet aber weiter alle Leseanweisungen aus, um gegebenenfalls wieder zurück zu schalten. Welche Read-Strategie bessere Performance bedeutet, hängt letztlich von der Anwendungsumgebung des RAID und den Datenstrukturen ab.

Cache/Direct I/O

Die Cached- und Direct-I/O-Strategie bezieht sich jeweils auf ein logisches Laufwerk des RAID-Controllers. Darüber hinaus haben die beiden Optionen keine Auswirkungen auf die Read-Ahead-Einstellungen des Systems. Die Cached-I/O-Einstellung spezifiziert, dass alle Lesezugriffe vom RAID-Controller zwischengespeichert werden. Das bedeutet, dass das Betriebssystem die Daten nicht direkt von der Festplatte erhält, sondern vom Cache des Controllers. Dagegen erfolgen die Lesezugriffe im Direct-I/O-Modus nicht ausschließlich aus dem Cache-Speicher des Controllers. So werden während einer Leseanweisung die Daten simultan zum Controller-Cache und zum Betriebssystem übertragen. Falls ein nachfolgender Leseauftrag – ein so genannter Subsequent-Read – Daten aus dem gleichen Datenblock benötigt, können diese daher aus dem Controller-Cache direkt angefordert werden.

----------Ende Textkasten----------

Am laufenden Band

Bei anderen Datenträgern gelten andere Verhaltensregeln. Auch hier gilt leider: Was selbstverständlich klingt, ist nicht immer selbtverständlich. Natürlich sollten Daten auf sämtlichen Medien richtig behandelt werden. Beispielsweise bemisst sich die Lebensdauer von Magnetbändern zwar in Jahrzehnten, aber es wäre ungünstig, diese Spanne voll ausschöpfen zu wollen. Langfristig zu speichernde Daten sollten Unternehmen daher in Abständen von fünf bis zehn Jahren auf neue Magnetbänder überspielen. So reduziert sich gleichzeitig die Zahl der Bänder, weil die Erfahrung zeigt, dass Speicherkapazitäten innerhalb dieser Zeit immer wieder gestiegen sind.

Zu beachten ist auch, dass manche Daten nur eine bestimmte Zeit aufbewahrt werden dürfen und dann gelöscht werden müssen. Daten mit längerer Vorhaltezeit können dann auf neue Medien übertragen, während "abgelaufene" Daten gelöscht werden. Das Löschen von Daten auf WORM-Medien ist allerdings nicht ohne weiteres möglich. Infrage kommen zwei Methoden: Entweder wird der Datenträger physisch zerstört oder die Daten werden grundsätzlich verschlüsselt gespeichert; ein Löschen des Schlüssels ist dann gleichbedeutend mit dem Löschen der Daten selbst. Allerdings erfordert diese Methode eine sorgfältige Ausführung, eine starke Verschlüsselung und die zuverlässige Verwaltung der Schlüssel.

Backups prüfen

Die sicherste und effektivste Methode einen unerwarteten Datenverlust zu vermeiden ist überdies nach wie vor – im Rahmen einer Backup-Strategie – das regelmäßige Anfertigen von Sicherheitskopien. Sei es die Datensicherung auf ein externes Medium oder eine 1:1-Kopie des Datenträgers: Backups sollten regelmäßig auf Vollständigkeit und Lesbarkeit überprüft werden. Hier wird immer noch zu oft auf die Software vertraut und später findet man beispielsweise leere Bänder. Faustregel: Alle Bewegungsdaten sollten zusätzlich täglich extern "weggesichert" werden.

Auch eine regelmäßige Wartung der Festplatte durch Defragmentierung sowie Optimierung gehört auch heute noch zu den technisch einfach durchzuführenden und sinnvollen Tätigkeiten. Außerdem empfiehlt sich noch die Innenreinigung der Computer: Staub kann schneller als vermutet das System und natürlich auch die Festplatte schädigen.

Fazit

Hardwareausfälle und Bedienungsfehler sind nach wie vor Hauptursachen für einen (oft behebbaren) Datenverlust. Kritisch wird es meistens nur dann, wenn nicht-adäquate Mittel die logische Zerstörung der Datenstrukturen fortführen. Letztlich bedeutet jedoch meist nur das vollständige Überschreiben von Daten und Partitionierung oder ein Low-Level-Format die komplette Vernichtung der Daten – dazu kommt es in der Regel nicht aus Versehen. Selbst wenn es im RAID-Verbund zu größeren Ausfällen kommt, ist es für Hilfe nicht zu spät!

Peter Böhret ist Managing Director der Kroll Ontrack GmbH, Böblingen.