[Aufmachergrafik: heller, corporate design Projektbericht IT-Continuity mit eigenem Zweit-RZ Erfahrungen der Techniker-Krankenkasse aus der Umstellung von einer Backup- zur IT-Continuity-Lösung

Ordnungsmerkmale

erschienen in: <kes> 2005#5, Seite 68

Rubrik: Systeme und ihr Umfeld

Schlagwort: Business Continuity

Zusammenfassung: Nach gestiegenen Anforderungen an die Business Continuity hat die Techniker-Krankenkasse in Hamburg ein eigenes Zweit-Rechenzentrum eingerichtet und dabei erhebliche Spareffekte bei gleichzeitig besseren Services verwirklicht.

Autor: Von Christian Senger, Elmenhorst

Damit lebenswichtige Geschäftsprozesse und IT auch in Krisensituationen funktionieren, hat die Techniker-Krankenkasse (TK) bereits 1993 ein Backup-Konzept entwickelt. Grundlage der ausgewählten Backup-Variante war eine vorausgegangene Risikoanalyse aller kritischen Anwendungen, aus der ein Vertrag mit einem Ausweichrechenzentrum (ARZ) hervorging. Bis zu drei Mal pro Jahr wurde in umfangreichen Tests in einem Recovery-Verfahren die Backup-Fähigkeit unter Beweis gestellt. Die maximal tolerierbare Ausfallzeit der Kernanwendungen wurde dabei bis Ende 2003 mit 48 Sunden angesetzt.

Der stetige Anstieg des Datenvolumens machte bereits 2002 eine Neuordnung des bisherigen Datensicherungs-, Archivierungs- und Wiederherstellungsverfahrens notwendig, da ansonsten der Wiederanlauf nicht mehr in der vorgegebenen Zeitspanne realisierbar gewesen wäre. Dies führte dazu, dass die Datensicherung symmetrisch ausgelegt und eine Datenspiegelung im ARZ realisiert wurde. Gleichzeitig gab diese Entwicklung den ersten Anstoß für Überlegungen zu einer eigenständigen Lösung, die mittlerweile auch implementiert worden ist. Der vorliegende Beitrag beschreibt die Überlegungen und Erfahrungen im Zusammenhang mit diesem Projekt.

----------Anfang Textkasten----------

Tolerierbare Ausfallzeit

Die tolerierbare Ausfallzeit für IT-Systeme ist zu unterteilen in ein Alarm- und Wiederanlaufzeitfenster: Das Alarmzeitfenster ist die Zeitspanne, in der vorgesehene Notfallteams verfügbar sein müssen. In der Regel kann für die Konstitution der Notfallorganisation inklusive Krisenstab ein Wert von 8–10 Stunden angesetzt werden, was jedoch in einem Verfügbarkeitstest innerhalb des Unternehmens zu verifizieren ist. Ein solcher Test ist beispielsweise möglich, indem zu einem Zeitpunkt X alle Mitglieder der IT-Notfallorganisation durch einen Wach- oder Sicherheitsdienst angerufen werden und mitteilen, in welcher Zeit sie im Unternehmen sein könnten. Grundlage für die spätere Analyse sollte ein "Drehbuch" sein, das sowohl die Ziele der Aktion definiert als auch einen Handlungsleitfaden für die Anrufenden darstellt.

Das Wiederanlaufzeitfenster dokumentiert den Zeitraum der eigentlichen Wiederherstellung der Systeme. Er beginnt mit dem Restore der Betriebssysteme und endet mit der Online-Freigabe für die Anwender.

----------Ende Textkasten----------

Erste Anzeichen

Die für den Wiederanlauf im Backup-System erforderlichen Datenträger waren den TK-Richtlinien zufolge in ein externes Katastrophen-Archiv (K-Archiv) auszulagern. Durch ein stetig wachsendes Sicherungsvolumen verschob sich die Zeit einer solchen physischen Auslagerung der Datenträger immer weiter nach hinten. Bei großen Datenmengen konnte es durchaus erst am späten Nachmittag eines Arbeitstages zur tatsächlichen Auslagerung kommen, denn die Datensicherung gilt erst ab dem Moment als ausgelagert, in dem sie das Unternehmen vollständig verlassen hat.

Des Weiteren zeigt die Praxis, dass bei einem hohen Auslagerungsvolumen bedingt durch Handling-Fehler Kassetten immer wieder einmal vergessen werden: Die Datenintegrität ist dann nicht mehr 100%ig gesichert. Gleichzeitig wächst mit dem Datenvolumen im K-Archiv die Wahrscheinlichkeit, dass einzelne Datenträger von Schreib-/Lesefehlern betroffen werden. Und nicht zuletzt besteht durch häufiges Ein- und Auslagern der Kassetten ein erhöhtes Risiko, dass sich diese physisch qualitativ verschlechtern. Für hochkapazitive Datenträger empfehlen die Kassettenhersteller bei der Bestückung von Robotersystemen, keine manuelle Bewegung außerhalb einer Roboterkomponente vorzunehmen.

Wo die Datenmenge auf Magnetbandkassetten ein Volumen erreicht, das die beschriebenen Probleme aufwirft oder die zeitlichen Wiederanlaufanforderungen infrage stellt, sollte über eine symmetrische Datensicherung und -spiegelung nachgedacht werden. Über den Schutzlevel von RAID-Systemen und Backup-Mechanismen hinaus liefern Spiegelverfahren zudem im Host- und OpenSys-Betrieb einen erheblich verbesserten Sicherungsstandard.

Wirtschaftlichkeit

Natürlich hat alles seinen Preis und neben IT-Anforderungen sind auch wirtschaftliche Gesichtspunkte einzubeziehen. Hierzu ist transparent aufzuführen, welche Maßnahmen und Alternativen zur Lösung beitragen könnten – die Wirtschaftlichkeit eines Vorhabens für eine zweite RZ-Lokation ist dem IT-Management detailliert aufzuzeichnen. Überwiegen die wirtschaftlichen und qualitativen Vorteile, so sollte auch der Vorstand sein O. K. für den Startschuss eines solchen Infrastruktur-Projektes geben.

Bei der TK, die ja bereits Kunde in einem kommerziellen ARZ war, wurden die dafür anfallenden Kosten sowie der zu erzielende Nutzen einer Eigenlösung gegenübergestellt. Hierbei sind die in einem ARZ versicherten Ressourcen gegenüber den Kosten von eigenem Equipment in einer Modellrechnung zu vergleichen. Als Basis dienen demnach:

Im Beispiel der TK zeigte sich ein wirtschaftlicher Vorteil der Eigenlösung, der einen 31%igen jährlichen Kostenspareffekt bedeutet. Neben diesem liquiditätswirksamen Vorteil zeigten sich zudem bei näherer Betrachtung auch qualitative Vorteile:

Projektmarketing

Damit ein IT-Projekt im Unternehmen erfolgreich startet, benötigt es zuvor eine gute Akzeptanz bei allen Führungskräften und Mitarbeitern. Nur damit ist eine optimale Unterstützung aller Fachbereiche herbeizuführen, Qualitätssicherung durch Feedback zu bekommen und eine Verbesserung des Arbeitsklimas durch Informationsvermittlung zu erreichen. Zur Erhöhung der Akzeptanz des Vorhabens innerhalb der TK wurden deshalb im Rahmen eines Projektmarketings Präsentationen mit unterschiedlicher Ausrichtung durchgeführt. Dabei hat es sich als sinnvoll erwiesen, auch die Mitarbeitervertretung und die Datenschutzbeauftragten des Unternehmens mit einzubeziehen.

Standortfragen

Im Gebiet des öffentlichen Rechts kommt man bei der Suche nach einer geeigneten RZ-Lokation um eine Ausschreibung nicht herum. Bei öffentlichen Ausschreibungen werden Leistungen nach der Verdingungsordnung für Leistungen (VOL) vergeben. Dies kann dazu führen, dass eine RZ-Lokation, die beispielsweise in einem Umkreis von 10 km gesucht wird, dennoch europaweit auszuschreiben ist. Denn es könnte ja sein, dass zum Beispiel eine Muttergesellschaft im europäischen Ausland eine leerstehende RZ-Lokation in der gefragten Region bereitstellen kann. Verfahrensfehler sind gerade in Planungsphasen unbedingt auszuschließen!

Leere RZ-Flächen für IT-Lokationen gibt es in Großstädten, bedingt durch Unternehmens-Konsolidierungen, heutzutage reichlich. Die Qualitätsanforderungen sind im Rahmen von Audits zu überprüfen, die gemeinsam mit den Bietern durchgeführt werden sollten (vgl. Abb. 1).

[Illustration]
Abbildung 1: Auszug aus einem Audit zur Überprüfung, Gewichtung und Bewertung einer RZ-Lokation

Bei der Standortwahl sind zudem der wünschenswerte Sicherheitsabstand vom Basis-RZ (vgl. S. 77) sowie technische Randbedingungen der genutzten Übertragungstechnik zu beachten (vgl. Kasten), vor allem für Spiegelung und Host-Betrieb.

Bei der Standortwahl sind zudem der wünschenswerte Sicherheitsabstand vom Basis-RZ (vgl. S. 77) sowie technische Randbedingungen der genutzten Übertragungstechnik zu beachten (vgl. Kasten), vor allem für Daten-Spiegelung und Host-Betrieb unter Parallel Sysplex.

Der Sicherheitsabstand einer Zweit-RZ-Lokation sollte mindestens 3 km betragen – das ergaben Nachfragen bei der örtlichen Feuerwehr, die bei Großbränden von Gebäuden einen entsprechend großen Ansperrradius (Immediate Response Zone) zieht. Die Empfehlungen der IBM liegen übrigens bei zwei Meilen.

Bei der Verbindungstechnik mit Dense Wavelength Division Multiplexing (DWDM, vgl. Kasten) hat sich die TK im vorliegenden Projekt für Spectrum-2000-Multiplexer von McData Technology Systems entschieden. Ein wesentlicher Vorteil dieser Systeme ist, dass beim Hinzufügen zusätzlicher Übertragungskanäle keine Konfigurationsänderung mit entsprechendem Aufwand erfolgen muss.

----------Anfang Textkasten----------

Verbindungstechnik zum Zweit-RZ

Die mögliche Entfernung zu einer Zweitlokation kann je nach technischen Gegebenheiten stark variieren. Im Allgemeinen sind für die Entfernung eines Zweit-RZ vom Hauptstandort folgende Faktoren der Verbindungstechnik bedeutsam:

Die physische Kopplung zweier Rechenzentren wird heute in der Regel durch Lichtwellenleiterverbindungen durchgeführt. Da in den meisten Fällen diese Kabelwege über öffentliches Gelände gehen, ist die eigene Verlegung von Glasfaserleitungen nicht möglich. Hier ist es entweder denkbar, eine unbeschaltete Glasfaserverbindung (sog. Dark Fiber) zu mieten, die größere Flexibilität, aber auch den Eigenbetrieb der optischen Wandler an beiden Enden bedeutet. Oder der komplette Betrieb der Verbindung wird an einen Carrier outgesourct.

Bei der Abnahme von LWL-Strecken ist eine Dämpfungsmessung mit einem Protokoll vom Netz-Carrier abzufordern. Zur Kontrolle ist empfehlenswert, eine Dämpfungsmessung der Leitungen mindestens einmal im Jahr durchführen zu lassen, was jedoch regelmäßig eine Unterbrechung des Verbindung bedeutet.

Für die Mindestverfügbarkeit einer einzelnen Übertragungsstrecke sollten 99,9 % gefordert werden, die garantierte Bitfehlerrate bei < 10−9 oder 10−11 liegen. Zudem muss eine Rund-um-die-Uhr-Störungsannahme (24/7) gewährleistet sein. Innerhalb der Servicebereitschaft ist eine Reaktionszeit von maximal zwei Stunden und eine Wiederherstellungszeit von 4, 8, 12, oder 24 Stunden je nach Klassifizierung, Ort, Schwere und Störungsursache zu gewährleisten und ein Störungseskalationsweg in Form der Abarbeitung eines "Troubletickets" aufzuzeigen.

Für jede Art von Verbindung über Glasfaser muss die Auswirkung der Lichtgeschwindigkeit berücksichtigt werden. Diese Auswirkung ist relativ größer, wenn man Coupling Links betrachtet (Mikrosekunden) im Vergleich zu DASD-I/Os (Millisekunden).

Neben der tatsächlichen Kabellänge sollte man zudem darauf achten, dass es bei einer redundanten Streckenführung über zwei Trassen zu keiner Überkreuzung der Kabel kommt (Single Point of Failure).

ESCON / FICON

Für den Einsatz der von IBM entwickelten Host-Channel-Systeme ESCON und FICON bestehen besondere Grenzwerte: So unterstützen ESCON-Kanäle eine maximale unverstärkte Entfernung von 3 km, mit Verstärkung (DWDMs) ist die Reichweite abhängig von der angeschlossenen Hardware (z. B. IBM Enterprise Storage Server 103 km). Dabei ist zu bedenken, dass aufgrund des ESCON-Protokolls ab 9 km eine Performance-Beinträchtigung auftritt, die mit zunehmender Entfernung noch zunimmt.

FICON ermöglicht eine unverstärkte Entfernung von 20 km bei 100 MB/s beziehungsweise 10 km bei 200 MB/s. Für verstärkte Verbindungen gilt wie bei ESCON die Abhängigkeit von der angeschlossenen Hardware. Durch die Besonderheiten dieses Protokolls tritt jedoch mit zunehmender Entfernung keine abrupte Performance-Verschlechterung ein.

DWDM-Systeme

DWDM steht für Dense Wavelength Division Multiplexing und ist ein optisches Wellenlängenmultiplexing mit hoher Dichte. DWDM-Systeme gibt es von einer Reihe von Herstellern. Beispielsweise lässt IBM aber für die Verbindung von Sysplex Timern nur ausgewählte Hersteller zu; es wird empfohlen nach einer diesbezüglichen Zertifizierung zu fragen.

Die auf dem deutschen Markt verfügbaren Produkte unterscheiden sich im Wesentlichen in der Grundkonzeption voneinander: Hier gibt es Systeme (z. B. von ADVA), die explizit für die Verbindungen von RZ-Technik entwickelt wurden und in erster Linie auf hochwertigen passiven Bauteile basieren. Diese sind so ausgelegt, dass jeder Port 100 % der benötigten Bandbreite zur Verfügung stellt; dabei werden einzelne Kanäle protokolltransparent übertragen. Da keine Protokollwandlung und kein Transportprotokoll erforderlich sind, wird auch keine aufwändige Software benötigt, was Verfälschungen und somit eventuelle Recovery-Verfahren auf der Übertragungsebene eher ausschließt.

Im Gegensatz dazu wurden SDH-Systeme (synchrone digitale Hierarchie, z. B. von Nortel) vorrangig für große Breitbandnetze der Telekommunikation entwickelt, wo ein Bandbreitenmanagement zwischen den Vermittlungsknoten und eine Performance-Überwachung erforderlich sind, um die benötigten Bandbreiten nach Bedarf zuordnen zu können. Dafür müssen die Übertragungssysteme entsprechend ausgestattet sein; es sind also in einem Multiplexer neben den passiven Bauteilen eine ganze Reihe aktiver Komponenten plus Software notwendig.

Auch solche Systeme sind geeignet, um RZ-Technik zu verbinden – es muss allerdings eine Softwarekonfiguration erfolgen, damit einzelne Channel übertragen werden können. Das bedeutet, dass beim Hinzufügen zusätzlicher Übertragungskanäle eine Konfigurationsänderung mit entsprechendem Aufwand erforderlich wird.

Die Überwachung der DWDM-Systeme kann von Netz-carriern, kommerziellen Rechenzentren oder vom Lieferanten der Multiplexersysteme vorgenommen werden. Dieses Outsourcing erspart im eigenen Hause den Aufbau speziellen Know-hows. Dennoch wird empfohlen, zumindest SNMP-Traps zur eigenen Kontrolle der DWDM-Systeme an das Basis-Rechenzentrum zu übermitteln und ein Event-Monitoring einzurichten.

----------Ende Textkasten----------

Stromversorgung

Auch in einer Zweit-RZ-Lokation muss eine redundante Stromversorgung vorliegen; Beispiele kompletter Stromausfälle einer Region gab es in letzter Zeit genug. Die redundante Stromversorgung sollte über zwei voneinander unabhängige Unterverteilungen realisiert werden, die USV-gestützt sind. Dabei ist die Installation eines Notstromaggregates unerlässlich, auch wenn die Netzversorgung aus zwei getrennten Umspannwerken kommt. Das Notstromaggregat muss bei Ausfall der Netzversorgung die Gesamtlast übernehmen können.

Um die Bereitschaft eines Notstromaggregates jederzeit zu gewährleisten, muss der Diesel regelmäßig getestet werden. Die TK nimmt hierzu monatlich einen Lasttest ohne Umschaltung auf die Unterverteilungen vor und simuliert dabei eine Lastübernahme. Mindestens einmal jährlich ist ein Volllasttest eingeplant, bei dem die gesamte RZ-Lokation über den Notstromdiesel tatsächlich versorgt wird.

Ohne Aufsicht

Der Rechenzentrumsservice der TK wird nunmehr seit Mitte 2004 aus zwei Lokationen mit dynamischer Lastverteilung bereitgestellt, es werden also beide Standorte für den Produktivbetrieb genutzt. Die Steuerung und Überwachung beider Rechenzentren erfolgt jedoch zentral aus dem Basis-Rechenzentrum heraus, das Zweit-RZ arbeitet als so genannte "unattended location".

Dadurch, dass die ehemals an einem Standort vorgehaltenen Hochverfügbarkeitslösungen (z. B. Parallel Sysplex und Notes-Cluster) auf zwei Standorte auseinandergezogen worden sind und sich die Anzahl der zu überwachenden Komponenten kaum verändert hat, kann auch der erweiterte Betrieb ohne zusätzliche Mitarbeiter gefahren werden.

Für die physische Überwachung des Maschinenraums im Zweit-RZ wurden Videokameras installiert, die sowohl zum Wachdienst als auch in das Kontrollzentrum des Basis-RZ aufgeschaltet sind. Die Übertragung der Videosignale läuft über die LWL-Verbindung der beiden Zentren. Die TK zeichnet dabei alle Videodaten über einen Zeitraum von drei Tagen auf; im Rahmen des Datenschutzes wird auf die Videoüberwachung im RZ-II deutlich hingewiesen. Die Gefahrenmeldeanlagen für Wasser und Rauchentwicklung sind ebenfalls über Meldesysteme mit dem Wachdienst und die im Remote-Dienst befindlichen Mitarbeiter verbunden.

----------Anfang Textkasten----------

Drucken und Kuvertieren

Bei einem kundenorientierten Unternehmen wie der TK sind auch heute noch bedrucktes Papier und die automatische Zusteuerung von Beilagen sehr wichtig. Der Verzicht auf personalisierte Anschreiben könnte unter Servicegesichtspunkten nicht hingenommen werden. Zudem kann die Wiederbeschaffung komplexer Druck- und Kuvertierstraßen durchaus Monate dauern.

Dokumentenmanagement und Print-outs haben daher für die TK einen hohen Verfügbarkeits-Stellenwert. Bei rund 57 000 Briefen, die arbeitstäglich verarbeitet und zeitnah versandt werden, ist ein Verzicht auf diesen Service in einem K-Fall undenkbar. Hinzu kommt, dass neben dem hohen Volumen auch die automatische Beilagensteuerung über acht Stationen eine manuelle Verarbeitung unmöglich macht.

Mit Umstellung der Drucktechnik in der TK auf Hochleistungs-Duplex-Endlosdrucksysteme wurde daher eine Notfall-Absicherung über den Paul Albrechts Verlag (PAV) in Lütjensee bei Hamburg vereinbart. Gleichzeitig konnte mit dieser Lösung die Kuvertierung, Frankierung und der Versand des Schriftguts ohne Serviceeinschränkungen über die PAV-Poststraße erreicht werden.

----------Ende Textkasten----------

Risikomanagement

Gerade in einem Infrastrukturprojekt lauern viele Gefahren: Die Identifizierung von Risiken beginnt daher im Grunde bereits bei der Budgetierung der Haushaltsmittel. Schon dort muss genau analysiert werden, welche Kosten im Laufe des Projektzeitfensters entstehen. Besonders bei der Planung der Übertragungstechnik zwischen zwei Lokationen, die einen großen Teil der Kosten verursacht, ist eine sorgsame Vorgehensweise anzuraten. Hier kann nur empfohlen werden, sich so früh wie möglich mit einem Lieferanten zusammenzusetzen, um die erforderlichen Komponenten und damit verbundenen Kosten detailliert zu ermitteln.

Auch bei der Planung der Hardwareverlagerung von einem RZ in das andere sind die Risiken zu erkennen und zu bewerten. Dass eine neue CPU beim Abladen durch die Spedition von der Lkw-Rampe fällt, ist auch schon bei der TK vorgekommen. Hier gilt es das Restrisiko zu bewerten und sich schon a priori mit den Lieferanten zu verständigen, um in so einem Fall schnellstmöglich Ersatz zu bekommen. Die Verantwortlichkeiten für operatives Risikomanagement liegen beim Projektleiter, jedoch sollte man alle Projektmitarbeiter im Rahmen der Risk Awareness einbeziehen und anhalten, mit "offenen Augen und Ohren" unterstützend mitzuwirken.

[Illustration]
Abbildung 2: Beispiel für die Risiko-Dokumentation und -verfolgung mit Ampelfarben

Nicht zu vergessen ist im Übrigen auch eine Prüfung vorhandener Softwarelizenzen und Wartungsverträge für die Betriebsumstellung auf zwei Lokationen. Bei der Beschaffung von Softwarelizenzen muss darauf geachtet werden, dass die Software in zwei Lokationen betrieben werden darf – ob und in welcher Höhe hieraus Zusatzkosten resultieren, bleibt den Vertragsverhandlungen vorbehalten. Hardware-Wartungsverträge konnten bei der TK aufgrund der Maschinenverlagerung problemlos in die Zweitlokation verlagert werden; Zusatzkosten waren damit nicht verbunden.

Erfolgskontrolle

Durch die Realisierung des RZ-II-Projekts mit der Verteilung von Equipment, Last und Anwendungen über zwei Lokationen haben sich naturgemäß Veränderungen in der IT-Verfügbarkeit nach dem Ausfall eines Standorts ergeben. Dieses Ergebnis muss dem Vorstand in verständlicher Weise vermittelt werden. Dafür ist eine erneue Verfügbarkeitsanalyse aller Anwendungen erforderlich, für die darzustellen ist, welche Anwendungen welche Services nutzen. Beispielsweise könnten für SAP/FI Services wie SAP Zentral- und Dialoginstanzen, SAP-Archivsystem, DNS, DHCP, Content-Switching und File-Services erforderlich sein; diese Services befinden sich auf unterschiedlichen Servern und eventuell auf dem Host.

Die TK nutzt zur Darstellung des Ergebnisses die Guide-Share-Methode: Die Klassifikation der Absicherung wird hier über so genannte Tier-Level von 0 bis 6 vorgenommen – die umfassendste K-Fall-Vorsorge wird dabei mit Tier 6 eingestuft. Die Zielfestlegungen hierfür wurden in Abstimmung mit den zuständigen Fachabteilungen ermittelt. Dabei muss den Verantwortlichen deutlich gemacht werden, dass ein höherer Verfügbarkeitsgrad auch größere Kosten verursacht. Der Fokus muss klar auf die Kern-Anwendungen im Unternehmen gelegt werden.

[Illustration]
Abbildung 3: Beispiel einer Darstellung der Verfügbarkeit von Services – die Ampelfarben lassen leicht erkennen, wo noch Handlungsbedarf besteht (grün = Vorsorgemaßnahmen erledigt, gelb = Absicherungen teilweise erfolgt, rot = Aktivitäten sind eingeplant).

Teststrategie

Nachdem eine Zweitlokation ihren Betrieb aufgenommen hat, gilt es eine neue Testtrategie zu entwickeln. Bei der TK war das klassische Backup-Konzept nun nicht mehr existent, so traf bereits der frühere Name Backuptest nicht mehr zu. Als neues Schlagwort wurde IT-Continuity gewählt, da vom Wiederherstellen der Systeme und Anwendungen in einer Hochverfügbarkeitslösung keine Rede mehr sein kann.

Im Zuge der Umarbeitung hat sich das IT-Notfallhandbuch der TK von 165 Doppelseiten, in denen die Recovery-Prozeduren detailliert beschrieben waren, auf 50 Seiten reduziert. Die Umschaltprozesse laufen letztlich weitgehend automatisch, zudem überlassen Microsoft Geo-Cluster-Lösungen mit "Majority Node Set"-Eigenschaften einem Tie-Breaker an einem unabhängigen (dritten) Standort die Entscheidungsmöglichkeit, welcher Cluster-Knoten bei Ausfall einer Lokation aktiviert wird.

Einmal im Jahr findet bei der TK ein IT-Continuity-Gesamttest statt, bei dem alle Geschäftsstellen produktiv nur über eine Lokation mit IT-Leistung versorgt werden. Um die Kontinuität der Systeme ständig unter Kontrolle zu haben, werden zusätzlich selektive Tests einzelner Systeme wie SAP, Notes, WTS oder Internetdiensten an einem produktiven Samstag aus nur einer Lokation eingeplant.

Abschließend ist aus den Erfahrungen der TK festzustellen, dass ein ARZ-Kunde, der Mainframe-orientiert ist, bei einem kommerziellen ARZ-Anbieter gut aufgehoben ist. Sobald jedoch die Anforderungen in Richtung Hochverfügbarkeitslösungen steigen und die Open-Systems-Welt mit unterschiedlichen Plattformen einbezogen wird, erscheint eine Eigenlösung geboten. Die Kosten der ARZ-Vorhaltegebühren für Server, die nur auf einen K-Fall warten, sind letztlich heute nicht mehr wirtschaftlich: Der "Vergoldungsprozess" der eigenen Maschinen setzt bereits nach 1,5 Jahren ein.

Christian Senger ist verantwortlich für die Business Continuity der Techniker Krankenkasse in Hamburg.