Systeme und ihr Umfeld

Ausfallsicherheit

Verfügbarkeit wird zum Überlebensfaktor

Von Barbara Heckerott, Neuss

Mit der zunehmenden Verbreitung des Internets und der Entwicklung der "Net Economy" gewinnt der Faktor Ausfallsicherheit mehr und mehr an Bedeutung. Neben der Vertraulichkeit und der Integrität erfährt nunmehr auch das dritte klassische Ziel der Datensicherheit die Aufmerksamkeit der IT-Verantwortlichen: die Verfügbarkeit. Optimale Performance, zuverlässige Netzwerke und leistungsstarke Rechenzentren sind heute mehr denn je gefragt. Einige Eindrücke aus der Praxis.

Manchmal treffen Ereignisse zusammen, die es laut Statistik eigentlich gar nicht geben dürfte. So im vergangenen Herbst, als unabhängig voneinander zwei Bagger zum gleichen Zeitpunkt die Netzwerk-Glasfaserverbindungen des Informatik-Zentrums Bayern (IZB) zwischen Augsburg und Würzburg sowie zwischen Augsburg und Regensburg unterbrachen. Die Augsburger Kunden des bayrischen Dienstleisters merkten von dieser Störung allerdings überhaupt nichts. Denn Ausfallsicherheit wird bei dem Dienstleistungsunternehmen, das unter anderem die bayrische Sparkassenorganisation zu seinen Kunden zählt, ganz groß geschrieben.

An das Hochleistungsnetz des IZB sind rund 50 000 Endgeräte angeschlossen; mit etwa 40 000 Kilometern Ausdehnung gehört es zu den größten privaten Routernetzwerken der Welt. Schon allein deshalb liegt die Bedeutung eines hochverfügbaren Netzwerkes auf der Hand: Denn wenn bei einer Sparkasse wegen eines Netzwerkproblems im gesamten Geschäftsgebiet die Geldausgabeautomaten nicht mehr einwandfrei funktionieren, gibt es am nächsten Tag negative Schlagzeilen und unzufriedene Kunden. Deshalb steht die hohe Verfügbarkeit und ein Höchstmaß an Sicherheit beim Informatik-Zentrum Bayern seit jeher im Mittelpunkt des Netzwerkdesigns und des laufenden Betriebs. Heute liegt die in der Praxis statistisch ermittelte Verfügbarkeit im Backbone-Bereich des IZB bei 99,99 Prozent.

Gemeinsam mit dem Siemens-Bereich Information and Communication Networks (ICN) hat der Dienstleister ein ATM-Multiservicenetz (Asynchronous Transfer Mode) realisiert, das den Betrieb auch im Störungsfall garantiert und die ununterbrochene Verfügbarkeit der kritischen Anwendungen sichert, beispielsweise bei Kabelbruch durch Baggerarbeiten. Im Bereich des Komponenten-Backups ist der Siemens ATM-Switch MainStreetXpress 36170, der das ATM-Backbone und die Service-Schnittstellen bedient, redundant ausgelegt und sorgt so für eine hohe Netzverfügbarkeit. Ist eine Leitung unterbrochen oder gestört, sucht die Komponente automatisch nach alternativen Übertragungswegen und schaltet von der gestörten auf eine funktionstüchtige Leitung um.

[Netzplan des Informatik-Zentrums Bayern (Quelle: IZB)]
Zahlreiche Maßnahmen, wie die doppelte Auslegung aller kritischen Komponenten, eine vermaschte Netzstruktur, Verträge mit mehreren Carriern und mehrstufige Backup-Konzepte, sorgen beim Hochleistungsnetz des Informatik-Zentrums Bayern, das mit einer Ausdehnung von rund 40.000 km zu den größten privaten Routernetzwerken der Welt gehört, für eine schnelle und sichere Datenübertragung.

Darüber hinaus sorgt der ATM-Switch für die Einhaltung der Qualitätskriterien (Quality of Service, QoS) beim Mischen verschiedenster Verkehrsarten. Damit der Netzbetrieb auch dann ununterbrochen weiterläuft, wenn keine eigene Ausweichleitung verfügbar ist, sorgt ein automatischer Backup-Mechanismus für die Umschaltung einer unterbrochenen Verbindung auf eine ISDN-Leitung. Eine zusätzliche Redundanz ist hier dadurch realisiert, dass für die ISDN-Leitungskapazität mit der Bayernwerke Netkom und der Deutschen Telekom zwei Carrier unter Vertrag stehen. So ist selbst bei Ausfall eines Carrier-Netzwerkes der Backup-Betrieb über das Netz des anderen Anbieters gewährleistet.

In den Endknoten bei den Kunden sorgt kein zweiter Switch, sondern ein Endgeräte-Backup für die Ausfallsicherheit. Der Router stellt dann über eine Wählverbindung direkt die Verbindung zur Zentrale her. Auf diese Art und Weise kann die IZB eine hohe Verfügbarkeit des Netzes bis hinein in die Sparkassenfiliale garantieren. Und das mit Erfolg: Die Ausfallquote lag dort in den letzten Monaten bei unter einem halben Prozent.

[Netzplan des Informatik-Zentrums Bayern (Quelle: IZB)]
Ein Multiservicenetz auf Basis von ATM und einer Router-Infrastruktur verbindet über ein redundant ausgelegtes ATM-Backbone die Filialen mit den Rechenzentren der Sparkassen.

Redundantes Management

Das Netzwerk-Management läuft über ein logisch unabhängiges Datennetz. Im ATM-Bereich werden die entsprechenden Funktionen über Inband-Management und im Frame-Relay-Bereich über Outband-Management realisiert. Das integrierte Network-Management-System MainStreetXpress 46020 von Siemens unterstützt eine einheitliche Netz- und Diensteführung mit Knoten-, Network- und Fehler-Management sowie mit Leistungsmerkmalen für Billing, Statistik und Alarme. So lässt sich der Status jeder einzelnen Komponente in der gesamten Infrastruktur jederzeit abfragen. Zahlreiche Parameter werden kontinuierlich ermittelt und an das Network-Management-System übertragen, das dann gegebenenfalls automatisch reagieren kann. Auch die Netzwerk-Management-Systeme sind redundant ausgelegt und räumlich getrennt, sodass man auch hier bei einem Ausfall ohne Unterbrechung weiterarbeiten kann.

Insgesamt ist die Anwenderunterstützung auf drei Ebenen organisiert: Bei Problemen steht den Kunden zunächst rund um die Uhr ein zentrales Servicecenter in Nürnberg zur Verfügung (First-Level-Support). Können die Techniker hier nicht innerhalb eines vorher vereinbarten Zeitfensters helfen, so wird die Meldung über ein Problemmanagementsystem als "Trouble-Ticket" an den zentralen Second-Level-Support in München weitergegeben, dessen Techniker ebenfalls 24 Stunden am Tag erreichbar sind. Auf der dritten Ebene ist dann der technische Support angesiedelt, den Siemens ICN übernommen hat und der bei Bedarf vor Ort Komponenten austauscht oder andere Maßnahmen zur Fehlerbehebung ergreift.

Flughafennetzwerk

Auch auf dem Kölner Konrad Adenauer-Flughafen ist man dank der Implementierung eines hochverfügbaren ATM-Netzwerkes heute bestens gegen Systemausfälle gerüstet. Mit einem durchschnittlichen Zuwachs von über 10 Prozent beim Passagier- (11,1 Prozent) und Frachtverkehr (9,7 Prozent) rangiert der 1950 eröffnete Airport heute an fünfter Stelle der deutschen Verkehrsflughäfen, Tendenz steigend. Schon 1995 erkannten die Flughafenbetreiber, dass die bestehende Netzwerkstruktur das steigende Verkehrsaufkommen langfristig nicht verkraften würde und begannen mit Unterstützung der NK Networks & Services GmbH sämtliche Flughafengebäude – vom Schalter bis zum Zeitungskiosk – auf Basis der ATM-Technologie zu vernetzen.

So glänzt der nordrhein-westfälische Flughafen seit einigen Monaten durch das neue Terminal mit einer hochmodernen Netzwerkarchitektur auf Basis unterschiedlicher Cisco-Komponenten, welche die Abfertigung des wachsenden Passagieraufkommens erheblich erleichtert. Das Flughafennetz entspricht sämtlichen Anforderungen an Skalierbarkeit und Multimediafähigkeit. Es besteht aus einem 622-Mbit/s-Backbone-Ring in monomodaler Glasfaser, der alle Gebäude des Flughafengeländes umfasst. Insgesamt acht Cisco ATM-Switches LS1010 sorgen in redundanter Konfiguration für die Hochverfügbarkeit des Backbones. Um die Ausfallsicherheit weiter zu verbessern, wurde der ATM-Ring außerdem durch eine Querverbindung verknüpft. Dies ermöglicht sowohl eine Verteilung der Datenlast als auch die dynamische Umschaltung beim eventuellen Ausfall einer Teilstrecke im Netz.

[Netzplan des Flughafens Köln/Bonn]
Das Netz des Kölner Konrad Adenauer-Flughafens besteht aus einem 622 Mbit/s Backbone-Ring in monomodaler Glasfaser, der alle Gebäude des Flughafengeländes umfasst. Insgesamt acht Cisco ATM-Switches LS1010 sorgen in redundanter Konfiguration für die Hochverfügbarkeit des Backbones.

Die unterschiedlichen Bereiche des Airports sind über insgesamt 30 Catalyst Ethernet-Switches – die so genannten Etagenverteiler – mit einer Kapazität zwischen zehn und hundert Megabit pro Sekunde an das Backbone angebunden. Die über tausend Endgeräte wiederum speisen ihre Datenpakete via Fast-Ethernet in das ATM-Netz. Ein ATM/Ethernet-Switch gewährleistet an den Hauptknoten des ATM-Ringes die "Übersetzung" der Datenströme von der ATM- in die Ethernet-Technologie.

Wettbewerbserfordernis

Der schnelle und sichere Zugriff auf Informationen wird branchenübergreifend immer essenzieller, um wettbewerbsfähig zu bleiben. Dementsprechend nehmen auch die Ansprüche an die IT-Infrastruktur zu. Egal ob "Old" oder "New Economy": Kaum ein Unternehmen kann es sich heute mehr leisten, Web-, E-Commerce oder Daten-Server auch nur kurzzeitig ausfallen zu lassen. Um die Anforderungen an die Netzinfrastruktur zu erfüllen, reicht jedoch die Bereitstellung eines hochverfügbaren Netzwerkes allein längst nicht aus. Auch Hard- und Software müssen entsprechend stabil und leistungsfähig sein. Außerdem muss man die Komponenten in einer Weise überwachen, dass Fehler und Ausfälle schnell erkennbar und im Idealfall automatisch zu beheben sind.

----------Anfang Textkasten----------

4-Stufen-Plan für Verfügbarkeit

Die Grundvoraussetzung für ein hochverfügbares Informationssystem sind geeignete Maßnahmen zur Erhöhung der Ausfallsicherheit der einzelnen Systeme. Als Realisierungskonzept für eine hohe Verfügbarkeit von Informationssystemen hat sich ein Vier-Stufen-Plan bewährt, nach dem etliche IT-Dienstleister vorgehen. Dieser gliedert sich in folgende, aufeinander aufbauende Maßnahmen:

----------Ende Textkasten----------

In den Hochverfügbarkeitsrechenzentren der Gegenwart kommen – aufgrund der weit verbreiteten Client-Server-Architektur – derzeit zum großen Teil Unix-Systeme zum Einsatz. Die optimal skalierbaren Rechner sind so konstruiert, dass sie bei jedem Systemstart automatisch prüfen, ob sich die erforderlichen Prozessoren, Speicher, Controller, Platten und Laufwerke ansprechen lassen. Sobald das System eine Hardwarestörung ermittelt, dekonfiguriert das Testprogramm das beschädigte Element automatisch und ersetzt das betroffene Teil durch eine andere Komponente. Dazu ist selbstverständlich eine redundante Konfiguration erforderlich. Erst wenn das Testprogramm keine fehlerhaften Hardwareteile erkennt, startet es das Betriebssystem mit allen dazugehörigen Hardwarekomponenten. Einige Server können sogar dann einen Systemabsturz ausschließen, wenn Hardwarekomponenten erst nach dem automatischen Selbsttest Probleme machen. Solche Verfahren erkennen zur Laufzeit sowohl permanente als auch transiente Fehler.

Unix statt Super-GAU

Während des laufenden Server-Betriebs prüfen Online-Diagnose-Routinen permanent den Zustand der verschiedenen Komponenten wie etwa Stromversorgung, Lüfterbetrieb und Temperatur. Beim Einsatz von Unix-Systemen muss zudem der Ausfall einer Festplatte nicht zwangsläufig auch den Super-GAU, den Ausfall des Gesamtsystems, bedeuten. Denn einige Hochleistungsrechner sind in der Lage, die ausgefallene Komponente automatisch zu bestimmen und auszukonfigurieren. So kann man zumindest so lange eingeschränkt weiterarbeiten, bis der Service das beschädigte Element ersetzt und neu konfiguriert hat.

Neben den Systemen und Netzwerkkomponenten spielen auch die Haupt- und Massenspeicher eine tragende Rolle im Hinblick auf die Datenverfügbarkeit. Dies wurde zu Beginn dieses Jahres deutlich, als massive Denial-of-Service-Attacken (DoS) stundenlang die Web-Server etlicher namhafter Online-Dienste lahmlegten. Die Server verkrafteten den Ansturm der Anfragen nicht und stürzten ab. Um die explosionsartig wachsende Masse an Daten aus dem Internet zu verarbeiten, benötigen die Unternehmen dementsprechend immer größere Speichervolumina. Denn die Systeme müssen mit steigender Akzeptanz und Verbreitung des Internets immer größeren Belastungen standhalten.

[Foto: EMC Symmetrix-3430/5430 (Quelle: EMC)]
Heutige Speichersysteme ermöglichen auch für offene Systeme mehrere Terabyte Speicherkapazität auf wenig Stellfläche (im Bild: EMC Symmetrix-3430/5430).

Der Speicherbedarf der meisten Unternehmen verdoppelt sich jährlich, mit zunehmenden E-Commerce-Aktivitäten wächst die Datenmenge in NT- und Unix-Umgebungen künftig um 300 bis 400 Prozent; dies ist das Ergebnis einer Studie des Marktforschungsunternehmens Meta Group. Bewältigen lässt sich dieses Wachstum durch neuartige, aus Speicherelementen gebildeten Hochleistungsnetzwerke. Mithilfe dieser Storage Area Networks (SAN) lassen sich große Mengen an Daten zwischen verteilten Speichergeräten übertragen. Dabei operieren die SANs unabhängig vom lokalen Netzwerk. Durch Fibre-Channel-Anbindungen besteht die Möglichkeit, Server und Speichersysteme über Entfernungen bis zu zehn Kilometern zu verbinden und verteilte Anwendungen in einer hochverfügbaren Architektur unternehmensweit zu integrieren – bei Übertragungsgeschwindigkeiten von 100 Megabyte pro Sekunde.

Letztlich bildet das Clustering von Server-Systemen einen weiteren Schritt in Richtung Hochverfügbarkeit. Alle Einzelrechner des Cluster-Systems arbeiten dabei über eine gemeinsame Peripherie wie Terminals, Plattenpools, Drucker und Datenbank. Auf jedem Knoten ist eine spezielle Software installiert, die Ausfälle erkennt und automatisch darauf reagiert. Fällt ein Rechner aus, können über die Hochverfügbarkeits-Monitore die Komponenten direkt über einen anderen Knoten angesprochen werden. Die Benutzer registrieren dabei lediglich eine kurzzeitige Unterbrechung der Anwendung und können anschließend normal weiter arbeiten. Ein Single Point of Failure ist dadurch von vornherein ausgeschlossen.

Zugriff rund um die Uhr

Mit immer geschäftskritischeren Applikationen, der Globalisierung der Wirtschaft und E-Commerce- und E-Business-Projekten wächst für die Unternehmen branchenübergreifend der Druck, IT-Systeme ohne Unterbrechung in Betrieb zu halten. Denn der Verlust von wichtigen Informationen oder die Unterbrechung des Arbeitsablaufs über mehrere Stunden bzw. Tage kann unter Umständen mit Schäden in Millionenhöhe auch den drohenden Bankrott nach sich ziehen. Diese bittere Erfahrung hat das Touristikunternehmen ITS Reisen zum Glück bereits hinter sich. Heute zählt der Veranstalter zu den erfolgreichsten Reiseanbietern der Bundesrepublik. Doch das war nicht immer so: Bevor sich die ITS 1995 unter das Dach der Rewe-Handelsgruppe begab, stand der Betrieb lange Zeit auf wackeligen Beinen. Eine selbstentwickelte, extrem fehleranfällige Unternehmenssoftware, starre Hierarchiestrukturen und die damalige ungenügende informationstechnische Infrastruktur hatten den Betrieb in die roten Zahlen gewirtschaftet. Neben verschlankten Befehlsebenen und einer neuen Geschäftsführung ermöglichte besonders der Wechsel zu einer völlig neuen Hard- und Software-Umgebung den Turnaround des Reiseanbieters.

Seit fünf Jahren betreibt ITS Reisen nun ein hochmodernes Rechenzentrum, das neben der Kölner Zentrale 16 Flughafenstationen und zwei Buchungszentralen direkt in das Hochleistungsnetzwerk des Veranstalters einbindet. So können die Mitarbeiter an 365 Tagen im Jahr rund um die Uhr direkt auf die ITS-Daten zugreifen. Ein komplexes Unix-Cluster der Bull-Gruppe ermöglicht das: Neben einem Escala EPC1200A-Produktionsserver, sorgen unter anderem ein Backupsystem, zwei Firewalls, zwei Datensicherungsserver und zwei Vorschaltrechner für externe Verbindungen für die vom Reiseveranstalter benötigte Performance und Zuverlässigkeit.

Insgesamt betreibt ITS in seinem Rechenzentrum ein Cluster aus 15 Unix-Systemen. Ein EMC² Plattensystem mit einer Speicherkapazität von rund 185 Gigabyte sowie ein Datensicherungssystem mit rund 1,2 Terabyte Gesamtsicherungskapazität sind zusätzlicher Garant für die reibungslose Verwaltung des umfangreichen Datenbestandes. Zum Management dieser komplexen Konfiguration setzt ITS die Evidian-Systemmanagementsoftware OpenMaster ein. Die optimale Sicherung des unternehmensweiten Netzwerkverbundes gewährleistet das Netwall-Modul der Sicherheitslösung Access-Master der Bull-Tochter Evidian. Damit steht dem weiteren Erfolg des Reiseanbieters – zumindest auf informationstechnischer Seite – auch zukünftig nichts mehr im Wege.

Barbara Heckerott ist freie Journalistin mit dem fachlichen Schwerpunkt IT und TK.

© SecuMedia-Verlags-GmbH, D-55205 Ingelheim,
KES 6/2000, Seite 56