Der Ausfall eines Dienstes innerhalb eines Computernetzwerks ist ein Problem, das möglichst verhindert und im Fall der Fälle so schnell wie möglich behoben werden muss.
Wenn der betroffene Dienst die Basis für weitere Dienste bildet, wie z. B. die Zeitsynchronisation über einen Zeitserver mit PTP oder NTP, dann kann ein Ausfall katastrophale Folgen haben. Es gibt jedoch verschiedene Möglichkeiten, sich vor Ausfällen zu schützen.
Die möglichen Ursachen von Fehlern verstehen
Bevor Maßnahmen an der Hardware oder Software durchgeführt werden, müssen die Risiken eines Ausfalls, also die möglichen Ursachen, ermittelt werden. Hierfür müssen alle Elemente des Netzwerks analysiert werden, angefangen bei den Grundlagen (Stromversorgung, Kabel usw.) über die Konfiguration der verschiedenen Softwarebausteine bis hin zu den Zeitquellen, ihrer Position in der Netzwerkarchitektur usw. Je größer und komplexer das Netzwerk ist, desto mehr potenzielle Fehlerquellen gibt es. Das heißt jedoch nicht, dass ein kleines Netzwerk robuster ist als ein Netzwerk mit vielen Rechnern, denn es braucht nur einen einzigen Ausfall, um ein gesamtes Netzwerk lahm zu legen.
Ist Redundanz die Lösung?
Sobald alle potenziellen Ausfallrisiken identifiziert sind, können sie durch Redundanz vermieden werden. Wenn zum Beispiel ein Netzteil ausfällt, hat das keinerlei Auswirkungen, wenn ein zweites Netzteil seine Aufgabe so lange übernimmt, bis das erste repariert ist.
Redundanz zu schaffen bedeutet dabei nicht unbedingt, eine exakte Replikation durchzuführen. Der Begriff sollte eher als eine Art Dienstredundanz verstanden werden und nicht als exakte Hardwareredundanz: Das zweite Netzteil kann auch weniger leistungsstark sein, um das erste Netzteil zu kompensieren, und zum Beispiel durch eine USV und Batterie unterstützt werden.
Des Weiteren reicht es nicht aus, einfach jedes Gerät zu duplizieren, um gegen mögliche Ausfälle geschützt zu sein. Neben der Hardware sind auch die Kommunikationswege wichtig. Bei Entwicklung der Architektur eines Netzwerks müssen zwischen den einzelnen Punkten des Netzwerks mehrere Wege eingeplant werden, um sicherzustellen, dass die Nachrichten reibungslos fließen können. Das Hauptziel besteht darin, die Fehlertoleranz des Netzwerks durch eine gute Planung zu erhöhen. Grund hierfür ist, dass eine Verschlechterung eines Dienstes tolerierbarer ist als ein Totalausfall.
Externe Redundanz
Manchmal wird der Ausfall durch ein Problem mit der Verfügbarkeit eines externen Dienstes außerhalb des Computersystems der Organisation verursacht. Zu solchen externen Problemen gehören Stromausfälle, die Nichtverfügbarkeit einer externen Cloud (und damit der zugehörigen Daten), der Ausfall einer Referenzuhr (oder die Verschlechterung ihrer Leistung insbesondere bei Störungen eines GNSS).
Wenn zum Beispiel eine Referenzuhr ausfällt, also nicht mehr funktioniert oder ein Clock Drift auftritt, handelt es sich um einen Totalausfall; denn die Zeitsynchronisation ist für die meisten Abteilungen einer Organisation nützlich.
Auch wenn einige Protokolle toleranter sind als andere, ist es für alle Protokolle (NTP, PTP, IRIG usw.) wichtig, mehrere Referenzuhren zu haben. Bei Nutzung mehrerer Referenzuhren kann der Ausfall einer Uhr effektiv kompensiert werden. Auch lässt sich frühzeitig erkennen, wenn bei einer Uhr eine Abweichung auftritt, ohne dass das Netzwerk davon beeinträchtigt wird. Bei Protokollen, die diese Funktion ermöglichen, ist es wichtig, mit mehreren Referenzzeitquellen zu synchronisieren, damit der Ausfall eines Geräts weiter hinten im Netzwerk keine Auswirkungen hat.
Antizipation erhöht die Widerstandsfähigkeit
Die Bewältigung eines Netzwerkausfalls ist eher eine Frage der Antizipation als der Reaktion. Die Störung oder der Ausfall eines Dienstes wird immer Folgen haben, selbst wenn es gelingt, ihn sehr schnell wieder in Gang zu bringen. Mit einer guten Antizipation ist es möglich, solche Pannen und Ausfälle für die Nutzer transparent zu machen. Eine gute Antizipation ermöglicht zudem die Bereitstellung von hochverfügbaren Diensten, was immer das Ziel sein sollte. In jedem Computernetzwerk kommt es zu Ausfällen. Es geht darum, die Auswirkungen so gering wie möglich zu halten.
Daher muss man sich gegen Ausfälle schützen, unabhängig davon, ob ihre Ursachen außer- oder innerhalb des Netzwerks liegen. Externe Fehler wie Ausfälle von Referenzuhren oder Probleme mit dem Stromnetz können nur mithilfe von Redundanz gelöst werden. Denn in diesen konkreten Fällen hat die Organisation keine Kontrolle über die Reparatur des Dienstes.
Kritische Dienste priorisieren
Je kritischer ein Dienst, desto wichtiger ist es, ihn fehlertolerant zu machen. Die Zeitsynchronisation eines Netzwerks ist eine Aufgabe, von der sehr viele Anwendungen abhängen, und die Gewährleistung ihrer Kontinuität ist von entscheidender Bedeutung. Die Antizipation von Ausfällen beginnt in diesem Fall mit der Planung einer Architektur, die Knotenpunkte vermeidet: Wenn alle Synchronisationswege über einen einzigen Server laufen, dann wird bei Ausfall dieses Servers kein Rechner mehr synchronisiert. Daher ist eine Architektur mit zwei Zeitservern, die physisch nicht von denselben Wegen innerhalb des Computernetzwerks abhängig sind, sinnvoll.
Über den Ausfall hinaus: Verbesserung der QoS
Einige Netzwerkprotokolle, wie z. B. PTP, setzen zur Vorbeugung von Ausfällen im Netzwerk auf Master-Uhren. Jedoch sollte sich nicht allein auf diese Methode verlassen werden. Um einen zuverlässigen und hochverfügbaren Dienst bereitzustellen, muss bedacht werden, dass jeder Teil des Netzwerks ausfallen kann und auch wird. Es muss also sichergestellt sein, dass nicht jeder Ausfall einen Dienst komplett zum Stillstand bringt. In diesem Fall ist die einzige wirksame Möglichkeit, mögliche Ausfälle zu beheben, auf Hardware-Redundanz zu setzen.
Die Hardware-Redundanz hat darüber hinaus noch einen weiteren Vorteil: Die zusätzliche Hardware muss nicht ruhen. Sie kann verwendet werden, um die Belastung der einzelnen Geräte im Netzwerk zu reduzieren. Dies erhöht die Servicequalität und die Verfügbarkeit der Systeme.
Schlussfolgerung
Durch das Hinzufügen von Hardware in das Netzwerk zur Schaffung von Redundanzen wird das Netzwerk komplexer und die Einrichtung und Wartung schwieriger. Doch ist es notwendig, um das Netzwerk insgesamt fehlertoleranter zu machen. Durch diese Anfangsinvestition können später viele Probleme vermieden werden, sollte es zu einem Ausfall kommen. Oder wie Fachexperten für Fehlertoleranz sagen: Vor dem Ausfall ist es zu teuer, aber nach dem Ausfall ist es zu spät.
Als Experte der Zeiterfassung und einer Präsenz in mehr als 140 Ländern ist Bodet Time ein führender französischer Akteur auf dem Gebiet der Zeitsynchronisation und Zeitfrequenz. Benötigen Sie Unterstützung bei der Konzeption einer leistungsfähigen, sicheren und hochverfügbaren Architektur für die Zeitsynchronisation?