Humboldt-Universität zu Berlin - Computer- und Medienservice

Humboldt-Universität zu Berlin | Computer- und Medienservice | Aktuelles und Veranstaltungen | Hintergrund: So kam es zum umfassenden Netzwerk-Ausfall am 4. Mai

Hintergrund: So kam es zum umfassenden Netzwerk-Ausfall am 4. Mai



Am 4. Mai kam es zu einem mehrstündigen umfassenden Netzwerk-Ausfall im Campus-Netz der Humboldt-Universität. Davon betroffen waren sämtliche vom Computer- und Medienservice (CMS) betriebene Dienste, die teilweise bis in den nächsten Tag noch nicht wie gewohnt funktionsfähig waren. Der CMS informiert über die Hintergründe und erklärt, wie es zu diesem Ausfall kommen konnte.

 

Gegen 12 Uhr hatte eine Netzwerkschleife (switch loop) in Adlershof eine Überlastung im Campus-Netz ausgelöst. Diese wurde innerhalb von 30 Minuten erkannt und konnte behoben werden. Durch die Überlast der Netzwerkschleife wurde jedoch im Zusammenhang mit einem laufenden Netzwerkprojekt (Ablösung des MPLS/VPLS-Netzes durch eine Ethernet-Fabric) ein Redundanzprotokoll (Metro Ring) ausgelöst, das bisher noch nicht aktiv war. Eine bisher unauffällige Fehlkonfiguration dieses Redundanzprotokolls führte dazu, dass in einem wichtigen Server-Netzwerk der HU, in dem sich alle zentralen Mailserver, aber auch der primäre DNS-Server befinden, Paketverluste und inkonsistente Zustände auftraten. Bei Ausfall des DNS-Servers funktioniert die Auflösung von Server-Namen wie hu-berlin.de, box.hu-berlin.de, mailbox.hu-berlin.de usw. in Internet-Protokoll-Adressen (IP-Adressen, wie 141.20.1.3) nicht mehr beziehungsweise verzögert sich. Aus Sicht der Anwendenden wirkt sich ein solcher Ausfall wie ein kompletter Netzausfall aus.


Viele der vom Computer- und Medienservice betriebenen Dienste sind von anderen Diensten abhängig und kommunizieren untereinander. Sind einzelne Dienste nicht mehr erreichbar, können auch Dienste wie E-Mail, HU-Box, Moodle und weitere nicht genutzt werden.

 

Das Auffinden der Fehlkonfiguration im Redundanzprotokoll gestaltete sich als überaus komplex und zeitaufwändig. Die Störung konnte deshalb erst am Abend grundsätzlich beseitigt werden. Zudem mussten einige Dienste nach Behebung der Netzwerkprobleme angepasst werden. Weitere Nacharbeiten haben sich bis in den Vormittag des Folgetags hinein hingezogen.

 

Im Zuge des Projektes zur Ablösung des Kernnetzwerks der HU durch einem Ethernet-Fabric-Kernnetz werden alte Netzwerk-Protokolle wie MPLS, VPLS, aber auch das Metro-Ring-Protokoll überflüssig und abgeschaltet. Das fehlerhaft konfigurierte Metro Ring-Protokoll wurde entfernt.

 

Mit einer verbesserten Kommunikationsstrategie wird der Computer- und Medienservice zukünftig alle HU-Angehörigen nicht nur über Notfälle, sondern auch über größere Störungen wie am 4. Mai zeitnah informieren. Hierfür soll unter anderem eine externe Störungsseite über eine leicht zu merkende Webadresse eingerichtet und über verschiedene Kanäle bekannt werden.

Der Computer- und Medienservice bittet um Entschuldigung für die entstandenen Unannehmlichkeiten und wird weiter daran arbeiten, die Zuverlässigkeit der Dienste und des Campus-Netzwerkes mit allen verfügbaren Mitteln zu verbessern.