Cardanos Verhalten bei globalen Netzwerkproblemen

Am Sonntag, den 30. August 2020 um 12 Uhr (MESZ) hatte der US-Internetdienstanbieter CenturyLink einen größeren Netzwerkausfall, wie dieser Screenshot von Downdetector zeigt

Fast augenblicklich färbten sich viele Systeme zur Überwachung von Netzwerken und IT-Infrastrukturen rund um den Globus rot. Ciscos ThousandEyes Outage live dashboard zeigte einen außergewöhnlichen Spitzenwert an gemeldeten Netzwerkproblemen.

Hier finden Sie eine Beschreibung des BGP routing mistake, der dieses Problem verursacht hat. Es ist überraschend, dass solche Ankündigungsfehler immer noch auftreten können, wenn RPKI seit einiger Zeit verwendet wird. Es liefert kryptographische Beweise als Lösung für dieses Vertrauensproblem.

Das ist also eine gute Gelegenheit um mögliche Auswirkungen auf das Cardano Shelley Mainnet zu beobachten und analysieren.

Es basiert im ersten Monat nach dem Start noch nicht auf einem automatischen P2P-System. Stattdessen können Pool-Betreiber manuelle Peer-Listen führen. Oder alternativ halbautomatisch generierte Listen aus dem TopologyUpdater service verwenden.

Welche Stabilität kann in diesem Stadium der Entwicklung erreicht werden?

Haben sich regionale Peering-Cluster gebildet, die unerwartet sensibel auf plötzlich auftretende globale Routing-Probleme reagieren? Haben einige Pool-Betreiber der Einfachheit halber beschlossen nur mit IOHK-Bootstrap-Knoten zu peeren?

Das folgende Diagramm zeigt einen Relay-knoten mit Standort Deutschland. Wir interessieren uns nun für drei wesentliche Kennlinien:

Auswirkung globaler BGP Routing-Probleme auf die Stabilität des Cardano Blockchain Netzwerkes

Die obere grüne Linie zeigt signifikante Rückgänge von etwa 25% bei den verbundenen Gegenstellen.
Die mittlere rote Linie, welche die Blockdichte anzeigt, liegt idealerweise bei einem Wert um 5% und sollte nicht signifikant abfallen. Da dies nicht geschehen ist, ist dies ein sehr gutes Zeichen.
An der braunen unteren Linie können man auch erkennen, dass sich die Transaktionen im MemPool nie akkumuliert haben. Deshalb wurden sie immer so schnell wie möglich bearbeitet und in Blöcke verpackt.

Andere Knotenpunkte in anderen Regionen zeigten ähnliche, aber mehr oder weniger ausgeprägte Auswirkungen. In keinem bekannten Fall führte dies zu einer unzureichenden Vernetzung und Kommunikation.

Ausfall und Erholung

Da CLIO1 den TopologyUpdater entwickelt hat und ihn bis zur Einführung des P2P-Netzwerks allen Stake-Pools im Cardano-Netzwerk kostenlos zur Verfügung stellt, ist es auch möglich, eine Grafik zu zeichnen, die zeigt, wie sich dieses Netzwerkproblem auf die Kommunikation der rund 660 registrierten Pool-Knoten ausgewirkt hat.

Die folgende Grafik zeigt, dass etwa 60 Knoten, d.h. etwa 10% keine Verbindung mehr hatten.

Und Sie können auch sehen, dass die Verbindung relativ schnell wiederhergestellt wurde, nachdem die globalen Routing-Probleme gelöst waren. (grün = erreichbar / rot = nicht erreichbar)

Alles in allem war dieses ungewöhnliche Ereignis – mit vielen Ausfällen globaler Internetdienste – für das dezentralisierte Cardano Mainnet kein Problem.

Aber andere, größere Herausforderungen werden folgen, daher ist es wichtig, dass wir gut ausgebildete StakePool-Betrieber haben, die wirklich wissen, was sie tun.