Cardanos Widerstand gegen Netzwerkprobleme im globalen Maßstab

Am Sonntag, den 30. August 2020 um 10 Uhr UTC (12 Uhr MESZ) hatte der US-amerikanische Internet Service Provider CenturyLink einen größeren Netzwerkausfall, wie in diesem Screenshot von Downdetektor zu sehen ist. 

Fast augenblicklich färbten sich viele Systeme zur Überwachung von Netzwerken und IT-Infrastrukturen rund um den Globus rot. Cisco’s ThousandEyes Outage Live-Dashboard zeigte einen riesigen und aussergewöhnlichen Höhepunkt.

Hier ist eine Beschreibung des BGP-Routing-Fehlers , der dieses Problem verursacht hat. Es ist überraschend, dass solche Ankündigungsfehler immer noch auftreten können, wenn RPKIseit einiger Zeit verwendet wird. Es liefert kryptographische Beweise als Lösung für dieses Vertrauensproblem.

Dies ist also eine erste gute Gelegenheit, mögliche Auswirkungen auf das Cardano Shelley Mainnet zu beobachten.

Im ersten Monaten nach dem Start, basiert es nocht nicht auf einem automatischen P2P-System. Stattdessen können Pool-Betreiber manuelle Peer-Listen pflegen. Oder sie verwenden alternativ halbautomatisch generierte Listen aus demTopologyUpdater service.

Welche Stabilität kann in diesem Stadium der Entwicklung erreicht werden?

Haben sich regionale Peering-Cluster gebildet, die unerwartet schlecht auf plötzlich auftretende globale Routing-Probleme reagieren? Haben viele Betreiber beschlossen, der Einfachheit halber nur mit IOHK-Bootstrap-Knoten zu arbeiten?

Das folgende Diagramm zeigt einen Relaisknoten mit Standort Deutschland. Wir sind jetzt an drei wesentlichen Kennlinien interessiert:

Auswirkungen globaler BGP-Routing-Probleme auf Cardano-Mainnet-Verbindungen

Die obere grüne Zeile zeigt signifikante Rückgänge von etwa 25% bei den verbundenen remote peers.
Die mittlere rote Zeile, die die Chain-Density anzeigt, ist idealerweise bei 5% und sollte nicht signifikant abfallen. Da dies nicht passiert ist, ist dies ein sehr gutes Zeichen.
Du kannst auch an dem unteren braunen Strich sehen, dass sich die Transaktionen im MemPool nie angesammelt haben. Deshalb wurden sie immer so schnell wie möglich bearbeitet und in Blöcke verpackt.

Andere Knotenpunkte in anderen Regionen zeigten ähnliche, aber eher weniger ausgeprägte Auswirkungen. In keinem bekannten Fall führte dies zu unzureichender Vernetzung und Kommunikation.

Ausfall und Wiederherstellung

Da CLIO1 den TopologyUpdater entwickelt hat und ihn bis zur Einführung des P2P-Netzwerks allen Stake-Pools im Cardano-Netzwerk kostenlos zur Verfügung stellt, ist es auch möglich, eine Grafik zu zeichnen, die zeigt, wie sich dieses Netzwerkproblem auf die Kommunikation der rund 660 registrierten Pool-Knoten ausgewirkt hat.

Die folgende Grafik zeigt, dass etwa 60 Knoten, d.h. etwa 10% der Knoten keine Verbindung mehr hatten.

Und du kannst auch sehen, dass die Verbindung relativ schnell wiederhergestellt wurde, nachdem die globalen Routing-Probleme gelöst wurden. (grün = erreichbar / rot = nicht erreichbar)

Alles in allem war dieses ungewöhnliche Ereignis mit vielen Ausfällen globaler Internetdienste für das dezentralisierte Cardano Mainnet kein Problem.

Aber andere, größere Herausforderungen werden folgen, daher ist es wichtig, dass wir gut ausgebildete Stake-Pool-Betreiber haben, die wirklich wissen, was sie tun.