La resistencia de Cardano a los problemas de red a escala global

El domingo 30 de agosto de 2020 a las 10 de la mañana UTC (12 am CEST) el proveedor de servicios de Internet CenturyLink, con sede en EE.UU., tuvo una importante interrupción de la red, como se puede ver en esta captura de pantalla de Downdetector [Detector de Caídas].

De forma casi instantánea, muchos sistemas de monitorización de redes e infraestructuras informáticas se pusieron en rojo en todo el mundo. El panel de control en tiempo real de ThousandEyes Outage de Cisco mostró un extraordinario y enorme pico.

Es esta una descripción del error de enrutamiento BGP, que ha causado este problema. Resulta sorprendente que tales anuncios de fallos puedan seguir produciéndose cuando se utiliza RPKIdesde hace tiempo. Este proporciona pruebas criptográficas como solución a este problema de confianza.

Entonces, es esta una buena oportunidad para observar por primera vez los posibles efectos en la Red principal [mainnet] de Shelley en Cardano.

Todavía no se basa en un sistema P2P automático en el primer mes después del lanzamiento. Más bien los operadores del pool pueden mantener listas manuales de pares. O bien utilizar listas generadas semiautomáticamente desde el servicio TopologyUpdater.

¿Qué estabilidad se puede conseguir en esta fase de desarrollo?

¿Se han formado grupos regionales de interconexión que reaccionan débilmente de forma inesperada a los problemas repentinos de enrutamiento global? ¿Han decidido muchos operadores interconectarse solo con los nodos de arranque de IOHK por simplicidad?

El siguiente diagrama muestra un nodo de retransmisión con la ubicación de Alemania. Ahora nos interesan tres curvas características esenciales:

Impacto de los problemas de enrutamiento global BGP en las conexiones de la red principal de Cardano

La línea verde superior indica las caídas significativas de alrededor del 25%, en los pares remotos conectados.
La línea rojacentral, que muestra la densidad de la cadena, tiene idealmente un valor en torno al 5% y no debería caer significativamente. Dado que esto no ha ocurrido, es una muy buena señal.
En la línea inferior marrón también se puede observar que las transacciones en el MemPool nunca se han acumulado. Es decir, siempre se han procesado lo más rápido posible y se han empaquetado en bloques.

Otros nodos de otras regiones mostraron efectos similares pero más o menos pronunciados. En ningún caso conocido, esto condujo a la interrupción de la red y la comunicación.

Interrupción y recuperación

Dado que CLIO1 ha desarrollado el TopologyUpdater y lo proporciona gratuitamente a todos los pools de la red Cardano hasta la llegada de la red P2P, también es posible dibujar un gráfico que muestre cómo este problema de red ha afectado a la comunicación de los aproximadamente 660 nodos de pool registrados.

La siguiente gráfica muestra que unos 60 nodos, o sea, alrededor del 10% de los nodos ya no tenían conexión.

También se observa que la conexión se restableció con relativa rapidez una vez resueltos los problemas de enrutamiento global. (verde = alcanzable / rojo = inalcanzable)

En conjunto, este inusual suceso, con muchos fallos en los servicios globales de Internet, no supuso ningún problema para la Mainnet [red principal] descentralizada de Cardano.

Pero otros retos aún mayores vendrán, por lo que es importante que tengamos operadores de StakePool bien formados y que sepan realmente lo que están haciendo.