Cloudflare s'explique annonce un plan de remédiation après l'incident.
Matthew Prince, le PDG de Cloudflare, fait un mea culpa public, en reconnaissant que l'équipe technique s'est fourvoyée pendant deux heures.
Dans un long billet de blog publié un peu plus tard, Matthew Prince ne mâche pas ses mots.
« Une panne comme celle d'aujourd'hui est inacceptable ». Le PDG promet d'ores et déjà des changements structurels.
Ce sont les fichiers de configuration générés en interne qui sont mis en cause, ils seront désormais traités avec la même rigueur que les données fournies par les clients, avec validation stricte avant déploiement.
Des « coupe-circuits » globaux seront ajoutés pour pouvoir désactiver rapidement une fonctionnalité défaillante.
Les systèmes de débogage ont aussi aggravé la situation.
Quand un serveur rencontre une erreur, il génère automatiquement un rapport détaillé pour faciliter le diagnostic.
Pendant la panne, ces rapports se sont multipliés, consommant tellement de ressources processeur qu'ils ont ralenti encore davantage le traitement des requêtes légitimes.
Cloudflare va aussi plafonner cette consommation.
Pour l'entreprise, qui est l'un des piliers d'Internet avec 20% des sites qui tournent grâce à elle, la leçon est brutale.
Depuis la panne majeure de 2019 (une mise à jour d'une règle de pare-feu mal testée), Cloudflare n'avait pas connu telle défaillance aussi généralisée.
Cette fois, c'est l'excès de prudence qui a failli : vouloir améliorer la sécurité des accès aux bases de données a déclenché un effet papillon dévastateur.
Dans un système aussi complexe, le moindre grain de sable peut gripper la machine entière.