BulleExpressX
Well-known member
Une panne mondiale de Canva, Perplexity, Snapchat et Fortnite... Amazon détaille l'incident improbable qui a paralysé des milliers de services.
Une panne d'une seule région d'Amazon concentrait énormément de services au cœur des applications modernes. Les explications croisées d'Amazon et d'Ookla, qui édite DownDetector, sont précieuses pour comprendre ce qu'il s'est passé... et tenter de miser à jour la prochaine panne.
La panne du service AWS a eu des conséquences graves pour de très nombreux services web. Elle nous a appris que l'une seule région d'Amazon concentrait énormément de services au cœur des applications modernes. Les causes de cette panne sont expliquées par Amazon et d'Ookla.
La panne, racontée par Amazon, est commencée à 23h48 le 19 octobre 2025 et s'est étendue sur plus de 14 heures. Trois systèmes principaux ont été touchés : DynamoDB (la base de données), les Network Load Balancers (répartiteurs de charge réseau) et EC2 (les serveurs virtuels). Cette défaillance a eu des répercussions en cascade sur des dizaines d'autres services AWS.
Le problème initial, selon Amazon, provenait d'un défaut latent dans le système de gestion DNS de DynamoDB. Pour fonctionner, DynamoDB utilise des centaines de milliers d'enregistrements DNS qui orientent le trafic vers les bons serveurs.
Un bug de synchronisation rarissime a eu pour effet d'effacer complètement l'adresse DNS de DynamoDB, ce qui a rendu le service totalement inaccessible. La panne de DynamoDB a déclenché une réaction en chaîne catastrophique, immobilisant des dizaines de services et faisant perdre l'accès à de très nombreuses applications.
Pour Ookla, c'est précisément le nœud du problème : la panne a une étendue mondiale malgré une origine localisée en Virginie. L'architecture moderne des applications aggrave ce phénomène : les applications sont construites en assemblant des services (bases de données, files d'attente, fonctions sans serveur). Si le DNS ne peut plus résoudre un point d'accès critique comme l'API DynamoDB, les erreurs se propagent en cascade à travers tous les systèmes qui en dépendent.
L'éditeur de DownDetector plaide pour une culture du "ralentissement progressif et non pas seulement de panne totale". Comment ? En étant capable de désactiver un à un certains services lourds pour protéger le cœur de l'activité. Sur un SnapChat, cela pourrait se traduire par un arrêt du téléversement de média, l'application passant alors en lecture seule.
La dépendance à AWS est une réalité qui nous permet de comprendre comment les pannes peuvent avoir des conséquences catastrophiques. La réaction d'Ookla souligne que le cloud, ce n'est pas dans les nuages : il faut être conscient de ces risques et prendre des mesures pour en minimiser l'impact.
Enfin, une panne de cette ampleur montre qu'il est essentiel de bien comprendre la complexité des systèmes et de prendre des mesures préventives pour éviter les conséquences.
Une panne d'une seule région d'Amazon concentrait énormément de services au cœur des applications modernes. Les explications croisées d'Amazon et d'Ookla, qui édite DownDetector, sont précieuses pour comprendre ce qu'il s'est passé... et tenter de miser à jour la prochaine panne.
La panne du service AWS a eu des conséquences graves pour de très nombreux services web. Elle nous a appris que l'une seule région d'Amazon concentrait énormément de services au cœur des applications modernes. Les causes de cette panne sont expliquées par Amazon et d'Ookla.
La panne, racontée par Amazon, est commencée à 23h48 le 19 octobre 2025 et s'est étendue sur plus de 14 heures. Trois systèmes principaux ont été touchés : DynamoDB (la base de données), les Network Load Balancers (répartiteurs de charge réseau) et EC2 (les serveurs virtuels). Cette défaillance a eu des répercussions en cascade sur des dizaines d'autres services AWS.
Le problème initial, selon Amazon, provenait d'un défaut latent dans le système de gestion DNS de DynamoDB. Pour fonctionner, DynamoDB utilise des centaines de milliers d'enregistrements DNS qui orientent le trafic vers les bons serveurs.
Un bug de synchronisation rarissime a eu pour effet d'effacer complètement l'adresse DNS de DynamoDB, ce qui a rendu le service totalement inaccessible. La panne de DynamoDB a déclenché une réaction en chaîne catastrophique, immobilisant des dizaines de services et faisant perdre l'accès à de très nombreuses applications.
Pour Ookla, c'est précisément le nœud du problème : la panne a une étendue mondiale malgré une origine localisée en Virginie. L'architecture moderne des applications aggrave ce phénomène : les applications sont construites en assemblant des services (bases de données, files d'attente, fonctions sans serveur). Si le DNS ne peut plus résoudre un point d'accès critique comme l'API DynamoDB, les erreurs se propagent en cascade à travers tous les systèmes qui en dépendent.
L'éditeur de DownDetector plaide pour une culture du "ralentissement progressif et non pas seulement de panne totale". Comment ? En étant capable de désactiver un à un certains services lourds pour protéger le cœur de l'activité. Sur un SnapChat, cela pourrait se traduire par un arrêt du téléversement de média, l'application passant alors en lecture seule.
La dépendance à AWS est une réalité qui nous permet de comprendre comment les pannes peuvent avoir des conséquences catastrophiques. La réaction d'Ookla souligne que le cloud, ce n'est pas dans les nuages : il faut être conscient de ces risques et prendre des mesures pour en minimiser l'impact.
Enfin, une panne de cette ampleur montre qu'il est essentiel de bien comprendre la complexité des systèmes et de prendre des mesures préventives pour éviter les conséquences.