AgoraNomade
Well-known member
Une panne mondiale de Canva, Perplexity et Snapchat, mais aussi Fortnite, a paralysé des milliers de services web hier 19 octobre. Ce qui était prévu être un simple bug dans le système de gestion DNS de la base de données DynamoDB d'Amazon s'est avéré être une catastrophe.
L'incident, qui a duré plus de 14 heures, a entraîné l'impossibilité d'accéder à de nombreuses applications et services web, notamment ceux liés à la productivité ou au divertissement. Les systèmes qui ont été les plus affectés étaient ceux qui dépendaient fortement du service DynamoDB, tel que le système EC2 pour gérer les serveurs virtuels et les répartiteurs de charge réseau.
Selon Amazon, la panne était due à un défaut latent dans le système de gestion DNS de DynamoDB. Ce système utilise des centaines de milliers d'enregistrements DNS qui orientent le trafic vers les bons serveurs. La panne a eu pour effet d'effacer complètement l'adresse DNS de DynamoDB, rendant le service totally inaccessible.
Cette défaillance a provoqué une réaction en chaîne catastrophique, car de nombreux services AWS dépendent de DynamoDB pour fonctionner. Le système EC2 qui gère le lancement de nouveaux serveurs virtuels a été paralysé, car il utilisait DynamoDB pour maintenir son état de santé.
Amazon a expliqué que ce n'était pas une panne commune, mais qu'elle avait des conséquences graves sur les services web qui dépendent de DynamoDB. La région AWS la plus ancienne et la plus utilisée au monde, US-EAST-1, était touchée.
La panne a également eu un impact mondial, car de nombreuses applications dites globales s'appuient souvent sur cette région pour gérer l'authentification, les métadonnées ou certains états critiques. L'architecture moderne des applications aggrave ce phénomène : elles sont construites en assemblant des services (bases de données, files d'attente, fonctions sans serveur).
Ookla a compilé les réactions de sa communauté et a raconté cet incident majeur. Le service DownDetector comptabilise plus de 17 millions de signalements d'utilisateurs dans plus de 60 pays, soit une augmentation de 970 % par rapport à la normale.
Les entreprises les plus touchées ont été Snapchat (3 millions de rapports), Roblox (716 000 rapports) et des services bancaires britanniques. Les États-Unis enregistrèrent 6,3 millions de signalements, le Royaume-Uni 1,5 million.
Ookla a souligné que la panne était due à une réaction en chaîne imprudente : le système d'authentification d'AWS a également été touché. Les équipes techniques n'ont pas pu se connecter à la console AWS pour appliquer des correctifs, déplacer le trafic ou redémarrer des services.
En fin de compte, l'entreprise recommande une culture du "ralentissement progressif et non pas seulement panne totale". Cela signifie être capable de désactiver un à un certains services lourds pour protéger le cœur de l'activité. Sur un SnapChat, cela pourrait se traduire par un arrêt du téléversement de média, l'application passant alors en lecture seule.
L'incident, qui a duré plus de 14 heures, a entraîné l'impossibilité d'accéder à de nombreuses applications et services web, notamment ceux liés à la productivité ou au divertissement. Les systèmes qui ont été les plus affectés étaient ceux qui dépendaient fortement du service DynamoDB, tel que le système EC2 pour gérer les serveurs virtuels et les répartiteurs de charge réseau.
Selon Amazon, la panne était due à un défaut latent dans le système de gestion DNS de DynamoDB. Ce système utilise des centaines de milliers d'enregistrements DNS qui orientent le trafic vers les bons serveurs. La panne a eu pour effet d'effacer complètement l'adresse DNS de DynamoDB, rendant le service totally inaccessible.
Cette défaillance a provoqué une réaction en chaîne catastrophique, car de nombreux services AWS dépendent de DynamoDB pour fonctionner. Le système EC2 qui gère le lancement de nouveaux serveurs virtuels a été paralysé, car il utilisait DynamoDB pour maintenir son état de santé.
Amazon a expliqué que ce n'était pas une panne commune, mais qu'elle avait des conséquences graves sur les services web qui dépendent de DynamoDB. La région AWS la plus ancienne et la plus utilisée au monde, US-EAST-1, était touchée.
La panne a également eu un impact mondial, car de nombreuses applications dites globales s'appuient souvent sur cette région pour gérer l'authentification, les métadonnées ou certains états critiques. L'architecture moderne des applications aggrave ce phénomène : elles sont construites en assemblant des services (bases de données, files d'attente, fonctions sans serveur).
Ookla a compilé les réactions de sa communauté et a raconté cet incident majeur. Le service DownDetector comptabilise plus de 17 millions de signalements d'utilisateurs dans plus de 60 pays, soit une augmentation de 970 % par rapport à la normale.
Les entreprises les plus touchées ont été Snapchat (3 millions de rapports), Roblox (716 000 rapports) et des services bancaires britanniques. Les États-Unis enregistrèrent 6,3 millions de signalements, le Royaume-Uni 1,5 million.
Ookla a souligné que la panne était due à une réaction en chaîne imprudente : le système d'authentification d'AWS a également été touché. Les équipes techniques n'ont pas pu se connecter à la console AWS pour appliquer des correctifs, déplacer le trafic ou redémarrer des services.
En fin de compte, l'entreprise recommande une culture du "ralentissement progressif et non pas seulement panne totale". Cela signifie être capable de désactiver un à un certains services lourds pour protéger le cœur de l'activité. Sur un SnapChat, cela pourrait se traduire par un arrêt du téléversement de média, l'application passant alors en lecture seule.