Vrais Avis Clients
4104

Un Problème chez Google Cloud Provoque Une Panne Mondiale

Plusieurs services en ligne ont été rendu indisponible jeudi dernier suite à un problème lié à l’hébergeur Google Cloud. Le problème a pris une ampleur étonnante, provoquant l’interruption de nombreux services numériques essentiels. Un problème de gestion des API serait à l’origine de la panne massive de Google Cloud.

La panne a arrêté certaines parties de Cloudflare, ce qui a causé la mise hors ligne de très nombreux sites web. Les services été affectés comprenaient la totalité des services de Google, Spotify, Discord, Twitch et bien d’autres. Pendant ce temps, l’ensemble du web qui ne dépendaient pas de Google et/ou Cloudflare ne semblaient rencontrer aucun problème.

Voyons un peu plus en détails les causes de cette panne majeure liée à Google Cloud, ainsi que ses conséquences.

Google associe la panne massive du cloud à un problème de gestion des API

Google dit que la panne cloud a commencé vers 10h49 ET et s’est terminée à 3h49 ET. Elle a causé des problèmes à des millions d’utilisateurs dans le monde entier pendant plus de trois heures. L’interruption a perturbé ou fait tomber les services de Google et de nombreuses autres plateformes en ligne.

Outre Google Cloud, l’incident a également affecté Gmail, Google Calendar, Google Chat, Google Cloud Search, Google Docs, Google Drive, Google Meet, Google Tasks, Google Voice, Google Lens, Discover, Recaptcha et Voice Search. La quasi-totalité des services de Google était ainsi perturbés.

Des problèmes généralisés ont aussi affecté les plateformes tierces qui dépendent de Google Cloud. Une liste non-exhaustive de victimes inclut Spotify, Discord, Steam, Snapchat, Twitch et un nombre limité de services Cloudflare. Google s’est excusé des problèmes et a affirmé:

“Nous sommes profondément désolés pour l’impact sur tous nos utilisateurs et leurs clients que cette interruption/panne de service a causé. Les grandes et petites entreprises font confiance à Google Cloud avec leurs charges de travail et nous ferons mieux.”

Google travaille toujours à préparé un rapport d’incident complet. L’entreprise a toutefois révélé aujourd’hui la cause principale de ce qui a causé des millions d’erreurs 503 dans les demandes d’API externes lors de l’interruption de trois heures.

La plateforme de gestion des API Google Cloud aurait échoué en raison de données invalides. Le problème n’aurait pas été découvert et corrigé rapidement, car il manquait de systèmes efficaces de test et de gestion des erreurs.

“D’après notre analyse initiale, le problème s’est produit en raison d’une mise à jour de quota automatisée invalide dans notre système de gestion des API qui a été distribuée globalement, entraînant le rejet des demandes d’API externes. Pour récupérer, nous avons contourné la vérification du quota de non-conformité, ce qui a permis une récupération dans la plupart des régions en 2 heures »

La base de données dans le centre américain est alors devenue surchargée. Cette surcharge a entraîné une récupération beaucoup plus longue dans cette région. Plusieurs produits ont ainsi eu un impact résiduel modéré pendant plus d’une heure après que le problème principal ait été atténué.

Les services de Cloudflare compromis par la panne

Après avoir réussi à restaurer ses propres services impactés, Cloudflare a également publié dans un rapport post-mortem. Il y est mentionné la panne d’hier n’était pas causé par un incident de sécurité et qu’aucune donnée n’avait été perdue. L’entreprise affirme dans son communiqué:

” La cause de cette panne était due à une défaillance dans l’infrastructure de stockage sous-jacente utilisée par notre service Workers KV, qui est une dépendance critique pour de nombreux produits Cloudflare et sur laquelle on s’appuie pour la configuration, l’authentification et la livraison des actifs dans les services affectés. Une partie de cette infrastructure est soutenue par un fournisseur tiers de cloud, qui a subi une panne aujourd’hui et a directement impacté la disponibilité de notre service KV.”

Un porte-parole de Cloudflare a déclaré hier que seuls les services reposant sur Google Cloud étaient affectés. En réponse à cet incident, Cloudflare déclare qu’il va migrer le magasin central de KV vers son propre stockage d’objets R2. Cette décision permettra alors de réduire la dépendance externe. Cloudflare pourra ainsi éviter des problèmes similaires à l’avenir.

Pour conclure sur la panne provoqué par un problème chez Google Cloud

La panne majeure causé par le problème de Google Cloud a affecté des centaines de millions d’internautes. La quasi-totalité des services de Google ont été rendus indisponibles pendant plusieurs heures, et de nombreuses plateformes tierces ont aussi été affectées.

Cet incident risque d’avoir d’importantes conséquences pour Google, dont la réputation de fiabilité se retrouve entaché. Cloudflare a déjà annoncé sa volonté de changer de plateforme d’hébergement suite à cette panne. On peut se demander si d’autres plateformes majeures pourraient suivre le pas, ou si Google saura préserver leur confiance.

Google vante depuis toujours la fiabilité à toute épreuve de ses services Cloud. Cette panne prolongée affectant une grande partie de la planète attire toutefois l’attention sur le fait qu’il n’est pas infaillible.

Nous espérons que cet article vous a plus et vous a éclairé sur la panne majeur provoquée par un problème chez Google Cloud. Si c’est le cas, nous vous invitons à consulter nos autres articles.

Si vous êtes à la recherche d’un hébergeur web, nous vous invitons aussi à jeter un coup d’œil nos nombreux comparatifs. Vous y trouverez opposés plusieurs des meilleurs acteurs de l’industrie.

L'auteur

Author

Olivier / @Olivier