At or around 12:10 EDT (16:10 UTC) on August 6, 2023, our monitoring tools reported connectivity issues affecting most of our infrastructure. Shortly after, multiple clients reported that they couldn't reach our servers.
The incident response team was mobilized and started going through the checklist.
They were able to quickly narrow down the issue to one of our providers, who was contacted.
The provider confirmed that they had a major incident affecting connectivity, but the servers were unaffected and still running.
At or around 13:45 EDT (17:45 UTC), the issue had been resolved, and the servers were reachable.
Our provider has confirmed that their team has identified and resolved the root cause of this issue.
The total downtime was roughly 90 minutes, and most of our North American infrastructure was affected.
Lessons from previous incidents allowed part of our infrastructure to remain operational and unaffected.
While this type of incident is nearly impossible to accurately foresee, we learn from them and improve our ability to mitigate their impacts.
=================================
Vers 12h10 HAE (16h10 UTC) le 6 août 2023, nos outils de surveillance ont détecté des problèmes de connexion affectant une grande partie de notre infrastructure. Peu de temps après, plusieurs clients nous ont rapporté qu'ils ne pouvaient pas accéder au service.
L'équipe de gestion d'incident a été mobilisée et a pris en charge la situation.
Ils ont rapidement été en mesure de déterminer que l'un de nos fournisseurs en était la source et ils ont pris contact avec eux.
Le fournisseur a confirmé qu'ils avaient un incident majeur qui empêchait la connexion aux serveurs mais que ces derniers étaient toujours en fonction.
Vers 13h45 EDT (17h45 UTC), les connexions étaient de nouveau possibles.
Notre fournisseur a confirmé que leur équipe a identifié et corrigé la source de cet incident.
La panne a duré environ 90 minutes et la majeure partie de notre infrastructure nord-américaine a été affectée.
Les leçons apprises lors des derniers incidents nous ont permis d'isoler une partie de notre infrastructure qui est restée fonctionnelle.
Bien que ce type d'incident soit quasi-impossible à prévoir, nous apprenons de chacun d'entre eux et améliorons notre capacité à en réduire les impacts.