At around 10:40 EST (15:40 UTC), we received some reports that a limited number of clients couldn’t reach our servers.
The incident response team was quickly mobilized and started to run down the checklist.
Their initial observations were:
While the options to bypass the issue were limited, we were able to restore the connection to some clients.
As we were implementing a second mitigation measure, we were notified that the issue had been resolved downstream.
The most probable cause is a connection issue between a particular ISP and one of the main internet exchanges.
The total downtime was between 60 and 90 minutes.
While this type of incident is nearly impossible to accurately foresee, we learn from them and improve our ability to mitigate their impacts.
Lessons learnt from similar incident allowed our team to efficiently identified the most likely cause and implement available curative measures.
=================================
Vers 10:40 HNE (15:40 UTC), nous avons reçus des informations à l’effet qu’un nombre limité de clients n'étaient plus capable de rejoindre nos serveurs.
L'équipe de gestion d’incident a été rapidement mobilisé et a pris charge de la situation.
Leurs premières observations étaient:
Les options pour contourner le problème étaient limitées mais nous avons été en mesure d’en appliquer une pour certains clients. Pendant qu’une deuxième, plus complexe, était en déploiement, nous avons été avisés que le problème avait été corrigé en aval.
La cause la plus probable est un problème de connexion entre un fournisseur internet spécifique et l’un des points d'échange internet.
La panne a durée entre 60 et 90 minutes selon les clients.
Bien que ce type d’incident soit quasi-impossible à prévoir, nous apprenons de chacun et améliorons notre capacité à en réduire les impacts.
Les leçons apprises lors d’incidents similaires ont permis à notre équipe d’identifier rapidement la cause la plus probable et de mettre en place des mesures curatives.