Around 09:15 EST Monday December 14th 2020, all our systems became unreachable
Due to interconnection between systems, even those hosted with a supplier that wasn’t directly affected couldn’t be reached.
Our monitoring tools alerted us that most of our hosts were not responding and that there was a abnormal number of connection losses throughout the network. Our support team received a great number of calls from clients affected by this issue.
This was a major network outage that affected our primary hosting service, the uplinks between their data centers and QIX were not operating normally. Further investigation demonstrated that this was in all probability linked to the issues that affected Google that morning.
We contacted our supplier as soon as we understood what the issue was limited to the servers hosted with them. Within 30 minutes they had fix the uplinks issue and everything was running normally. We worked with them to investigates the causes.
We are able to quickly identify the issue and communicate the outage to our clients and our team.
We’ve learned that we need to improve segregation to better handle outages from one supplier so that at least some of the systems can be reached.
Incident
Vers 09:15 HNE lundi le 14 décembre 2020 il était impossible de rejoindre nos systèmes.
Faille
Dû à l’interconnectivité entre les systèmes, même ceux qui n'étaient pas directement affecté ne pouvaient être rejoint.
Détection
Nous outils de surveillance nous ont alerté que la plupart de nos serveurs ne répondaient plus et qu’ils y avaient un nombre anormalement élevé de déconnexions à la grandeur de notre réseau. Notre équipe de support a aussi commencé à recevoir un très grand nombre de demande des clients ne pouvant se connecter à Alice POS.
Cause
Il y a eu une panne majeure sur le réseau qui a affecté notre hébergeur principal, les liens entre leur centre de données et QIX ne fonctionnaient plus normalement. Lors de l’analyse, il fût déterminé que c’est fort probablement en lien avec la panne qui a affecté Google ce matin-là.
Résolution
Nous avons contacté notre fournisseur de service dès que nous avons compris que la panne était limitée aux serveurs hébergés chez-eux. En 30 minutes, les liens ont été réparés et tout est rentré dans l’ordre. Nous avons travaillé de paire avec eux pour comprendre la cause.
Leçons apprises
Nous avons été en mesure de rapidement identifié la source du problème et d’informer nos clients et notre équipe de la panne.
Nous avons confirmé que nous nous devons d’améliorer la ségrégation pour être en mesure de mieux gérer les pannes de l’un de nos fournisseurs. Ceci aurait permis qu’une partie de nos clients soient épargnés.