Servers are unreachable | Les serveurs ne peuvent être rejoint

Incident Report for SE2 inc.

Postmortem

Leadup

Around 09:15 EST Monday December 14th 2020, all our systems became unreachable

Fault

Due to interconnection between systems, even those hosted with a supplier that wasn’t directly affected couldn’t be reached.

Detection

Our monitoring tools alerted us that most of our hosts were not responding and that there was a abnormal number of connection losses throughout the network. Our support team received a great number of calls from clients affected by this issue.

Root causes

This was a major network outage that affected our primary hosting service, the uplinks between their data centers and QIX were not operating normally. Further investigation demonstrated that this was in all probability linked to the issues that affected Google that morning.

Mitigation and resolution

We contacted our supplier as soon as we understood what the issue was limited to the servers hosted with them. Within 30 minutes they had fix the uplinks issue and everything was running normally. We worked with them to investigates the causes.

Lessons learnt

We are able to quickly identify the issue and communicate the outage to our clients and our team.
We’ve learned that we need to improve segregation to better handle outages from one supplier so that at least some of the systems can be reached.

Incident

Vers 09:15 HNE lundi le 14 décembre 2020 il était impossible de rejoindre nos systèmes.

Faille

Dû à l’interconnectivité entre les systèmes, même ceux qui n'étaient pas directement affecté ne pouvaient être rejoint.

Détection

Nous outils de surveillance nous ont alerté que la plupart de nos serveurs ne répondaient plus et qu’ils y avaient un nombre anormalement élevé de déconnexions à la grandeur de notre réseau. Notre équipe de support a aussi commencé à recevoir un très grand nombre de demande des clients ne pouvant se connecter à Alice POS.

Cause

Il y a eu une panne majeure sur le réseau qui a affecté notre hébergeur principal, les liens entre leur centre de données et QIX ne fonctionnaient plus normalement. Lors de l’analyse, il fût déterminé que c’est fort probablement en lien avec la panne qui a affecté Google ce matin-là.

Résolution

Nous avons contacté notre fournisseur de service dès que nous avons compris que la panne était limitée aux serveurs hébergés chez-eux. En 30 minutes, les liens ont été réparés et tout est rentré dans l’ordre. Nous avons travaillé de paire avec eux pour comprendre la cause.

Leçons apprises

Nous avons été en mesure de rapidement identifié la source du problème et d’informer nos clients et notre équipe de la panne.
Nous avons confirmé que nous nous devons d’améliorer la ségrégation pour être en mesure de mieux gérer les pannes de l’un de nos fournisseurs. Ceci aurait permis qu’une partie de nos clients soient épargnés.

Posted Dec 18, 2020 - 12:52 EST

Resolved

The situation is resolved.

To clarify, the servers were not down, they we're unreachable due to a wide-spread incident that affected most providers.

We are working with our hosting services to understand exactly what happen and we'll publish a post-mortem as soon have we have all the details.

------

La situation est résolue.

Pour clarifier, les serveurs n'était pas hors fonction, ils étaient inaccessible du à une panne généralisée qui a affecté la plupart des fournisseurs.

Nous allons continuer d'investiguer avec nos hébergeurs pour comprendre exactement ce qui est arrivé et allons publier un post-mortem dès que nous avons les détails.

Posted Dec 14, 2020 - 10:32 EST

Monitoring

Les serveurs sont de nouveau disponibles, nous allons continuer de suivre la situation et pousser l'enquête pour comprendre la cause. C'est possiblement en lien avec les problèmes que Google a eu tôt ce matin.

--------

Severs are back online and Alice is accessible. We'll keep monitoring and push the investigation to understand the causes. It might be related to the issues Google had early this morning.

Posted Dec 14, 2020 - 10:00 EST

Investigating

Our main severs are currently down, we are investigating the cause and will keep you updated as soon as we have more information.

-----

Nos serveurs principaux sont hors fonction, nous enquêtons sur la/les causes et vous tiendrons au courant dès que nous avons plus d'information.

Posted Dec 14, 2020 - 09:42 EST

This incident affected: Alice POS (East Coast 1 (1723), East Coast 2 (4157), Dedicated 1 (8553), West Coast (3420)) and REST API.