Connection issues / Problèmes de connection
Incident Report for SE2 inc.
Postmortem

Leadup

On Thursday August 26th 2021 at 20h30 EDT (00h30 UTC), some of our East Coast servers became inaccessible, including production servers.

Fault

Due to interconnection between systems, even those hosted with a supplier that wasn’t directly affected couldn’t be reached.

Detection

Our monitoring worked well, the response team was alerted and mobilized quickly.

Root Causes

A hardware fault at one of our providers caused the server connection issue and reduced our ability to restore them quickly.

Mitigation and Resolution

We were able to quickly determine how widespread the issue was and pinpoint the cause. We contacted our supplier and worked with them so restore our network focusing on the West Coast and Pacific Islands. Since it was a physical fault, it took a bit longer than usual to get the situation resolved.

Lessons Learnt

It confirmed that we need better segregation to handle localized outages. The plan for those upgrades has been pushed forward.


Incident

À 20h30 HAE (00h30 UTC) le 26 août 2021, certains de nos serveurs n'étaient plus accessible, incluant des serveurs de production.

Faille

Dû à l’interconnectivité entre les systèmes, même ceux qui n'étaient pas directement affecté ne pouvaient être rejoint.

Détection

Nous outils de surveillance et d’alerte ont bien fonctionné, l'équipe d’urgence a été informé et mobilisé rapidement.

Cause

Un bris d'équipement physique chez un de nos fournisseurs a causé les pertes de connexions et a réduit notre capacité de corriger le problème rapidement.

Résolution

Nous avons été en mesure de rapidement comprendre l’ampleur du problème et d’en déterminer la cause la plus probable. Nous avons contacté nos fournisseurs de services et travaillé avec eux pour remettre le réseau en ligne en priorisant la côte Ouest et les Îles du Pacifique. Puisqu’il s’agissait d’un bris physique, le remise en état a pris plus de temps que d’habitude.

Leçons apprises

Cet incident a confirmé le besoin de mieux ségréger notre infrastructure pour améliorer notre tolérance aux failles localisées. Les plans de déploiement de cette solution seront priorisés.

Posted Aug 27, 2021 - 10:10 EDT

Resolved
All production systems are back online and stable. A post-mortem will be issued in the next few days.

/-----/

Tous les systèmes de production sont en ligne et stable. Un post-mortem sera publié dans les prochains jours,
Posted Aug 26, 2021 - 22:52 EDT
Monitoring
All systems are back online, we'll keep monitoring the situation and investigate what happened. First indications point to a widespread network issue.

/---/

Tous les systèmes sont accessibles, nous allons continuer de surveiller la situation et investiguer les causes de cet incident. Les premières indications pointent vers un problème affectant un éventail de service.
Posted Aug 26, 2021 - 22:21 EDT
Investigating
We are currently experiencing network issues that block access to Alice POS, we're currently working on identifying the cause and restoring access.

/----/

Nous avons présentement des problèmes réseaux qui empêche l'accès à Alice POS, nous travaillons à identifier et corriger le problème.
Posted Aug 26, 2021 - 21:31 EDT
This incident affected: Alice POS (East Coast 1 (1723), East Coast 2 (4157), Dedicated 1 (8553), West Coast (3420)).