Connectivity issue / Problème de connexion

Incident Report for SE2 inc.

Postmortem

At around 10:40 EST (15:40 UTC), we received some reports that a limited number of clients couldn’t reach our servers.

The incident response team was quickly mobilized and started to run down the checklist.

Their initial observations were:

The servers were running normally
The servers were reachable by the majority of our clients with no issues
Due to the low number of affected clients, the issue seemed to be between their ISP and our networks

While the options to bypass the issue were limited, we were able to restore the connection to some clients.
As we were implementing a second mitigation measure, we were notified that the issue had been resolved downstream.

The most probable cause is a connection issue between a particular ISP and one of the main internet exchanges.

The total downtime was between 60 and 90 minutes.

While this type of incident is nearly impossible to accurately foresee, we learn from them and improve our ability to mitigate their impacts.

Lessons learnt from similar incident allowed our team to efficiently identified the most likely cause and implement available curative measures.

=================================

Vers 10:40 HNE (15:40 UTC), nous avons reçus des informations à l’effet qu’un nombre limité de clients n'étaient plus capable de rejoindre nos serveurs.

L'équipe de gestion d’incident a été rapidement mobilisé et a pris charge de la situation.

Leurs premières observations étaient:

Les serveurs fonctionnent correctement
Les serveurs sont rejoignables par la majorité de nos clients
Vu le nombre très limité de clients affectés, le problème semblait être entre leur fournisseur internet et nos réseaux

Les options pour contourner le problème étaient limitées mais nous avons été en mesure d’en appliquer une pour certains clients. Pendant qu’une deuxième, plus complexe, était en déploiement, nous avons été avisés que le problème avait été corrigé en aval.

La cause la plus probable est un problème de connexion entre un fournisseur internet spécifique et l’un des points d'échange internet.

La panne a durée entre 60 et 90 minutes selon les clients.

Bien que ce type d’incident soit quasi-impossible à prévoir, nous apprenons de chacun et améliorons notre capacité à en réduire les impacts.

Les leçons apprises lors d’incidents similaires ont permis à notre équipe d’identifier rapidement la cause la plus probable et de mettre en place des mesures curatives.

Posted Nov 17, 2022 - 14:07 EST

Resolved

The affected clients have had stable connections since our last status update. We consider this incident as resolved.

While very few of our clients were affected by this incident, we opted to mobilize our incident response team as this type of issue has proven that it can be widespread.

Thanks

---

Les clients affectés n'ont pas eu de problème de connexion depuis notre dernier changement de statuts. Nous considérons cet incident comme résolu.

Bien que le nombre de clients affectés par cette panne fût restreint, nous avons choisi de mobiliser notre équipe de gestion d'incident puisque le spectre de ce type d'incident est parfois très large.

Merci

Posted Nov 17, 2022 - 13:35 EST

Monitoring

The connectivity issue has been fixed, all affected clients we know of are now able to use Alice normally. It seemed to have been a network issue between one of our hosting services and a specific ISP. We'll confirm and publish a post-mortem.

We'll keep monitoring the situation for a few hours, just to be safe.

Thanks

----

Les clients affectés sont en mesure de se connecter à Alice normalement. Selon toutes vraisemblance, il s'agissait d'un problème réseau entre un de nos hébergeurs et un fournisseur d'accès internet américain. Nous allons confirmer le tout et publier un post-mortem.

Par précaution, nous allons continuer de suivre la situation.

Merci

Posted Nov 17, 2022 - 12:36 EST

Update

The tests of the temporary measure were successful, we will be implementing it shortly. This will not fix the core issue but will restore connectivity.
We are also in contact with our partners to find the root cause.

If you are experimenting this problem, please contact our support team, they will guide you through the process.

Thanks

-----

Les tests de la mesure temporaire ont été un succès. Nous commençons son déploiement. Ceci ne corrigera pas le problème à la base mais permettra la connexion aux serveurs.
Nous sommes en contact avec nos partenaires pour trouver la cause principale.

Si vous avez ce problème de connexion, veuillez contacter notre équipe de support qui sera en mesure de vous vous guider.

Merci

Posted Nov 17, 2022 - 12:09 EST

Investigating

A few users in Central and Eastern US have reported connectivity issues this morning.

We are investigating the problem, which seems to be a break in the route between the clients and our servers. We are also evaluating temporary measures to restore the connections.

The servers are still up and running, data integrity has not been affected.

-----

Certains utilisateurs à l'est et au centre des États-Unis ont rapporté des problèmes de connexion ce matin.

Nous sommes en train d'invertiguer le problème, qui semble être un bris dans la route entre les clients et nos serveurs. Nous évaluons aussi des mesures temporaires pour restaurer la connexion.

Les serveurs fonctionnent bien, l'intégrité des données n'est pas affectée.

Posted Nov 17, 2022 - 11:39 EST

This incident affected: Alice POS (East Coast 1 (1723), East Coast 2 (4157), East Coast 3 (7492), East Coast 4 (1763)).