Alice POS - Incident

Incident Report for SE2 inc.

Postmortem

At or around 12:10 EDT (16:10 UTC) on August 6, 2023, our monitoring tools reported connectivity issues affecting most of our infrastructure. Shortly after, multiple clients reported that they couldn't reach our servers.

The incident response team was mobilized and started going through the checklist.

They were able to quickly narrow down the issue to one of our providers, who was contacted.

The provider confirmed that they had a major incident affecting connectivity, but the servers were unaffected and still running.

At or around 13:45 EDT (17:45 UTC), the issue had been resolved, and the servers were reachable.

Our provider has confirmed that their team has identified and resolved the root cause of this issue.

The total downtime was roughly 90 minutes, and most of our North American infrastructure was affected.

Lessons from previous incidents allowed part of our infrastructure to remain operational and unaffected.

While this type of incident is nearly impossible to accurately foresee, we learn from them and improve our ability to mitigate their impacts.

=================================
Vers 12h10 HAE (16h10 UTC) le 6 août 2023, nos outils de surveillance ont détecté des problèmes de connexion affectant une grande partie de notre infrastructure. Peu de temps après, plusieurs clients nous ont rapporté qu'ils ne pouvaient pas accéder au service.

L'équipe de gestion d'incident a été mobilisée et a pris en charge la situation.

Ils ont rapidement été en mesure de déterminer que l'un de nos fournisseurs en était la source et ils ont pris contact avec eux.

Le fournisseur a confirmé qu'ils avaient un incident majeur qui empêchait la connexion aux serveurs mais que ces derniers étaient toujours en fonction.

Vers 13h45 EDT (17h45 UTC), les connexions étaient de nouveau possibles.

Notre fournisseur a confirmé que leur équipe a identifié et corrigé la source de cet incident.

La panne a duré environ 90 minutes et la majeure partie de notre infrastructure nord-américaine a été affectée.

Les leçons apprises lors des derniers incidents nous ont permis d'isoler une partie de notre infrastructure qui est restée fonctionnelle.

Bien que ce type d'incident soit quasi-impossible à prévoir, nous apprenons de chacun d'entre eux et améliorons notre capacité à en réduire les impacts.

Posted Aug 07, 2023 - 11:14 EDT

Resolved

We've confirmed with our provider that the incident is resolved. The servers themselves were not affected, it was a connection issue. We'll keep working with our provider to understand the root cause and take proper steps to mitigate the impact of similar incidents.

A post-mortem will be published in the next few days.

Thank you

Alice POS Team

------------------------------------------
Nous avons confirmé avec notre fournisseur l'incident est résolu. Les serveurs n'ont pas été directement affecté, il s'agissait d'un problème de connexion. Nous allons continuer de collaborer avec notre fournisseur pour comprendre la cause de l'incident et prendre les mesures nécessaires pour minimiser les impacts d'un tel incident.

Un post-mortem sera publié dans les prochains jours.

Merci

Équipe d'Alice POS

Posted Aug 06, 2023 - 14:37 EDT

Update

We are continuing to monitor for any further issues.

Posted Aug 06, 2023 - 13:58 EDT

Monitoring

Our providers experienced a major outage and have resolved the issue. We will continue to monitor the situation.
__________________________________

Nos fournisseurs ont connu une panne majeure et ont résolu le problème. Nous continuerons à surveiller la situation.

Posted Aug 06, 2023 - 13:53 EDT

Update

We are continuing to investigate this issue.

Posted Aug 06, 2023 - 12:51 EDT

Investigating

We are currently experiencing issue with out log in servers.

Our team is investigating the cause(s) of this issue.
We will send an additional update as soon as we have more information.

_______________________________________

Nous rencontrons actuellement un problème avec nos serveurs de connexion.

Notre équipe étudie les causes de ce problème.
Nous enverrons une mise à jour supplémentaire dès que nous aurons plus d'informations.

Posted Aug 06, 2023 - 12:50 EDT

This incident affected: Alice POS (East Coast 1 (1723), East Coast 2 (4157), Dedicated 1 (8553), West Coast (3420), Dedicated 2 (6813), Dedicated 3 (1249), East Coast 3 (7492), East Coast 4 (1763)) and REST API.