Intermittent connection issue/Probleme de connexion intermittent
Incident Report for SE2 inc.
Postmortem

Vers 14:15 heure de l'est, nous avons remarqué que les nouvelles connexions à Alice POS étaient impossible. Une vérification rapide de nos outils de monitoring a permis de voir que le serveur de redirection, son relai ainsi que 2 serveurs de productions étaient surchargé de demande de connexions dû à des pertes de connexions.

Nous avons pris des mesures préventives et curatives en repartant le service sur les serveurs de redirection dans les 5 minutes suivant notre prise de connaissance de l'incident. Nous ne pouvions faire la même chose sur les serveurs de production, nous avons donc isolé les adresses IP les plus problématiques et les avons bloquées. Ceci à pris plus de temps puisque la procédure etait plus complexe et qu'initialement tout nous portaient à croire que c'était seulement un effet secondaire temporaire de l'état des serveurs Dispatch et que les serveurs de production n'étaient pas directement affectés.

Ces deux procédures ont permis à la plupart des utilisateurs de se connecter et Alice POS de fonctionner normalement.

Nous avons été en mesure d'identifier l'emplacement général des adresses bloquées et avons pris les mesures correctives avec les propriétaires. Elles consistaient à repartir le routeur qui n'avaient pas été en mesure de se rétablir correctement seul.

En parallèle, nous avons, avec l'aide de nos fournisseurs de service, investigué pour comprendre la cause de ce nombre hautement anormal de pertes de connexions.

Tout porte à croire qu'il y a eu une attaque DDOS majeure et localisée qui a aussi affectée d'autres services (Amazon AWS, Visa, League of Legends, etc).

En moins d'une heure, la situation était redevenue à la normale.


At roughly 14:15 Eastern we started to notice Alice POS's inability to connect to the server before the log in. A quick check of our monitoring tools allowed us to see that both the main dispatch, it's backup and 2 production servers were overloaded with connection requests due to connection drops.

We took preventative and curative measures by restarting the service on both dispatch servers, this was done within the first 5 minutes of us being aware of the incident. This couldn't be done on the production servers so we isolated the IP addresses that were most problematic and blacklisted them. It took us longer to do this due to the fact that's it's a more complex flow and at first we weren't aware that the production servers were directly affected, at first glance, indications were that it was only a temporary side effect of the dispatch servers issue.

Both these steps allowed most users to connect back and Alice POS to work normally again.

We were able to find the general locations of the blacklisted addresses and take corrective measures with the owners. Restarting their routers was required to allow them to recover properly.

At the same time we investigated with our service providers to understand the cause of this highly unusual number of connection loss.

There seems to have been a localized yet major DDOS attack that also affected other services (Amazon AWS, Visa, League of Legends, etc).

Within an hour the situation was stable.

Posted Sep 11, 2020 - 15:34 EDT

Resolved
We're confident the situation is back to normal and the incident is resolved.

----

Nous sommes confiant que la situation est de retour à la normale et que cet incident est résolu.
Posted Aug 25, 2020 - 16:31 EDT
Monitoring
Situation is back to normal.

We've identified the sources of the connection attempts and had to blacklist them as a preventative measure, we are contacting the owners to correct the issues.

A major, widespread DDOS attack seems to be the cause and affected certain regions.

-----

La situation est de retour à la normale.

Nous avons identifié les sources des tentatives de connexions et les avons blacklisté à titre préventif. Nous en contactons les proriétaires pour corriger le problème.

Une attaque DDOS majeure sur Internet serait la cause et aurait affectée certaines régions.
Posted Aug 25, 2020 - 16:16 EDT
Investigating
We are currently experiencing an abnormal number of connection drops on our servers, this prevents connections to Alice POS, the Installer and API.
We are investigating the cause and taking temporary measure to ensure that connections are possible.

We'll keep you informed as the situation develops.

----------------

Nous avons présentement un nombre anormal de perte de connexion sur nos serveurs, ce qui nuis aux connexions d'Alice POS, de l'installeur et l'API.
Nous investiguons les causes et prenons les mesures nécessaires pour s'assurer que les connexions soient possible.

Nous vous tiendrons au courant au fur et à la mesure que nous avons de nouveaux détails.
Posted Aug 25, 2020 - 15:28 EDT
This incident affected: REST API.