Incident du 11/01/2023

Ordinateur qui brule

Ce matin, notre infrastructure hébergée chez OVHCloud a subi les conséquences d’un incident sur le réseau.

A la suite de la résolution par OVH de son problème, nous avons dû intervenir pour remettre en fonctionnement nominal notre service. 

L’incident est clos à 10h55.

Le détail de ce qui s’est passé…

Dans la nuit, vers 23h00, nous constatons des problèmes de routage entre les serveurs de notre infrastructure. Cela génère la mise en sécurité automatique de nos serveurs de production. Nous décidons d’attendre la communication officielle de notre fournisseur OVH.

Tôt ce matin, OVH indique que l’incident est toujours d’actualité.

Nous activons donc notre mode « urgence » : tous les appels sont pris en charge et nous communiquons sur notre compte Twitter. Les clients de nos serveurs 3CX se voient proposer un renvoi vers un numéro de portable. Pour les autres, nous mettons en place des solutions en fonction des besoins.

10h30 : OVH nous indique la fin de son incident. Nous intervenons pour rétablir l’ensemble de nos services. Pendant 20 minutes, les serveurs reprennent leur rôle et sont fortement ralentis.

10h55 : Tous les services sont actifs et en fonctionnement normal. Nous faisons une nouvelle vérification de bon fonctionnement sur les serveurs complexes.

Le taux de disponibilité de nos services reste malgré tout très bon sur un an et nous travaillons dans le but de minimiser l’impact d’un incident. Celui d’aujourd’hui étant situé dans le réseau au dessus de nos services, il n’est pas possible de l’éviter (sauf pour les services disposant nativement d’un failover dans un autre datacenter, ce qui est le cas pour notre hébergement 3CX Entreprise).

Nous vous présentons donc nos excuses pour cet incident et la gêne qu’il a pu occasionner.