author Publié par incwo Thu, 02 Jul 2009 15:04:00 GMT

Aujourd'hui entre 11h30 et 16h30 nos services se sont interrompus de manière imprévue. Le service est maintenant rétabli. L'interruption s'est produite chez l'un des centres les plus importants en France. Une partie des sites français se sont retrouvés dans le noir, comme DailyMotion, SkyBlogs, PixMania, le Parisien, etc.

C'est la première fois qu'une telle interruption se produit sur notre service depuis plus de deux ans, nous sommes sincèrement désolés pour cet incident. Toute notre équipe vous assure que nous avons par le passé fait notre maximum pour que cela ne se produise pas, et continuerons à faire le maximum pour que cela ne se produise plus.

 

Que s'est-il passé ?

A 11h30, une panne de courant d'une rare ampleur a eu lieu dans le centre de données sécurisé qui héberge nos serveurs. Ce centre est bien sur équipé de systèmes de sauvegarde prévu en cas de coupures de courant. Mais dans toute chaine redondante il peut arriver, rarement qu'une série d'événements produise malgré tout un incident. En l'occurance un technicien chargé d'une mainteance électrique a fait une erreur. L'ensemble du centre s'est retrouvé privé d'électricité pendant quelques minutes ! Même si les personnes qui travaillent dans ce centre sont des professionnels, vous pouvez imaginer la "légère" panique que les coups de fils des clients, des clients des clients, et les dizaines de milliers de serveur à redémarrer a occasionné.

Que faisons nous pour que cela ne se reproduise pas ?

Nous avons dans nos cartons le plan de travailler avec des centres de données multiples et redondants. C'était un projet à moyen terme qui bien sur va recevoir maintenant un coup d'accélérateur.

Lorsque c'est votre logiciel de gestion sur votre PC qui plante, c'est à vous, ou au technicien que vous appelez, de réparer la situation. Dans le cadre d'une application en ligne, vous êtes impuissants, il faut juste attendre, ce qui peut être très frustrant. Mais nous vous assurons que lorsque de tels incidents se produisent, ils sont très rares heureusement, nous sommes informés dans la minute, et nous interrompons tout pour nous concentrer sur la remise en route, qu'elle soit faite au plus tôt pour que vous puissiez continuer à travailler. Nous avons pour cela une pression naturelle, celle de savoir que nos clients ont été interrompus dans leur travail, et n'en sont probablement pas ravis !

Nous vous remercions pour votre compréhension. Tout doit être revenu dans l'ordre, mais n'hésitez pas à nous contacter si vous constatez des anomalies sur votre compte.

 

Quelques liens sur cet incident

Un article du Figaro

Un article du registrar Gandi

Un article de Data Center Knowledge

Un article de The Inquirer

Un article de 01net