Récentes coupures de TADAAM TV & réaction de notre start-up

Comme tu l’as sans doute remarqué, du samedi 15 au mardi 18 août, nos clients TADAAM n’avaient qu’un accès limité au service TADAAM TV. Ce n’est pas le niveau de service que nous souhaitons t’offrir et nous te prions d’accepter toutes nos excuses pour cet inconvénient. Si tu te demandes ce qui s’est passé, nous souhaitons clarifier la situation dans cet article de blog.

VOICI CE QUI S’EST PASSÉ

Le samedi 15 août, nous avons appris que nos clients TADAAM ne pouvaient plus regarder la télévision en raison d’une erreur technique dans l’un de nos systèmes. Il n’est pas rare de rencontrer des problèmes techniques, mais l’origine de celui-ci était difficile à retracer. Par conséquent, il a fallu plus de temps que prévu pour le résoudre et nous nous en excusons. Nous nous sommes, dès le début, attelés à vérifier les problèmes internes. Cependant, nous avons rapidement compris que le problème devait être causé par des facteurs externes. Il a été détecté grâce à notre répartiteur de charge, hébergé chez DigitalOcean.

POUR MIEUX COMPRENDRE, LIS CES EXPLICATIONS

Nous regrettons qu’il ait fallu plusieurs jours pour résoudre le problème. Puisqu’il s’agissait d’un problème que nous n’avons pas l’habitude de rencontrer, nous ne disposions d’aucun précédent pour remédier à cette situation, d’où le retard et le manque d’informations supplémentaires. Il arrive que les systèmes plantent – un phénomène malencontreux qui échappe à notre contrôle. Sache toutefois que nous mettons toujours tout en œuvre pour trouver la source et résoudre le problème.

QUELQUES INFORMATIONS SUR LA RECHERCHE D’UNE SOLUTION

Voici la version longue de l’histoire. Comme il s’agit d’un problème technique, son explication peut être assez complexe. Par conséquent, nous allons essayer d’expliquer chaque terme technique en cours de route.

JOUR 1 : SAMEDI : TROUVER LE PROBLÈM

Le samedi 15 août, nous avons découvert que notre service de télévision ne fonctionnait pas correctement. Nous avons immédiatement commencé à enquêter sur le problème et avons découvert que nos services front-end étaient soumis à une lourde charge. Suite à cela, nous avons assuré la mise à niveau des ressources le plus rapidement possible. Nous avons ensuite coupé nos services internes pour libérer ces ressources pour nos clients. À première vue, le problème ressemblait à une attaque contre nos services. Nous avons dû couper brièvement nos systèmes pour les recharger, permettant ainsi de résoudre le problème vers 22h.

JOUR 2 : DIMANCHE : EXAMINER LE PROBLÈME PLUS EN PROFONDEUR

Dès le début de la journée, nous avons contacté notre fournisseur d’infrastructure pour lui signaler que nous avions été soumis à une forte charge inattendue, ce qui peut entraîner des périodes d’indisponibilité. Nos développeurs ont ensuite passé toute la journée à refactoriser notre architecture et nos bases de code, à la recherche d’un service qui faisait fuir la connexion. Malheureusement, vers 19h, nos systèmes techniques ont rencontré le même problème que la veille. Nous avons en effet subi une coupure causée par le même problème externe non identifié.

Nos ingénieurs sont immédiatement intervenus en arrêtant plusieurs services secondaires, afin de maintenir le service TADAAM TV opérationnel pour nos clients. Nous avons à nouveau cherché d’éventuels problèmes internes, mais nous n’en avons trouvé aucun. Le problème ne pouvait provenir que du fournisseur d’infrastructure.

JOUR 3: LUNDI : EXAMINER LA SOURCE EXTERNE

Nos ingénieurs ne se sont pas arrêtés là et ils ont intensément examiné nos systèmes, remodifié l’architecture de nos fonctions de base, et testé et déployé plusieurs fonctionnalités pour analyser nos systèmes. Ils ont en outre produit des rapports toutes les heures pour chacune des connexions, qu’ils ont surveillées une par une.

Enfin, vers 22h, nous avons trouvé l’origine du problème. DigitalOcean nous a contactés, nous informant qu’ils avaient découvert un problème dans leur infrastructure. Pour écarter tout doute : cette erreur n’a pas été causée par une attaque ou une violation de quelque nature que ce soit. Le problème était dû aux performances du répartiteur de charge*.

*Un répartiteur de charge est un mécanisme qui répartit efficacement le trafic réseau entre des sites web à fort trafic. Il sert d’« agent de la circulation » installé devant vos serveurs et acheminant les demandes des clients sur tous les serveurs. Si la capacité du répartiteur de charge est limitée, le trafic ne peut pas être réparti sur le serveur en ligne, ce qui entraîne une surcharge du système et donc une dégradation significative des performances. 

Un répartiteur de charge est un mécanisme qui répartit efficacement le trafic réseau entre des sites web à fort trafic.

JOUR 4 : MARDI : UN PROBLÈME COMPLEXE, UNE SOLUTION COMPLEXE

Une mise à jour logicielle du système de DigitalOcean avait affecté d’anciens répartiteurs de charge et limité le système à seulement 2 000 connexions. Afin d’augmenter ce nombre, TADAAM a créé de nouveaux répartiteurs de charge et a commencé à mettre à niveau l’infrastructure De plus, nous avons migré tous nos serveurs vers d’autres emplacements et mis en place de nouvelles implémentations architecturales pour éviter le problème. En d’autres termes, c’est à ce moment que nous avons enfin soufflé un grand coup.

Reçois nos stories dans ta boîte mail

COMMENT ÉVITER QUE CELA SE PRODUISE À L’AVENIR ?

Nous savons que tout ne s’arrête pas là. Depuis, nous travaillons dur pour éviter que cela se reproduise à l’avenir, afin de fournir le meilleur service à nos clients. Par conséquent, nous avons ajouté différents outils de surveillance et avons mis en place un moyen plus efficace et direct de communiquer avec notre partenaire d’infrastructure. Désormais, nous avons connaissance de tout type de charge sur nos serveurs et pouvons prendre des mesures immédiates pour éviter toute panne à l’avenir.

CE QU’IL FAUT RETENIR

De toute évidence, nous sommes déçus de ne pas avoir été en mesure de t’aider plus rapidement. Malheureusement, TADAAM est une start-up en pleine croissance qui ne contrôle pas toujours ce qui se passe à l’extérieur. Mais nous te proposons notre produit avec fierté et dévouement, et nous te sommes extrêmement reconnaissants de la confiance que tu nous accordes.

Même si nous avons pris cette coupure comme une occasion d’apprendre, toute interruption de ton service est inacceptable, et nous nous en excusons de tout cœur. Nous espérons que ce compte rendu t’a apporté suffisamment d’informations et nous continuerons à t’être utiles. Depuis l’incident, nous travaillons jour et nuit pour éviter de telles situations à l’avenir, afin que tu puisses continuer à profiter de TADAAM TV sans aucun souci.