Recente TADAAM TV-uitval & hoe onze start-up hierop reageerde

Er is niets frustrerender dan wanneer de technologie niet mee wil. Als klant zal je het misschien gemerkt hebben, maar onze TV-dienst werkte in de avonduren van zaterdag 15/08 t.e.m. 18/08 niet zoals het zou moeten. Dat is allesbehalve de service die wij jou willen leveren en daarvoor willen ons dan ook verontschuldigen. Wil je graag weten wat er precies is misgelopen? We leggen de situatie graag uit in deze blog.

WAT ER IS GEBEURD

Op zaterdag 15 augustus kwamen we erachter dat onze TADAAM-klanten geen TV meer konden kijken door een technische fout in een van onze systemen. We komen wel vaker technische uitdagingen tegen, maar dit probleem was moeilijker te traceren. Net daarom duurder het ook langer dan verwacht om het probleem op te lossen, en we willen daarvoor graag onze excuses aanbieden. Vanaf het begin zijn we druk bezig geweest met het controleren op interne problemen, maar na een tijd zagen we dat het probleem werd veroorzaakt door externe factoren. Uiteindelijk vonden we het probleem in het verkeersmanagement van TV-streams uit de TADAAM-app en de TADAAM TV-box.

WAT JE ZEKER MOET MEENEMEN UIT DEZE BLOG

We verontschuldigen ons dat het een paar dagen duurde om het probleem op te lossen. Het was een probleem dat we nooit eerder hadden voor gehad en we wisten dus ook niet waar we moesten beginnen om het op te lossen. Dit verklaart de vertraging en het gebrek aan informatie. We vinden het vreselijk jammer, maar soms falen systemen zonder dat we daar controle over hebben. We hopen dat je begrijpt dat we er alles aan hebben gedaan om de oorzaak van het probleem te vinden en het uiteindelijk op te lossen.

HOE WE DE OPLOSSING VONDEN

We willen jou toch in het lang en in het breed uitleggen wat er juist gebeurd is. Het gaat over een technische kwestie, dus we weten dat de uitleg soms complex wordt. Moeilijke termen proberen we daarom zo goed mogelijk uit te leggen.

DAG 1: ZATERDAG – OP ZOEK NAAR DE OORZAAK

Op 15 augustus merkten we dat onze TV-dienst niet werkte zoals voordien. We zijn direct beginnen zoeken naar mogelijke oorzaken en ontdekten dat onze frontdiensten onder zware druk stonden. We besloten om dit direct te upgraden. Daarna hebben we onze interne diensten stopgezet om ervoor te zorgen dat alle capaciteit naar onze klanten kon gaan. Op het eerst zicht leek het alsof onze diensten ‘aangevallen’ werden. Onze systemen moesten kortstondig worden uitgeschakeld om ze herop te starten. Dit zorgde ervoor dat het probleem rond 22 uur was opgelost.

DAG 2: ZONDAG – DIEPER INGAAN OP HET PROBLEEM

Onze dag begon met het contacteren van onze infrastructuuraanbieder. We informeerden hen over het onverwacht zware verkeer dat eventueel voor downtime kon zorgen. Vervolgens brachten onze developers een hele dag door met het herstructureren van onze IT-architectuur en de basiscode, op zoek naar hetgene dat ervoor zorgde dat de verbinding wegviel. Al het werk dat we al hadden gedaan, bracht (nog) niets op, want opnieuw lagen onze technische systemen onder vuur, rond 19 uur, met hetzelfde probleem als de dag voordien.Jammer genoeg kregen we opnieuw te maken met storing die werd veroorzaakt door een extern probleem dat voorlopig ontraceerbaar was.

Onze technici ondernamen direct actie door verschillende secundaire diensten af te sluiten om op die manier de TADAAM TV-service draaiende te houden voor onze klanten. Mensen bij wie TADAAM nauw aan het hart ligt en die eigenlijk reeds op pensioen zijn, kwamen meehelpen om te onderzoeken waar het probleem nu precies lag. Opnieuw zochten we naar interne problemen, maar daar konden we niets vinden. De bron van het probleem kon nu eigenlijk enkel nog maar aan de IT-infrastructuur liggen, omdat we pas een storing opmerkten toen het verkeer op de app en TV-service toenam. Dit is ook de reden waarom het, jammer genoeg, meerdere malen is gebeurd. Meer dan eens slaagden we erin om onze diensten te herstellen, maar ‘s avonds liep onze TADAAM TV-dienst nog maar eens tegen hetzelfde probleem aan.

DAG 3: MAANDAG – DE EXTERNE BRON VASTLEGGEN

Uiteindelijk, rond 22 uur, vonden we het probleem. DigitalOcean contacteerde ons en kon ons vertellen dat ze een probleem hadden ontdekt in hun infrastructuur. Voor alle duidelijkheid: deze fout werd niet veroorzaakt door een ‘aanval’ op ons systeem. Het probleem werd veroorzaakt door de prestaties van de Load Balancer*.

* Een Load Balancer is een mechanisme dat het netwerkverkeer voor websites met veel verkeer efficiënt verdeelt. Het fungeert als de “verkeersagent” die voor de servers alles regelt en de aanvragen over alle servers verdeelt. Als de capaciteit van de Load Balancer beperkt is, kan het verkeer niet worden verdeeld over de online servers, wat resulteert in een overbelast systeem en dus een aanzienlijk verminderde prestatie. 

Na de periodieke vernieuwing van het veiligheidscertificaat* vonden we een bug die voor een limiet zorgde op onze Load Balancer. Dit had niet alleen gevolgen voor de diensten van TADAAM, maar ook voor vele andere diensten wereldwijd.

* Wat voor certificaat is dit? Het is een stukje code op de webserver die veiligheid biedt voor online communicatie. Het maakt veilige verbindingen mogelijk voor bijvoorbeeld creditcardtransacties, gegevensoverdracht en logins.

Een Load Balancer is een mechanisme dat het netwerkverkeer voor websites met veel verkeer efficiënt verdeelt.

DAG 4: DINSDAG – EEN COMPLEX PROBLEEM, EEN COMPLEXE OPLOSSING

Een bug in een software-update van de systemen van DigitalOcean had verschillende van hun load balancers beïnvloed en stelde een limiet op van slechts 2000 verbindingen. Zulke dingen zouden niet mogen gebeuren, maar in een complexe IT-omgeving begrijpen we dat het onvermijdelijk is dat er af en toe eens een fout insluipt. Toen het probleem eenmaal was geïdentificeerd, heeft DigitalOcean samen met onze technici zeer snel gereageerd om het probleem op te lossen, door nieuwe loadbalancers te creëren en tegelijkertijd de infrastructuur te upgraden. Verder hebben we al onze servers gemigreerd naar verschillende locaties en hebben we nieuwe architecturale implementaties opgezet om het probleem te voorkomen. Met andere woorden: het moment waarop we allemaal eindelijk wat konden ademhalen.

Ontvang de nieuwste stories in je inbox

HOE WE DIT IN DE TOEKOMST KUNNEN VOORKOMEN

Natuurlijk weten we wel dat het hier niet stopt. Sinds het moment dat alles terug up en running is, hebben we er hard aan gewerkt om dit in de toekomst te vermijden en onze klanten zo goed mogelijk van dienst te kunnen zijn. We hebben dan ook verschillende monitoring tools toegevoegd en hebben we een efficiëntere, meer directe manier van communiceren met onze infrastructuur partner ingevoerd. Zo zijn we onmiddellijk op de hoogte van elke vorm van belasting van onze servers en kunnen we in de toekomst snel actie ondernemen om elke uitval te voorkomen.

DIT IS ONZE BOODSCHAP AAN JOU

Het mag duidelijk zijn dat we erg teleurgesteld zijn dat we de hele TADAAM community niet sneller konden helpen. TADAAM is een groeiende start-up en helaas hebben we niet altijd controle over wat er zich buitenaf afspeelt. Maar we bieden ons product met trots en toewijding aan en we zijn de hele TADAAM community dan ook enorm dankbaar voor het vertrouwen. Zoals je in ons verhaal kan lezen, hebben onze technici letterlijk dag en nacht gewerkt om dit probleem zo snel mogelijk te verhelpen.

Hoewel uit deze storing hebben geleerd, begrijpen we maar al te goed dat elke onderbreking van de dienst die wij aan jou leveren, onaanvaardbaar is. We verontschuldigen ons van harte. We hopen dat je, na dit gelezen te hebben, beter begrijpt wat er gebeurd is en weet dat we er altijd alles aan doen om jou te helpen bij technische storingen. We zetten alles op alles om een dergelijke situatie in de toekomst te voorkomen, zodat je zonder zorgen van TADAAM TV kan blijven genieten.