Storing bij Cloudflare legt honderduizenden sites plat

Door: Night - 3 reacties
Cloudflare logo
Afbeelding: Cloudflare

Gisteravond veroorzaakte een configuratiefout in het backbone-netwerk van Cloudflare voor een grote storing op het internet. Bij de storing, die overigens slechts een kleine drie kwartier duurde, waren honderdduizenden sites – waaronder ook die van OneMoreThing – onbereikbaar. Volgens Cloudflare was de storing niet wereldwijd, maar beperkte deze zich tot bepaalde regio’s.

De getroffen regio’s waren San Jose, Dallas, Seattle, Los Angeles, Chicago, Washington, DC, Richmond, Newark, Atlanta, Londen, Amsterdam, Frankfurt, Parijs, Stockholm, Moskou, St. Petersburg, São Paulo, Curitiba en Porto Alegre. Andere locaties bleven normaal functioneren. De storing begon om  22.25 uur lokale tijd en duurde een klein half uur. In het kwartier erna kwam het internetverkeer weer langzaam aan op gang en om 0:10 uur werkte alles weer als vanouds.

De storing werd niet veroorzaakt door een aanval of inbreuk van welke aard dan ook, maar trad op door werkzaamheden aan een segment van de backbone in de VS. Om vertragingen te voorkomen werd een deel van het internetverkeer omgeleid. Die instelling bevatte een fout waardoor alle internetverkeer over een router in Atlanta werd gestuurd. Die kon deze enorme toename aan internetverkeer niet lang aan. Alle Cloudflare-netwerklocaties, die op deze backbone router waren aangesloten, gingen hierdoor op zwart.

Cloudflare heeft inmiddels in zijn blog excuses voor deze pijnlijke storing aangeboden. Men heeft met spoed een globale wijziging aangebracht in de backbone-configuratie. Die moet voorkomen een storing als deze opnieuw kan optreden.

De Cloudflare-backbone

Cloudflare backbone
Cloudflare backbone Afbeelding: Cloudflare

Cloudflare heeft een backbone tussen veel eigen datacenters over de hele wereld. Zo’n backbone moet je zien als een reeks privé-lijnen tussen al die datacenters. Hierdoor kan een sneller en betrouwbaarder dataverkeer plaatsvinden, zonder over het openbare internet te gaan. Dat voorkomt vertragingen omdat dit het bedrijf controle biedt over weg die alle stukjes het internetverkeer moeten volgen.

Door de storing in de backbone, viel dus een deel van die data-snelweg uit, met als gevolg dat al die data niet meer op de juiste plek terecht kwam. Honderdduizenden onbereikbare sites waren het resultaat.

Degenen die gelijk dachten dat onze uiterst betrouwbare OneMoreThing server weer eens de geest gegeven had, moeten we teleurstellen. Het niet bereikbaar zijn van OMT lag dit keer echt niet aan ons 🙂

Reacties

3 reacties