Amazon S3: typefout liet halve internet haperen

Raymon op 03 maart 2017 10 reacties Laatste door Night

De storing bij Amazon Web Services die afgelopen dinsdag veel diensten en apps –inclusief iCloud– liet haperen, werd veroorzaakt door een medewerker die een typefout in een commando maakte. Zo licht Amazon toe in een verklaring.

De medewerker wilde een aantal servers die verantwoordelijk zijn voor cloudopslagdienst S3 offline halen om een probleem met facturatie op te lossen, maar haalde teveel servers offline.

Bestanden onvindbaar door missende index

Door het afsluiten van de servers kon de index van S3 niet langer geraadpleegd worden. Deze database indexeert de locaties van bestanden (objecten genoemd) op alle S3-servers. Dit proces is essentieel om bestanden op te kunnen halen. Een groot deel van de opslagdienst werd daarom onbruikbaar. De index was snel terug opgestart, maar het systeem had uren nodig om de backlog die ontstaan was te verwerken en dat ging ten koste van de normale werking.

Amazon Web Services is een van de grootste aanbieders van clouddiensten wereldwijd en wordt door Apple in aanvulling op eigen servers gebruikt. Ook apps als Slack, IFTTT, RunKeeper, Giphy en apparaten van Nest werden beïnvloed door de storing. Vaak waren andere servers van de bedrijven wel online, maar konden bestanden niet opgehaald en geüpload worden omdat de S3-opslagdienst van Amazon onbereikbaar was.

Schermafbeelding 2017-02-28 om 21.39.24

iCloud en de App Store waren ernstig ontregeld door de storing.

Ook een aantal eigen diensten van Amazon waren afhankelijk van S3, waardoor de storing een grote impact had. De clouddienst kon aanvankelijk zijn statuspagina niet bijwerken omdat deze een afhankelijkheid van S3 had. Amazon zegt serieuze maatregelen te nemen om herhaling van dit incident te voorkomen. Zo kan de tool die de medewerker gebruikte om servers offline te halen niet in één keer de belangrijkste servers uitschakelen. De index moet in de toekomst ook sneller kunnen herstarten.

Raymon is vaste redacteur bij OMT, maar noemt zich liever redactieninja. Ook te volgen op Twitter en wekelijks te horen in de TechSnacks Podcast. Lees meer artikelen van Raymon.

En nu?

10 reacties

Profielfoto

Shmoo op 03 maart 2017

Dan is het maar goed dat Raymon bij OMT werkt en niet bij Amazon;-)

Profielfoto

sanderman op 03 maart 2017

Foei Shmoo. Dat iets klopt wil niet zeggen dat het genoemd moet worden;)

Profielfoto

Webbiker op 03 maart 2017

Dan is het maar goed dat Raymon bij OMT werkt en niet bij Amazon;-)

Badaboem-tsss(y)

Profielfoto

steveb op 03 maart 2017

Het wordt tijd dat Apple wat meer 100% eigen data centers geeft

Profielfoto

steveb op 03 maart 2017

Het wordt tijd dat Apple wat meer 100% eigen data centers heeft

Profielfoto

Shmoo op 03 maart 2017

Dit soort dingen kunnen ook gebeuren op je eigen hardware. Risico van het vak. Het komt eens in de 10 jaar voor. No probleem. Het komt denk ik veel vaker voor dat je kind of iemand in je familie je van het werk houdt. Daar ben je dan ook instaat om om het probleem heen te werken en flexibel te zijn maar zodra het om internet gaat hebben we ineens het gevoel dat we mogen of moeten klagen omdat we zeker weten dat het niet onze fout is.

Profielfoto

App-ie op 03 maart 2017

haha steveb, je typefout zal echter niet gelijk het halve internet platleggen…

Profielfoto

winwiz op 03 maart 2017

Zou die medewerker nog een kerst bonus krijgen dit jaar?

Profielfoto

renato op 03 maart 2017

Ik zie al een mooie commercial van ‘Even Apeldoorn bellen’ opdoemen:-)

Profielfoto

Night [moderator] op 04 maart 2017

Wel gevaarlijk, dat één persoon “het halve internet” kan beïnvloeden…
Beetje spreiding van macht zou niet verkeerd zijn.

 


Je kunt alleen reageren met een gratis OMT account.
Heb je geen OMT account? Registreer je dan nu gratis!

Inloggen

 

of Wachtwoord resetten?