Momenteel ervaren we problemen met de applicaties binnen de suite. We zien foutmeldingen ontstaan dat gebruikers niet geautoriseerd zijn. Onze ontwikkelaars onderzoeken hoe dit probleem is ontstaan.

Updates

  • Gülsen Öcal

    Postmortem:


    Samenvatting: Op 11 september 2024 ontstonden er problemen met onze load balancers na een software-update op dinsdagavond 10 september. Deze load balancers verdelen het inkomende verkeer over verschillende servers in onze datacentrums. Vanwege een bug in de nieuwe versie van de load balancing-software werd de CPU-belasting (de hoeveelheid werk die een processor/verkeerverwerker moet uitvoeren) op onze load balancers zo hoog dat deze verwerkers moeite hadden om verzoeken af te handelen. Dit leidde tot applicatiefouten, trage omgevingen en in sommige gevallen uiteindelijk tot een volledig onbereikbare applicatie of omgeving.


    In eerste instantie leek de oorzaak de nieuwe versie van Ons® Autorisatie te zijn. We hebben de versie meteen teruggedraaid, maar uiteindelijk zagen we geen verbetering en hebben we meerdere teams ingeschakeld om de oorzaak van het probleem te achterhalen. Hoewel de tijdelijke oplossing kort voor een verbetering heeft gezorgd voor sommige klanten, is de volledige oplossing pas bereikt door fysiek een hardware-upgrade te doen in onze datacentrums.


    De oorzaak: De oorzaak van het incident was een bug in een nieuwe versie van de load balancing-software. Deze bug leidde ertoe dat de hoeveelheid werk/verkeer voor de verwerker (CPU) op de load balancers zo hoog opliep dat de servers niet langer alle inkomende verzoeken konden verwerken. De fout in de software trof specifiek het verkeer dat cruciaal is voor de werking van Ons® Autorisatie en de betreffende autorisatieverzoeken, zoals toegang tot applicaties en het uitvoeren van handelingen. Bijna al onze applicaties in de Ons® Suite zijn afhankelijk van Ons® Autorisatie, waardoor alle applicaties grote problemen ondervonden.


    Oplossing: Al vrij snel bleek de nieuwe versie van Ons® Autorisatie niet de oorzaak van het probleem te zijn. Nadat de oorzaak duidelijk was, bestond de tijdelijke oplossing uit het verhogen van de CPU-toewijzigingen (het aantal verkeersverwerkers op de load balancers). Hoewel we de prestaties zagen verbeteren, bleef het verkeer tijdens piekuren alsnog te hoog om af te handelen. We dachten in eerste instantie het dat er een workaround beschikbaar was, namelijk het verversen van de pagina, waardoor het werkproces niet volledig geblokkeerd werd. Helaas kwamen we pas na nieuwe meldingen van klanten via het supportteam erachter dat dit niet het geval was en dat de impact groter was dan in eerste instantie gedacht werd. Het terugdraaien van de probleemversie was geen mogelijkheid op dat moment vanwege allerlei afhankelijkheden. De volledige oplossing werd bereikt door verspreid naar onze datacentrums te gaan en fysiek hardware-upgrades uit te voeren daar en daarna een nieuwe versie van de load balancing-software uit te rollen. Deze werkzaamheden zijn door verschillende teamleden vanuit verschillende datacentrums tussen 18.46 en 22.30 uur uitgevoerd op 11 september. Rond 22.40 uur kregen we de bevestiging dat al het verkeer weer goed afgehandeld werd.


    De volgende ochtend, 12 september, stonden meerdere teams klaar om het verkeer actief te monitoren en indien nodig meteen te handelen. Er zijn geen problemen verder gesignaleerd.


    Vervolg: Uit dit incident zijn meerdere verbeterpunten uitgewerkt door verschillende teams om vergelijkbare problemen eerder te detecteren en te voorkomen dat essentiële applicaties, zoals Ons® Autorisaties, niet opnieuw getroffen worden door soortgelijke bugs. Zodra deze verbeterpunten concreter zijn, updaten we dit bericht.

  • Martijn van de Wiel

    Onze ontwikkelaars werken momenteel aan de achtergrondinformatie die nodig is om de post-mortem te vullen. Zodra die informatie beschikbaar is, en we verwachten dat dit aankomende maandag is, werken we dit bericht bij.

  • Martijn van de Wiel

    Wij zien geen problemen meer met de verwerking van de verzoeken door onze load balancers en alle applicaties draaien stabiel, ook bij hogere aantallen verzoeken. Op een later moment delen wij een post-mortem binnen dit kanaal met opvolgacties en meer informatie over deze verstoring. De verstoring wordt hierbij ook als Opgelost gemarkeerd.

  • Martijn van de Wiel

    We hebben de titel van dit incident aangepast, omdat we onjuist hadden gecommuniceerd dat het probleem bij Ons® Autorisatie lag. Het probleem zat in de load balancers in onze infrastructuur en daardoor ervoer Autorisatie problemen.

  • Martijn van de Wiel

    We zien dat de load balancers stabiel blijven nu het aantal verzoeken stijgen. We blijven de situatie monitoren en werken verder om het achterliggende probleem op te lossen.

  • A

    Na de updates aan de load balancers eerder vanavond is er een extra update gedaan om de stabiliteit te waarborgen. Na deze update worden de verzoeken aan het datacentrum weer goed verwerkt. We blijven de stabiliteit hiervan monitoren.

  • Martijn van de Wiel

    Onze collega's hebben wijzigingen aan de load balancers in het datacentrum doorgevoerd. We zien dat de verzoeken momenteel stabiel blijven. Morgen weten we pas of de doorgevoerde wijzigingen ook voor voldoende stabiliteit zorgen als het aantal verzoeken weer stijgt (vanwege het aantal medewerkers dat overdag actief gebruikmaakt van de Ons® Suite). Daarbij houden onze ontwikkelaars van andere applicaties in de gaten hoe de verzoeken naar Ons® Autorisatie verlopen, zodat we weten of de belasting op de load balancers tijdens kantooruren ook stabiel blijft. Morgen houden we de situatie in de gaten en houden jullie hier op de hoogte.

  • Martijn van de Wiel

    De wijzigingen die we in het datacentrum doorvoeren, zijn erop gericht om de hoeveelheid mogelijke belasting op de load balancers te vergroten, zodat de applicaties morgen tijdens piekmomenten stabiel blijven voor jullie eindgebruikers. Dit geeft ons meer ruimte om vervolgens het achterliggende probleem op te lossen.

  • Martijn van de Wiel

    Onze collega's voeren vanavond een aanpassing door in het datacentrum. Dit zal geen aanvullende downtime veroorzaken voor jullie eindgebruikers. We hopen dat de verzoeken naar Ons® Autorisatie daarna stabiliseren.

  • Martijn van de Wiel

    De problemen met het datacentrum zijn nog niet opgelost. Onze collega's zijn ter plaatse om onderhoud aan de servers uit te voeren. Onze ontwikkelaars proberen ondertussen de situatie zo stabiel mogelijk te houden en de impact op eindgebruikers tot een minimum te beperken. Zodra we meer weten, laten we het weten.

  • Martijn van de Wiel

    We zien dat het aantal verzoeken en het aantal foutmeldingen weer stijgt. We vermoeden dat er in de load balancer in het datacentrum in Enschede zelf problemen zijn.

  • Martijn van de Wiel

    In onze data zien we dat de problemen grotendeels verholpen zijn. We blijven de situatie monitoren om er zeker van te zijn dat ook als het aantal verzoeken in de middag weer stijgt, onze applicaties stabiel blijven.

  • Martijn van de Wiel

    Als tijdelijke work-around kan een gebruiker, op het moment dat diegene een foutmelding krijgt, proberen de pagina te vernieuwen. Dit zorgt ervoor dat het verzoek opnieuw wordt verstuurd en door een ander dataknooppunt wordt behandeld. We zien in onze data momenteel dat een deel van de verzoeken momenteel nog fout gaan.

  • Martijn van de Wiel
    We hebben een test uitgevoerd met de load balancer om de bron van het probleem te achterhalen. Hierdoor begrijpen we beter hoe dit probleem heeft kunnen ontstaan en kunnen we werken aan een oplossing. 
  • Martijn van de Wiel

    Het terugrollen van de versie naar 1.151.11 heeft niet het gewenste resultaat gehad. Dit komt omdat er vermoedelijk problemen zijn ontstaan in de dataknooppunten voor Ons® Autorisatie in het datacentrum in Enschede. De versie wordt weer teruggezet naar versie 1.152.9. Ons serverteam heeft de dataknooppunten in Enschede uitgeschakeld en leidt het dataverkeer nu naar een ander datacentrum.

  • Martijn van de Wiel

    Het Autorisatie-team rolt de versie terug die gisteravond op productieomgevingen is geïnstalleerd, om de suite weer stabiel te laten draaien. De actieve versie wordt versie 1.151.11.

  • Martijn van de Wiel

    De problemen met de applicaties zijn ontstaan vanuit Ons® Autorisatie. Het team van Autorisatie probeert de oorzaak hiervan te achterhalen.