We zien dat voor een deel van onze klanten de planning-applicaties niet bereikbaar zijn. Gebruikers kunnen foutmeldingen zien bij het openen van de planning of het rooster. Bijvoorbeeld:


  • ERR_CONNECTION_CLOSED
  • This website is under heavy load (queue full)


Indien gebruik wordt gemaakt van Luna's, kan het zijn dat hierop een foutmelding wordt getoond dat er geen informatie beschikbaar is. We zijn op dit moment het probleem aan het onderzoeken. Zodra we meer informatie hebben over dit probleem, zullen we dat hier delen.

Updates

  • Martijn van de Wiel

    Post-mortem Ons® Planning en Roosteren – 25 maart 2025

    Op dinsdagavond 25 maart ontstond er een verstoring in Ons® Planning, Nedap Luna en Ons® Vandaag. Bij het openen van de medewerker-navigatie (zoals Planning en Rooster) ervaarden sommige gebruikers vertraging of foutmeldingen. De oorzaak lag in een recente wijziging aan de navigatiebalk, waarbij dynamisch wordt bepaald of deze knoppen getoond moeten worden op basis van gebruikersrechten en data.


    Deze wijziging werkte naar behoren in omgevingen met minder data, maar leidde in grotere klantomgevingen tot een onverwachte stijging in processorbelasting. De database-query die gebruikt werd om de zichtbaarheid van de knoppen te bepalen, kon geen gebruik maken van een index. Hierdoor werden requests trager (soms >6 seconden) en leidde dit tot overbelasting van de servers, met als gevolg dat de applicatie traag werd of tijdelijk onbereikbaar was (dit zorgde ook voor problemen in Ons® Vandaag).


    Wat is er precies gebeurd?

    De wijziging was bedoeld als bugfix: eerder werden de knoppen Planning en Rooster voor álle medewerkers getoond, ook als ze daar geen rechten of relevante data voor hadden. De nieuwe logica gebruikte echter een query die in sommige gevallen een zogeheten "full table scan" uitvoerde, wat tot prestatieproblemen leidde in omgevingen met veel medewerkers en planningsdata.


    De verstoring begon rond 22.30 uur op dinsdag 25 maart, toen meldingen binnenkwamen over trage of niet reagerende omgevingen. Onderzoek wees uit dat servers overbelast raakten door de eerdergenoemde database-query. Gedurende de nacht is geprobeerd het probleem te reproduceren en op te lossen, maar de initiële fix had onvoldoende effect.


    Rond 07.15 uur op dinsdag 26 maart is besloten tot een rollback op één cluster naar een stabiele versie (v2025.1.16). Kort daarna volgde een nieuwe release (v2025.2.13) die de onjuiste query heeft teruggedraaid. Deze werd rond 08.30 uur breed uitgerold naar productieomgevingen.


    Oplossing

    De rollback bracht direct verbetering in de prestaties. Na succesvolle tests is de verbeterde versie nog diezelfde ochtend uitgerold. Rond 11:30 uur waren alle productieomgevingen bijgewerkt, en rond 12.30 uur ook alle testomgevingen. De prestaties keerden terug naar het normale niveau en de verstoring werd afgesloten.


    Voorkomen van herhaling

    We hebben direct na het incident actie ondernomen om herhaling te voorkomen. Onder andere:


    • Strakkere regie op technische updates om impact op functionele releases te minimaliseren.
    • Betere prestatiecontrole van database-queries in test-omgevingen met representatieve datasets.
    • Sneller herstelproces: We streven ernaar om in de week van het incident al een geoptimaliseerde versie te kunnen uitrollen.
  • Martijn van de Wiel

    Onze ontwikkelaars werken momenteel aan de volledige root cause analysis. Wanneer die analyse voltooid is, zullen wij hier een post-mortem over dit probleem plaatsen.

  • Gido Poorthuis

    Inmiddels zijn alle productieomgevingen voorzien van Ons® Plannen & Roosteren bugfix versie 2025.2.13. In onze monitoring zien we dat het processorverbruik inmiddels weer normale waardes laat zien.

    Het onderliggende probleem was tevens aanwezig in de nieuwe 2025.3.1 versie die gisteren is uitgerold naar alle testomgevingen. Op dit moment voorzien we de testomgevingen ook van een nieuwe bugfix versie (2025.3.2). Deze worden gedurende de dag uitgerold, waardoor testomgevingen ook kort offline kunnen zijn.


    Indien er nog problemen worden geconstateerd terwijl de Ons® Plannen & Roosteren applicatie op versie 2025.2.13 of 2025.3.2 zit, dan vernemen we dit uiteraard graag via een ticket.


    Het ontwikkelteam verricht nog verder onderzoek naar de specifieke oorzaak van deze problemen in de aanpassing die in de bugfix versies zijn teruggedraaid. Zodra we deze oplossing weer kunnen laten meekomen in een toekomstige versie van Ons® Plannen & Roosteren, dan zullen we dat uiteraard weer aankondigen in de release notes.

  • Gido Poorthuis

    Op dit moment worden alle productie-omgevingen geüpdatet naar Ons® Plannen & Roosteren bugfix versie 2025.2.13. De Ons®  Plannen & Roosteren omgeving kan hierdoor ongeveer een minuut onbereikbaar zijn. Gebruikers worden niet uitgelogd door deze versie-update.


    In deze versie wordt de volgende release note teruggedraaid, waarin de oorzaak zat van de huidige problemen:

    • De rooster- en planning-modules in het Ons® Medewerkerportaal worden in de nieuwe zij-navigatiebalk niet meer weergegeven voor medewerkers die geen lid zijn van teams die toegewezen diensten of plankaartjes hebben in de afgelopen zes maanden of ergens in de toekomst.

    Wanneer deze versie is geïnstalleerd op de productieomgeving zal Ons® Plannen & Roosteren, de vernieuwde zij-navigatiebalk in Ons® Medewerkerportaal/Ons® Agenda en Nedap Luna weer werken naar verwachting.

  • Martijn van de Wiel

    Er is bij een aantal omgevingen tijdelijk een rollback uitgevoerd naar versie 2025.1.16. Deze omgevingen worden in de komende uren weer overgezet naar versie 2025.2.13, een nieuwe versie die momenteel wordt gemaakt en daarna breed wordt uitgerold naar eerstgenoemde omgevingen en alle andere omgevingen.


    Tijdens deze omzetting:

    • Kunnen gebruikers tijdelijk een onderhoudspagina te zien krijgen
    • Blijft de zijbalk zichtbaar, maar kan deze tijdelijk niet gebruikt worden. Er wordt mogelijk een melding weergegeven dat er geen toegang is tot de gegevens.
  • Martijn van de Wiel

    We werken momenteel aan een oplossing om de omgevingen weer beschikbaar te maken, zonder dat we jullie omgevingen moeten terugzetten naar een eerdere versie van Ons® Planning. Deze oplossing testen we momenteel op een aantal testomgevingen om te zien wat de impact is.

  • Martijn van de Wiel

    Helaas zien we vrij direct dat de oplossing niet het gewenste effect heeft. We zien namelijk in de monitoring dat het processorverbruik voor het cluster waarop wij de oplossing hebben uitgerold, direct hoger is dan een gemiddeld verbruik. Hierdoor blijven de omgevingen slecht of niet bereikbaar. Onze ontwikkelaars werken door aan een oplossing en we houden je in dit bericht op de hoogte.

  • Martijn van de Wiel

    Na uitgebreid onderzoek gisteravond hebben we de exacte oorzaak van de prestatieproblemen in onze Planning-applicaties nog niet volledig kunnen achterhalen. Wel hebben we een mogelijke oplossing uitgerold naar een van onze clusters, maar om te kunnen beoordelen of deze effectief is, moeten we wachten tot het ochtendverkeer in onze applicaties is gestart. Mocht deze oplossing niet werken, dan kan dit leiden tot verminderde beschikbaarheid of traagheid en zullen verzoeken mogelijk niet of slechts zeer traag worden verwerkt.


    Als dit zich voordoet, zullen we uiteraard direct een update geven in dit bericht.