Incident du 29 avril 2021
Last updated
Last updated
Dans la matinée du 29 avril, nous avons eu deux incidents simultanés qui ont rendu l’accès du site très difficile, voire impossible, pour les usagers et pour les agents.
(Heure française, UTC+1)
9 h 21 livraison d'une mise à jour technique ()
9 h 38 livraison de la fonctionnalité d'agenda inter-organisation ()
9 h 55 première vague d'erreurs technique remonté par notre système de surveillance
10 h 13 Alertes d'un outil surveillant la présence en ligne de RDV-Solidarités : le service n'est plus accessible
10 h 30 Plusieurs emails de la part de référentes pour nous alerter à propos de très gros ralentissement de RDV-Solidarités
10 h 35 Démarrage de serveurs supplémentaire pour essayer de résorber les problèmes, le temps de trouver une solution
10 h 52 Livraison d'une annulation de la mise à jour technique
11 h 05 Signalement que les ralentissements sont toujours très ressenti sur le service
11 h 29 Livraison d'une annulation de la fonctionnalité d'agenda inter-organisation.
Il ne s'agit pas de perte de données.
Nous avons eu deux problèmes en même temps :
La mise à jour technique impactant l'interface graphique et l'affichage d'information. Certaines pages ne devaient pas s'afficher correctement à différents endroits du service
L'agenda inter-organisation impactant les performances coté serveur. Le calcul et la construction des pages d'agenda prenant beaucoup de temps, la machine ne pouvait plus répondre aux autres demandes des utilisateurs.
En ajoutant des serveurs, nous avons pu résorber un peu la gêne sur les temps de réponses, mais ce n'était pas suffisant.
Comme on peut le voir, il y a eu une très forte augmentation du temps de réponse par rapport à la moyenne
Les processeurs des serveurs ont également été très sollicités
Nous avions cependant autant de demande que d'habitude (aucun écart entre ce matin et cette après-midi). On peut voir apparaitre des points rouges qui correspondent à des demandes que nous n'avons pas pu satisfaire correctement. Les points vers et bleu correspondent à nos interventions diverses.
La mise à jour technique ne concernait pas de correction de faille de sécurité. Il n'y a donc aucune conséquence à attendre pour refaire cette mise à jour plus tard, après avoir vérifié élément par élément.
Pour l'agenda inter-organisation, nous allons reprendre le code pour améliorer les performances, en vérifiant point par point. Une nouvelle livraison sera planifiée dès que possible.
Nous avons réagi assez rapidement malgré le fait que nous ayons eu à faire deux annulations.
Un point de progression serait d'être plus vigilant aux signaux faibles suite à une livraison. Une augmentation trop forte du temps de réponse nous aurais permis sans doute de réagir avant même les premières alertes.
Nous avons fait quelques corrections et repoussé l'agenda inter-organisation en production. Certaines lenteurs sont encore présentes. C'est beaucoup mieux que la dernière fois, mais ça ne suffit pas.
Nous sommes en train de travailler sur une correction. Tout devrait rentrer dans l'ordre d'ici à ce soir.
Nous pourrions mettre en place des outils pour cela. Mais comme dit Nicolas, nous en avons déjà des outils, nos yeux. Il s'agit surtout de les laisser ouverts sur les bonnes pages