Wednesday 9th May 2018

Cedar Scheduler problem - Problème d'ordonnanceur

Patched and working: Cedar has been facing an unfortunate scheduling issue since we grew the cluster size, part way into April. The actual bug has existed since January; the developer of our scheduling software has been troubleshooting it and working on it at multiple sites and universities since then. They believe that they had a solution and would be releasing a packaged patch in the next week or two but made the separate modifications available as well. We patched those in ourselves and did not find that it resolved all items, but rather just a few of them.

At the moment we're seeing what we can do to at least stay in some sort of operation but when we receive large bursts of jobs at one time it tends to cause issues. The best thing we can recommend right now is to have your jobs display the date (with the date command) at the beginning and end of your job script, so that you can check to see if it truly went into your script.

The reason for that is, during this overloaded state, lots of jobs say 'RUNNING' (Prolog) and if the scheduler can't actually get past the Prolog state in time, the job is terminated and may display a misleading status.

We're working on this but don't currently have a resolution timeline because we're waiting on the vendor to resolve. In the meantime jobs may start and finish without actually processing data and it will be up to the user/researcher to verify and resubmit unfortunately.

============================================================

Nous observons un problème malheureux avec l'ordonnanceur de Cedar depuis que nous avons augmenté la taille de la grappe vers la mi Avril. Le bogue est présent depuis Janvier, mais s'est manifesté seulement récemment. Le développeur de l'ordonnanceur travaille à le diagnostiquer et le régler avec la collaboration de plusieurs sites et universités depuis ce temps. Ils pensaient avoir une solution qui serait annoncée au cours de la semaine prochaine, et ils nous ont transmis le code de la mise-à-jour. Nous l'avons appliquée, mais celle-ci n'a pas résolu tous les problèmes.

Pour le moment, nous observons l'ordonnanceur de près et intervenons pour le garder fonctionnel, mais lorsque nous recevons un grand nombre de tâches à la fois, cela a tendance à causer des problèmes. La meilleure chose que nous pouvons recommender pour l'instant est d'ajouter l'affichage de la date (avec la commande date) au début et à la fin de votre script de soumission pour vérifier si la tâche s'est exécutée complètement.

La raison est que lorsque l'ordonnanceur est surchargé, beaucoup de tâches demeurent dans l'état 'RUNNING' (Prolog). Si l'ordonnanceur ne réussi pas à passer l'étape du Prolog rapidement, la tâche est terminée, et l'ordonnanceur peut afficher un statut non représentatif de l'état réel de la tâche.

Nous travaillons à régler le problème, mais nous n'avons pas pour l'instant d'estimé de temps pour la résolution, car nous attendons les correctifs du vendeur. Pendant ce temps, il est possible que les tâches débutent et se terminent sans avoir réellement fait de calcul, et vous devez malheureusement vérifier et resoumettre votre tâche.