Updates


Event Date Summary

All clients have been updated. 

=========

Tous les clients ont été mis à jour. 

  • The version of the Lustre filesystem is being updated on all nodes.
  • This problem is also related to access issues on /scratch

=========

  • La version du système de fichier Lustre est progressivement mis à jour sur tous les noeuds
  • Ce problème est aussi relié aux problèmes d'accès à l'espace /scratch

Incident description

System Incident status Start Date End Date
Narval Closed
Created by Maxime Boissonneault on

Title


Filesystem problem - Problème de système de fichiers


Summary


Some users have reported transient and random issues with Narval's filesystems. We have noticed that since a recent kernel security update which forced us to change the version of Lustre clients, compute nodes are more frequently evicted. When this happens, filesystem operations that are in progress on that node will fail. This may crash jobs that are not resilient against such failures (i.e. which don't retry to read or write upon failure). We are investigating possible solutions.

Certains utilisateurs nous ont rapporté des problèmes transients et aléatoires avec les systèmes de fichiers de Narval. Nous avons aussi remarqué que depuis une mise à jour de sécurité du noyau Linux qui a nécessité un changement de version du client Lustre, les noeuds de calcul se font plus fréquemment évincer. Lorsqu'une éviction se produit, les opérations d'écriture ou lecture qui sont en cours sur le noeud de calcul en question vont échouer. Ceci peut faire échouer des tâches qui ne sont pas résiliantes par rapport à ce type d'erreur (ex., qui ne réessaient de nouveau si une erreur se produit). Nous investiguons les pistes de solution potentielles. 




Updated by Maxime Boissonneault on