Event Date Summary
Items 1 and 2 are unrelated and also not related to the issues or steps seen or taken in 3, 4 and 5 1) Oct 16 about 1/4 of all nodes crashed. We believe that there were two blips on one of the three power phases that provide power to the datacenter 2) Oct 16 around 19:15 PST we started seeing high load on the Lustre filesystems that made /project to respond very slowly. We spent several hours hunting for jobs that caused the load. After remediation of this issue, 1 hour had passed and monitoring was about to sign off for the night. 3) As soon as we had decided that the storage systems had settled, early in the morning we experienced a DDoS attack on our SSH and DNS services. 4) At 01:21 PST the central ethernet switch for our internal networks decided to stop forwarding packets (actually it dropped 98% of the packets and had some random one-way communication). 5) We had to navigate the issues with the DDoS to decide what actually was happening in the mix and finally found that the switch had gone into a bad state and prepared for remediation of that as soon as we could get on-site. We appreciate the patience as we understand there will have been jobs lost during this unexpected outage. =============================================== Les éléments ci-dessous ne sont pas reliés entre eux. 1) Le 16 octobre, environ le quart de tous les noeuds se sont éteints. Nous pensons qu'il y a eu deux micropannes sur l'une des trois phases électriques qui fournissent le centre de données. 2) Le 16 octobre, vers 19h15 PST, nous avons commencé à voir une charge élevée sur le système de fichiers Lustre. Cette charge rendait le système de fichier /project non réactif. Nous avons passé plusieurs heures à chercher les tâches qui causaient cette charge. Une heure après que ces tâches aient été annulées, notre équipe de monitorage était prête à partir pour la nuit. 3) Dès que nous avons décidé que le système de stockage était stable, très tôt le matin du 17 octobre, nous avons été victimes d'une attaque de type DDoS sur nos services SSH et DNS. 4) À 1h21 PST, dans la nuit du 16 au 17 octobre, le commutateur central de notre réseau interne a arrêté de transférer 98% des paquets de données. 5) Nous avons dû d'abord isoler les problèmes liés à l'attaque DDoS avant de trouver le problème avec le commutateur central, et préparer la correction à appliquer aussitôt que notre équipe serait sur place. Nous savons que certaines tâches ont été arrêtées pendant cette panne et apprécions votre compréhension au cours de ces événements.

Incident description

System Status Start Date End Date
Cedar Closed
Created by Compute Canada Staff


Resolved: Network outage - Panne du réseau


The external network is down. / Le réseau externe est hors ligne.