Personal tools
You are here: Home Calcul Technique Documentation calculateur ATOS BULL Myria Gestion des données sur la baie de disques

Gestion des données sur la baie de disques

Document Actions
Les partitions, les quotas, les conseils et commandes pour gérer au mieux ses données de calcul sur Myria

Introduction

Les données du calculateur Myria sont stockées sur une baie de disques DDN accessible sur l'ensemble du cluster en GPFS. Les performances mesurées lors de la livraison sont de 28 Go/s pour les partitions /dlocal et /home. Ces partitions sont optimisées pour la lecture/écriture sur des gros fichiers (taille de blocs de 16Mo) et non pour une multitude de petits fichiers.


Quelques commandes pratiques

Combien ai-je de fichiers dans /dlocal ?
$ mmlsquota
lire la ligne "gpfs1 dlocal", colonne "files"
Comment connaitre la liste des dossiers temporaires de calcul de l'utilisateur nom_login ?
$ find /dlocal/run -maxdepth 1 -user nom_login
Comment connaitre rapidement le nombre de fichiers laissé par mon calcul dans /dlocal/run/jobid ?
Le prolog de Slurm compte le nombre de fichiers restants dans /dlocal/run/jobid et l'inscrit dans votre fichier .o associé au calcul :
Nombre de fichiers restants dans /dlocal/run/562817 : 
NB_REMIND_FILE = 4 
Pour rechercher uniquement cette ligne :
$ grep NB_REMIND_FILE nom_fichier.o
Comment connaitre la liste des calculs soumis dans la partition 2tcourt entre le 1/03/2019 et le 15/03/2019 pour faire du ménage ?
$ sacct -r 2tcourt -S 2019-03-01 -E 2019-03-15
Vous pouvez rajouter l'option "-l" pour afficher plus d'informations.
Comment connaitre le nombre de fichiers d'un dossier "chemin_dossier"?
$ find chemin_dossier -type f | wc -l
J'ai besoin de faire diminuer mon nombre de fichiers, mais je ne peux rien supprimer. Comment faire ?
Archivez certaines arborescences avec la commande "tar" : une archive = 1 fichier

Quelques conseils

Dans les scripts de soumission...
Le rapatriement des données s'effectue avec une commande "mv". Ne la remplacer surtout pas par un "cp", qui duplique les données et qui peut être très longue à s'exécuter. La commande "mv" est imédiate entre /dlocal et /home.
Si vous développez...
Privilégiez les fichiers volumineux avec des formats de type HDF5 plutôt qu'une multitude de petits fichiers. Vous gagnerez en performances sur les clusters de calcul avec des tailles de blocs importantes.
Si vous générez beaucoup de fichiers...
Surveillez votre quota. Affichez-le automatiquement lors de la connexion (fichier .bash_profile).


Quelques informations complémentaires

Les partitions et leur usage
La baie de disques est séparée en 2 parties (systèmes de fichiers) contenant chacun des sous parties (filesets).
La première partie est la plus volumineuse et la plus performante : elle accueille /home et /dlocal.
La deuxième partie est plus petite et donc moins performante : elle accueille /soft et /save.
  • /home contient les dossiers d'accueil des utilisateurs.
  • /dlocal contient les dossiers temporaires des calculs (/dlocal/run) et certains dossiers de calcul permanents (/dlocal/home).
  • /soft contient les logiciels mis à disposition par le Criann
  • /save contient un stockage moyen terme pour les utilisateurs régionaux

Attention : aucune sauvegarde n'est effectuée sur les données utilisateurs. Pensez à rapatrier vos codes et vos données dans vos laboratoires


Les quotas
Afin de garantir de bonnes performances, il faut maintenir un taux de remplissage de la baie (volumétrie et nombre de fichier) raisonnable. Pour cela, le Criann a position deux types de quotas :
  • /home : quota par défaut de 50Go / utilisateur
  • /dlocal : quota de 10 millions de fichiers

Dans les 2 cas, les limites correspondent à des valeurs "soft" pouvant être dépassées temporairement (7 jours). Au delà de ce délai, l'usage doit redescendre en dessous de la limite soft, sinon, aucune création de fichier n'est possible.


La problématique du nombre de fichiers
Le Criann a fait le choix de conserver les dossiers temporaires des calculs (/dlocal/run/jobid) au delà de la vie des calculs. Ce dossier peut ainsi être utilisé comme dossier de travail du calcul suivant.
Ces dossiers sont supprimés automatiquement par le Criann, 45 jours après la fin du calcul correspondant. Cela a l'avantage de pouvoir enchainer plusieurs calculs et également de récupérer des données qui n'auraient pas été récupérées en fin de calcul.

Pour la majeure partie des utilisateurs, en 45 jours, cela correspond à quelques milliers de fichiers. Pour certains utilisateurs de logiciels comme OpenFoam, cela peut représenter plusieurs dizaines de millions de fichiers. Le quota est là pour éviter une dérive, mais la soumission de nouveaux calculs devient impossible si le quota est dépassé : il faut donc faire du ménage en complément du ménage automatique...


Si vous avez des questions, merci de contacter le support : support@criann.fr


Powered by Plone CMS, the Open Source Content Management System

This site conforms to the following standards: