Version 0.3- 20/01/2022 Eléments de cadrage pour la nouvelle solution de stockage ========================================================= */ Spécifications générales --------------------------- - Cette solution doit être - sécurisé : jusqu'où pour au moins une partie des données ? règle des 3/2/1 ? disposer de trois copies des données au moins stocker ces copies sur deux supports différents conserver une copie de la sauvegarde hors site -> en capacité de se prémunir contre tous les risques ? - de données scientifiques : uniquement sous forme de fichiers pas de BDD SQL pas de VM plusieurs dizaines de millions de fichiers taille : de 1 octet à 300 Go - moyenne aux environs de 10 Mo - accédées en mode NAS principalement en SMB/CIFS, éventuellement en NFS : pas d'accès SAN nécessaire accès objet (type S3) optionnel - évolutif : en capacité : au moins X (?) fois la capacité initiale garanti sur au moins 5 ans, si possible 7 ans - "peu" performant : disques capacitifs SATA suffisants éventuellement "un peu" de disques SSD/NVME pour le cache et le filesystem mais pas de traitement lourd opéré directement sur le stockage */ Hypothèses générales ----------------------- - Une solution cloud privé est exclue pour - coût nettement plus élevé - coût humain d'entrée et de sortie - dépendance - pas d'accès NAS directement depuis les ordinateurs personnels - Pas d'acteur de l'ESR ne propose le service - ni au sein de UP : RPBS, IPOP-UP, DSI, Cumulus (v2 à horizon non défini) - ni au sein du CNRS : DSI, IFB - ni au sein de RENATER - Pas forcément envie d'être client de l'Institut Pasteur ? - Pas de motivation forte à co-construire une telle solution au sein d'IPOP-UP ? -> Nécessité de construire de manière autonome et interne à l'IJM rem : impact RH plus élevé, dépendance totale vis à vis du service informatique */ Quels facteurs de sécurisation sont exigés pour au moins une partie des données ? ------------------------------------------------------------------------------------ - physiques - redondance disque de type RAID 6 : capacité à perdre 2 disques ? - combien de copies disque ? 1 ? 2 ? - combien de copies bande ? 0 ? 1 ? 2 ? -> cela définit - le nombre d'ensembles physiques à héberger - leur taille et leur poids - logiques - replication automatisée entre les instances ? - snapshots ? - archivage type WORM ? - journalisation des accès ? - copie sur bande - choix très structurant - besoin d'un ensemble serveur + robotique + logiciel de sauvegarde rem : coût potentiellement élevé du dit logiciel - administration supplémentaire - organisation du flux disques -> bandes - coût par To plus faible - uniquement pour de la donnée froide - garantie et support matériel et logiciel - au moins 5 ans, si possible 7 ans - en J+1, heures et jours ouvrés */ Hébergement -------------- - Quels lieux d'implantation ? - Buffon RH10 : climatisation peu fiable - Buffon RH15 : vide - Olympe de Gouges : peu de place libre dans la baie actuelle - Obs. de Paris : accord reconduit d'année en année - DC UNIF Lognes : pas de date à ce jour - Attention aux contraintes physiques - climatisation - alimentation électrique et ondulation - charge au sol - capacité des racks : rigidité, masse totale, profondeur */ Fonctionnalités supplémentaires ---------------------------------- - Déduplication ? rem : probablement sans grand intérêt dans notre cas - Compression ? rem : observation d'un gain de 30% sur Compellent - Interfaces Web ? sous forme d'un drive ? interface S3 ? */ Dimensionnement ------------------ - A ce jour, environ 300 To logiques de données - Quelle capacité nette utile (hors compression) pour commencer ? - Enquête d'expression de besoins auprès des équipes de recherche ? - Comment sortir de la problématique poule/oeuf sur le coût pour Institut versus équipe ? - Quid des NAS Synology et autres stockages hors Compellent ? */ Eléments d'architectures --------------------------- - Evolutivité : 3 axes - addition de noeuds indépendants des autres ex : gros serveur HPE : +700 To dans un seul serveur - scale-in : on ajoute des tiroirs derrière les mêmes contrôleurs ex : Dell Compellent, Dell Isilon, NetApp - scale-out : on ajoute des noeuds complets (contrôleurs et tiroirs) ex : Dell Compellent, Dell Isilon, NetApp - Tetes NAS et virtualisation - dans les 2 premiers cas précédents, autant de têtes NAS que d'ensembles -> besoin de gérer le remplissage de chaque ensemble et le placement des données - dans le dernier, aggrégation/virtualisation des ressources, 1 seule tete NAS -> abstraction de l'emplacement des données - Ensemble matériel/logiciel : 4 classes de solution 1/ mono-noeud avec uniquement du matériel + logiciels libres ex : serveurs de stockage "nus" de Dell ou HPE + Linux, ext4/xfs/zfs, Samba+NFS - coût minimum - indépendance totale vis à vis des constructeurs - simplicité logicielle - besoin d'une bonne maitrise par le service informatique - support logiciel par la communauté - réplication à programmer de manière régulière 2/ stockage distribué multi-noeuds avec uniquement du matériel + logiciels libres ex : serveurs de stockage "nus" de Dell ou HPE + Linux, Ceph/Glusterfs/... - coût minimum - indépendance totale vis à vis des constructeurs - complexité logicielle - besoin d'une très grande maitrise par le service informatique - support logiciel par la communauté - capacité à faire de la réplication fil de l'eau 3/ matériel d'un constructeur + logiciel d'un éditeur en mode scale-in et scale-out ex : serveurs de stockage "nus" de Dell ou HPE + Scality/Qumulo/Active-Circle - coût plus élevé - indépendance relative vis à vis des vendeurs - cohabitation de deux interlocuteurs 4/ matériel et logiciel intégrés par le vendeur en mode scale-in et scale-out ex : Dell Compellent, Dell Isilon, NetApp, quid offre HPE - coût sans doute encore plus élevé - aucuune indépendance vis à vis du vendeur */ devis classe 1 : serveur HP Apollo 4510 via Matinfo-5 = 35 k€ HT pour 700 To utiles classe 4 : Dell Isilon hors Matinfo-5 = 172 k€ HT pour 540 To utiles - Impact ressources humunaines - Coût de gestion au quotidien - comparable à l'existant pour les stockages disque - plus complexe pour la sauvegarde/réplication bandes => besoin d'un autre ensemble matériel + logiciel - Suivant la classe retenue parmi les 4 précédentes, temps consacré par et dépendance vis à vis du service informatique et de sa technicité très différents - Quid du départ à la retraite de Joël dont les droits s'ouvrent à l'été 2025 ? */ Pré-requis avant la migration de l'existant vers la nouvelle solution ------------------------------------------------------------------------ - Réseau 10 Gb/s - switches 10 Gb/s sur au moins Buffon RH10 et Olympe de Gouges - liens 10 Gb/s entre les lieux d'implantation actuels et ceux choisis - Annuaire - service LDAP opérationnel et complet - avec gestion des mots de passe Windows (extension Samba) <= SMB/CIFS - avec si possible visualisation (voire délégation) par les équipes - Minimiser le travail de migration - avoir réduit autant que possible le nombre de volumes et de partages de l'existant - avoir demandé aux équipes de faire le maximume de ménage dans leurs volumes - Nouvelle politique de nommage - des équipes : invariant au changement d'intitulé - des personnes : humainement mémorisable - des groupes : pas trop nombreux qui soit raisonnable et durable dans le temps - Nouvelle politique de tarification aux équipes - à l'usage constaté en fin d'année ? - en fonction du nombre de copie des données ? - problématique de la variabilité des moyens des équipes par année ? - Nouvelle politique de conservation temporelle - des snapshots disques - et/ou des sauvegardes bandes