Identification, valorisation et archivage des données des laboratoires

Europe/Paris
CIRM - Marseille

CIRM - Marseille

163 Avenue de Luminy 13288 Marseille CEDEX 9
Description

Action Nationale de Formation - 2018


Identification, valorisation et archivage des données
dans les laboratoires de Mathématiques

Formulaire
Participants
  • Alain Miniussi
  • Alain Sartout
  • Albert Shih
  • alrick dias
  • Axel Cattouillart
  • Benoit Metrot
  • christophe kneule
  • Cyril Blanpain
  • Damien Ferney
  • David DELAVENNAT
  • Didier DEPOISIER
  • DIdier Mallarino
  • Emmanuel Halbwachs
  • Fabien Muller
  • Francis Leger
  • Franck Lontin
  • Gilen OYHARÇABAL
  • Gilles Bivic
  • Henri Massias
  • Jacquelin Charbonnel
  • Jeff Renaudat
  • Joel Marchand
  • julien lecubin
  • Karine VIAUD
  • Laurent Azema
  • Marie-Goretti Dejean
  • Mohammed Khabzaoui
  • olivier benzerara
  • Philippe DARRE
  • Philippe Depouilly
  • Pierre Barthelemy
  • Romain Theron
  • Said Elmamouni
  • Sandrine Layrisse
  • Stephan LELONG
  • Sylvain Allemand
  • Sylvain FAIVRE
  • sylvain floucat
  • Vincent Bayle
  • Vincent Degat
  • Vincent Farget
  • yvan stroppa
Enquêtes
Pré-choix de vos ateliers PLM le Mardi après-midi
    • 17:00 00:00
      Arrivée des participants
    • 09:00 09:45
      Accueil: Accueil des participants - informations
      Présidents de session: Henri Massias, Philippe Depouilly, Sandrine Layrisse
      • 09:00
        Présentation de l'ANF et de Mathrice 15m
      • 09:15
        Présentation du CIRM 15m
      • 09:30
        Présentation du Programme 15m
    • 09:45 10:30
      SSA
      • 09:45
        SSA1 : Introduction au vocabulaire autour du stockage, de la sauvegarde et de l’archivage 45m

        Nous développerons dans un premier temps les problématiques du stockage et de la gestion de la volumétrie, des performances, de la fiabilité, de l’organisation des données. Dans un deuxième temps seront abordés les accès physiques aux données avant de faire un focus sur la sauvegarde et l’archivage.

        Orateur: Alain Sartout
    • 10:30 11:00
      Pause 30m
    • 11:00 12:30
      SSA
      • 11:00
        SSA2 : Panorama des différentes technologies physiques et matérielles 1h 30m
        Orateur: Albert Shih (Observatoire de Paris)
    • 12:30 14:00
      Déjeuner 1h 30m
    • 14:00 18:00
      SSA
      • 14:00
        SSA3 : Caractéristiques et fonctionnalités des systèmes de fichiers locaux 1h 30m

        Avec le développement des technologies matérielles, l’augmentation de la taille des médias, et pour proposer de nouvelles fonctions, les systèmes de fichiers ont évolué. Après une description des diverses caractéristiques et des fonctionnalités qu’ils peuvent fournir, nous décrirons les différents systèmes de fichiers locaux utilisés aujourd’hui, des systèmes FAT à ZFS.

        Orateur: Vincent Bayle (CNRS (AFMB UMR7257))
      • 15:30
        SSA4 : Quels stockages distribués pour quels besoins ? 30m

        Les solutions logicielles pouvant être mises en place pour assurer une disponibilité optimale et une rapidité d'accès adéquate aux fichiers n'ont jamais été aussi nombreuses, en particulier lorsque nous parlons de systèmes de fichiers distribués. Quand vient l'heure du choix, quelle(s) solution(s) choisir ?
        Après un panorama des systèmes de fichiers distribués (CEPH, BeeGFS, DPM, OpenIO, iRODS, ...). les critères de choix seront détaillés. Enfin, des exemples de déploiements seront présentés en perspective des besoins exprimés.

        Orateur: Jérôme Pansanel
      • 16:00
        Pause 30m
      • 16:30
        SSA4 : Quels stockages distribués pour quels besoins ? 30m

        Suite de la présentation.

        Orateur: Jérôme Pansanel
      • 17:00
        SSA4 : Table ronde autour des stockages distribués 1h

        Table ronde sur le déploiement, l'exploitation et l'utilisation des systèmes de fichiers distribués, retours d'expériences.

        Orateur: Jérôme Pansanel
    • 19:30 20:30
      Dîner 1h
    • 09:00 10:00
      INST
    • 10:00 12:30
      SSA
      • 10:00
        SSA5 : Problématiques de stockage et protection des données dans le laboratoire 30m

        Catégoriser, cartographier les données dans le laboratoire, produire un document de plan de sauvegarde de la donnée, PRA, etc. pour le laboratoire.

        Le partage de la donnée : au niveau système de fichier, au niveau applicatif, Cloud, etc. (de NFS en passant par Samba, puis le mail, Git, Owncloud, Seafile, etc.), définir le périmètre d'intervention de l'ASR.

        Orateur: Joel Marchand
      • 10:30
        Pause 30m
      • 11:00
        SSA5 : Problématiques de stockage et protection des données dans le laboratoire 1h

        Catégoriser, cartographier les données dans le laboratoire, produire un document de plan de sauvegarde de la donnée, PRA, etc. pour le laboratoire.

        Le partage de la donnée : au niveau système de fichier, au niveau applicatif, Cloud, etc. (de NFS en passant par Samba, puis le mail, Git, Owncloud, Seafile, etc.), définir le périmètre d'intervention de l'ASR.

        Orateur: Joel Marchand
      • 12:00
        SSA6 : Retour sur expérience de la solution d'archivage mis en place à Mathdoc 30m
        • Contexte (archivage des articles, des fichiers attachés et de leurs métadonnées)
        • Choix d'une solution (CINES pas abordable => CLOCKS)
        • Choix d'un processus (quels documents archiver/quand/comment)
        • Sauvegarde vs Archivage dans le contexte de Mathdoc
        • Où en est-on / Perspective
        Orateur: Olivier Labbe
    • 12:30 14:00
      Déjeuner 1h 30m
    • 14:00 18:00
      MAT
      Présidents de session: Damien Ferney, Laurent Azema
      • 14:00
        MAT1 : Solutions pour le stockage et l'archivage chez Mathrice 30m
        Orateur: Laurent Azema
      • 14:30
        MAT2 : Atelier 1 30m
        Orateur: Laurent Azema
      • 15:00
        MAT2 : Atelier 2 30m
        Orateur: Laurent Azema
      • 15:30
        MAT2 : Atelier 3 30m
        Orateur: Laurent Azema
      • 16:00
        Pause 30m
      • 16:30
        MAT2 : Atelier 4 30m
        Orateur: Laurent Azema
    • 19:30 20:30
      Dîner 1h
    • 21:00 22:00
      Premier, second, troisième ... notons, classons ! 1h

      Dans de multiples compétitions (tennis, football, judo, échecs), les compétiteurs sont classés. Les procédures qui varient d'un sport à l'autre s'appuient sur des calculs mathématiques plus ou moins complexes.
      Nous vous proposons de les passer en revue en mettant en exergue les qualités et les paradoxes de chacune.

      Ces classements sont pris en compte lors des tirages au sort pour l'organisation des tournois ; les méthodes choisies privilégient le spectaculaire à l'équité.

      On ne classe pas que les sportifs, mais aussi les nations, les régions, les villes, les universités ...
      Nous insisterons le côté arbitraire, et contestable, de tous ces classements.

      Orateur: Gérard Grancher
    • 09:00 12:30
      BD
      • 09:00
        BD1 : Introduction aux technologies et applications Big Data 1h 30m

        Depuis les années 2000, l'informatique a vu émerger de nouvelles technologies, cloud et big data, qui bouleversent l'industrie avec l'arrivée d'outils de traitement à grande échelle.
        De nouveaux besoins sont apparus comme la possibilité d'extraire de la valeur des données en s'appuyant sur des outils qui répondent aux nouvelles exigences technologiques.
        Les architectures distribuées comme Hadoop, les bases de données non-relationnelles, les traitements parallélisés avec MapReduce constituent des outils qui répondent aux accroissements massifs des données, que ce soit en volumétrie, en nombre ou en type. Cette explosion de données a conduit à la terminologie Big Data.
        Nous découvrirons les différents concepts des systèmes Big Data, ce que signifient les termes comme base NoSQL, MapReduce, lac de données, ETL ou ELT, etc.
        Nous nous attarderons sur deux grands outils du BigData : Hadoop et MongoDB.

        Orateur: Sylvain Allemand
      • 10:30
        Pause 30m
      • 11:00
        BD2 : Démo technologies et applications Big Data 1h 30m

        Quelques TPs autour de MongoDB et Hadoop

        Orateur: Sylvain Allemand
    • 12:30 14:00
      Déjeuner 1h 30m
    • 19:30 20:30
      Dîner 1h
    • 09:00 12:30
      DM
    • 12:30 14:00
      Déjeuner 1h 30m
    • 14:00 18:00
      BD
      Présidents de session: Christophe CANCE, Christian LENNE
      • 14:00
        BD3 : Structures de données complexes et traitement de données massives 1h 30m

        Proposition d'une démarche pour le traitement de données complexes et/ou massives à des fins d'exploration interactive. Basée sur la mise en œuvre effective dans un contexte de données de santé, cette démarche propose d'explorer des notions connues mais peu utilisées qui émergent comme les bases graphes pour modéliser un lac de données et l'exploiter. Nous balayons quelques environnements système (Hadoop, bases NoSQL, ETL) et effleurons les contraintes de sécurité d'accès.

      • 15:30
        Pause 30m
      • 16:00
        BD4 : Implémentation d'une plateforme expérimentale d'exploration interactive des données complexes et/ou massives. 2h

        Implémentation d'une plateforme expérimentale d'exploration interactive des données complexes et/ou massives.
        Intégration des fonctionnalités de collecte de l'information (ETL) vers sa forme organisée (base graphe), d'exploration de la donnée (langages de requête, moteur de recherche, dataviz) et de production d'information métier (développement).

    • 19:30 20:30
      Dîner 1h
    • 09:00 10:30
      REG
      • 09:00
        REG1 : Les nouveaux aspects réglementaires (la RGPD) 1h 30m
        Orateur: Emilie Masson
    • 10:30 11:00
      Pause 30m
    • 11:00 12:00
      Bilan 1h
      Orateurs: Henri Massias, Philippe Depouilly, Sandrine Layrisse
    • 12:00 13:00
      Déjeuner 1h