Identification, valorisation et archivage des données des laboratoires

Europe/Paris
CIRM - Marseille

CIRM - Marseille

163 Avenue de Luminy 13288 Marseille CEDEX 9
Description

Action Nationale de Formation - 2018


Identification, valorisation et archivage des données
dans les laboratoires de Mathématiques

Formulaire
Participants
  • Alain Miniussi
  • Alain Sartout
  • Albert Shih
  • alrick dias
  • Axel Cattouillart
  • Benoit Metrot
  • christophe kneule
  • Cyril Blanpain
  • Damien Ferney
  • David DELAVENNAT
  • Didier DEPOISIER
  • DIdier Mallarino
  • Emmanuel Halbwachs
  • Fabien Muller
  • Francis Leger
  • Franck Lontin
  • Gilen OYHARÇABAL
  • Gilles Bivic
  • Henri Massias
  • Jacquelin Charbonnel
  • Jeff Renaudat
  • Joel Marchand
  • julien lecubin
  • Karine VIAUD
  • Laurent Azema
  • Marie-Goretti Dejean
  • Mohammed Khabzaoui
  • olivier benzerara
  • Philippe DARRE
  • Philippe Depouilly
  • Pierre Barthelemy
  • Romain Theron
  • Said Elmamouni
  • Sandrine Layrisse
  • Stephan LELONG
  • Sylvain Allemand
  • Sylvain FAIVRE
  • sylvain floucat
  • Vincent Bayle
  • Vincent Degat
  • Vincent Farget
  • yvan stroppa
Enquêtes
Pré-choix de vos ateliers PLM le Mardi après-midi
    • Arrivée des participants
    • Accueil: Accueil des participants - informations
      Présidents de session: Henri Massias, Philippe Depouilly, Sandrine Layrisse
      • 1
        Présentation de l'ANF et de Mathrice
      • 2
        Présentation du CIRM
      • 3
        Présentation du Programme
    • SSA
      • 4
        SSA1 : Introduction au vocabulaire autour du stockage, de la sauvegarde et de l’archivage

        Nous développerons dans un premier temps les problématiques du stockage et de la gestion de la volumétrie, des performances, de la fiabilité, de l’organisation des données. Dans un deuxième temps seront abordés les accès physiques aux données avant de faire un focus sur la sauvegarde et l’archivage.

        Orateur: Alain Sartout
    • 10:30
      Pause
    • SSA
      • 5
        SSA2 : Panorama des différentes technologies physiques et matérielles
        Orateur: Albert Shih (Observatoire de Paris)
    • 12:30
      Déjeuner
    • SSA
      • 6
        SSA3 : Caractéristiques et fonctionnalités des systèmes de fichiers locaux

        Avec le développement des technologies matérielles, l’augmentation de la taille des médias, et pour proposer de nouvelles fonctions, les systèmes de fichiers ont évolué. Après une description des diverses caractéristiques et des fonctionnalités qu’ils peuvent fournir, nous décrirons les différents systèmes de fichiers locaux utilisés aujourd’hui, des systèmes FAT à ZFS.

        Orateur: Vincent Bayle (CNRS (AFMB UMR7257))
      • 7
        SSA4 : Quels stockages distribués pour quels besoins ?

        Les solutions logicielles pouvant être mises en place pour assurer une disponibilité optimale et une rapidité d'accès adéquate aux fichiers n'ont jamais été aussi nombreuses, en particulier lorsque nous parlons de systèmes de fichiers distribués. Quand vient l'heure du choix, quelle(s) solution(s) choisir ?
        Après un panorama des systèmes de fichiers distribués (CEPH, BeeGFS, DPM, OpenIO, iRODS, ...). les critères de choix seront détaillés. Enfin, des exemples de déploiements seront présentés en perspective des besoins exprimés.

        Orateur: Jérôme Pansanel
      • 16:00
        Pause
      • 8
        SSA4 : Quels stockages distribués pour quels besoins ?

        Suite de la présentation.

        Orateur: Jérôme Pansanel
      • 9
        SSA4 : Table ronde autour des stockages distribués

        Table ronde sur le déploiement, l'exploitation et l'utilisation des systèmes de fichiers distribués, retours d'expériences.

        Orateur: Jérôme Pansanel
    • 19:30
      Dîner
    • INST
    • SSA
      • 11
        SSA5 : Problématiques de stockage et protection des données dans le laboratoire

        Catégoriser, cartographier les données dans le laboratoire, produire un document de plan de sauvegarde de la donnée, PRA, etc. pour le laboratoire.

        Le partage de la donnée : au niveau système de fichier, au niveau applicatif, Cloud, etc. (de NFS en passant par Samba, puis le mail, Git, Owncloud, Seafile, etc.), définir le périmètre d'intervention de l'ASR.

        Orateur: Joel Marchand
      • 10:30
        Pause
      • 12
        SSA5 : Problématiques de stockage et protection des données dans le laboratoire

        Catégoriser, cartographier les données dans le laboratoire, produire un document de plan de sauvegarde de la donnée, PRA, etc. pour le laboratoire.

        Le partage de la donnée : au niveau système de fichier, au niveau applicatif, Cloud, etc. (de NFS en passant par Samba, puis le mail, Git, Owncloud, Seafile, etc.), définir le périmètre d'intervention de l'ASR.

        Orateur: Joel Marchand
      • 13
        SSA6 : Retour sur expérience de la solution d'archivage mis en place à Mathdoc
        • Contexte (archivage des articles, des fichiers attachés et de leurs métadonnées)
        • Choix d'une solution (CINES pas abordable => CLOCKS)
        • Choix d'un processus (quels documents archiver/quand/comment)
        • Sauvegarde vs Archivage dans le contexte de Mathdoc
        • Où en est-on / Perspective
        Orateur: Olivier Labbe
    • 12:30
      Déjeuner
    • MAT
      Présidents de session: Damien Ferney, Laurent Azema
      • 14
        MAT1 : Solutions pour le stockage et l'archivage chez Mathrice
        Orateur: Laurent Azema
      • 15
        MAT2 : Atelier 1
        Orateur: Laurent Azema
      • 16
        MAT2 : Atelier 2
        Orateur: Laurent Azema
      • 17
        MAT2 : Atelier 3
        Orateur: Laurent Azema
      • 16:00
        Pause
      • 18
        MAT2 : Atelier 4
        Orateur: Laurent Azema
    • 19:30
      Dîner
    • 19
      Premier, second, troisième ... notons, classons !

      Dans de multiples compétitions (tennis, football, judo, échecs), les compétiteurs sont classés. Les procédures qui varient d'un sport à l'autre s'appuient sur des calculs mathématiques plus ou moins complexes.
      Nous vous proposons de les passer en revue en mettant en exergue les qualités et les paradoxes de chacune.

      Ces classements sont pris en compte lors des tirages au sort pour l'organisation des tournois ; les méthodes choisies privilégient le spectaculaire à l'équité.

      On ne classe pas que les sportifs, mais aussi les nations, les régions, les villes, les universités ...
      Nous insisterons le côté arbitraire, et contestable, de tous ces classements.

      Orateur: Gérard Grancher
    • BD
      • 20
        BD1 : Introduction aux technologies et applications Big Data

        Depuis les années 2000, l'informatique a vu émerger de nouvelles technologies, cloud et big data, qui bouleversent l'industrie avec l'arrivée d'outils de traitement à grande échelle.
        De nouveaux besoins sont apparus comme la possibilité d'extraire de la valeur des données en s'appuyant sur des outils qui répondent aux nouvelles exigences technologiques.
        Les architectures distribuées comme Hadoop, les bases de données non-relationnelles, les traitements parallélisés avec MapReduce constituent des outils qui répondent aux accroissements massifs des données, que ce soit en volumétrie, en nombre ou en type. Cette explosion de données a conduit à la terminologie Big Data.
        Nous découvrirons les différents concepts des systèmes Big Data, ce que signifient les termes comme base NoSQL, MapReduce, lac de données, ETL ou ELT, etc.
        Nous nous attarderons sur deux grands outils du BigData : Hadoop et MongoDB.

        Orateur: Sylvain Allemand
      • 10:30
        Pause
      • 21
        BD2 : Démo technologies et applications Big Data

        Quelques TPs autour de MongoDB et Hadoop

        Orateur: Sylvain Allemand
    • 12:30
      Déjeuner
    • 19:30
      Dîner
    • DM
    • 12:30
      Déjeuner
    • BD
      Présidents de session: Christophe CANCE, Christian LENNE
      • 24
        BD3 : Structures de données complexes et traitement de données massives

        Proposition d'une démarche pour le traitement de données complexes et/ou massives à des fins d'exploration interactive. Basée sur la mise en œuvre effective dans un contexte de données de santé, cette démarche propose d'explorer des notions connues mais peu utilisées qui émergent comme les bases graphes pour modéliser un lac de données et l'exploiter. Nous balayons quelques environnements système (Hadoop, bases NoSQL, ETL) et effleurons les contraintes de sécurité d'accès.

      • 15:30
        Pause
      • 25
        BD4 : Implémentation d'une plateforme expérimentale d'exploration interactive des données complexes et/ou massives.

        Implémentation d'une plateforme expérimentale d'exploration interactive des données complexes et/ou massives.
        Intégration des fonctionnalités de collecte de l'information (ETL) vers sa forme organisée (base graphe), d'exploration de la donnée (langages de requête, moteur de recherche, dataviz) et de production d'information métier (développement).

    • 19:30
      Dîner
    • REG
      • 26
        REG1 : Les nouveaux aspects réglementaires (la RGPD)
        Orateur: Emilie Masson
    • 10:30
      Pause
    • 27
      Bilan
      Orateurs: Henri Massias, Philippe Depouilly, Sandrine Layrisse
    • 12:00
      Déjeuner