Les bases de données relationnelles et noSQL : enjeux et perspectives

Le monde du stockage des données est en rapide évolution ces dernières années. De nouvelles technologies et de nouveaux acteurs s’installent quand les anciens marquent le pas. Cette journée de présentation stratégique fait le point sur le sujet et permet de se faire une idée précise des principales offres de stockage et des perspectives d’avenir dans le domaine. Le focus sera porté sur les offres comparées des bases de données relationnelles et des bases noSQL.


Plan de cours

  1. INTRODUCTION
    • Rappel des besoins et des caractéristiques techniques des projets BigData
    • Le positionnement des technologies de cloud, BigData et noSQL.
    • Eléments d'architecture.
  2. STOCKAGE
    • Caractéristiques NoSQL :
      • adaptabilité, extensibilité.
      • structure de données proches des utilisateurs, développeurs.
    • Les types de bases de données : clé/valeur, document, colonne, graphe.
    • Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, …
    • Les différents modes et formats de stockage.
    • Importance du théorème CAP.
    • Stockage réparti : réplication, sharding, gossip protocol, hachage,
    • Systèmes de fichiers distribués : GFS, HDFS,
    • Les bases de données : HBase, BigTable, ..
    • Quelques exemples de produits et leurs caractéristiques :
    • Cassandra, MongoDB, CouchDB, DynamoDB, Riak, Hadoop.
    • Qualité des données, gouvernance de données.
  3. INDEXATION ET RECHERCHE
    • Moteurs de recherche.
    • Principe de fonctionnement.
    • Méthodes d'indexation. Mise en œuvre avec elasticsearch.
    • Exemple de Lucene/solr.
    • Recherche dans les bases de volumes importants.
    • Exemples de produits et comparaison :
    • Dremel, Drill, ElasticSearch, MapReduce
  4. CALCUL ET RESTITUTION, INTEGRATION
    • Différentes solutions : calculs en mode batch, ou en temps réel, sur des flux de données ou des données statiques.
    • langage de calculs statistiques, R Statistics Language, sas, RStudio.
    • Ponts entre les outils statistiques et les bases BigData
    • Outils de calcul sur des volumes importants : storm en temps réel, hadoop en mode batch.

Code formation & Durée

FAF510 - 1 jour

Public

Décideurs, architectes logiciels, chefs de projet, développeurs et administrateurs d’applications.

Pré-requis

Connaissance des principes fondamentaux des systèmes informatiques.

Modalité pédagogique

Apport théorique, mises en situations, études de cas, travaux en groupes.

Téléchargement