formation-continue

Hadoop développement (CB033)

La formation Hadoop développement vous permet de : 
- Comprendre l’écosystème Hadoop Cloudera/Hortonworks
- Présenter les principes du Framework Hadoop
- Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
- Développer des algorithmes parallèles efficaces avec MapReduce
- Charger des données non structurées des systèmes HDFS et HBase.
 

Diplôme
Certificat ESIEE-IT
Durée
2 jours (soit 14 heures)
Coût
1 932 €
Campus
Paris 9ème ou à distance

Hadoop développement

  • Comprendre l’écosystème Hadoop Cloudera/Hortonworks
  • Présenter les principes du Framework Hadoop
  • Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
  • Développer des algorithmes parallèles efficaces avec MapReduce
  • Charger des données non structurées des systèmes HDFS et HBase.

Comprendre l’écosystème Hadoop

  • Les fonctionnalités du framework Hadoop. Les différentes versions.
  • Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
  • Spécificités de chaque distribution.
  • Architecture et principe de fonctionnement. Zoom sur la distribution Cloudera/Hortonworks
  • Terminologie : NameNode, DataNode, ResourceManager, NodeManager. Rôle des différents composants. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Hue, Oozie, Pig, Hive, HBase, Zeppelin, ...
  • Atelier : Manipulations de base sur la console Hadoop.

Présenter les principes du Framework Hadoop

  • Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
  • Utilisation de yarn pour piloter les jobs map/reduce.
  • Infrastructure/mise en œuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie. Vue d'ensemble. Gestion des données. Exemple de sqoop.
  • Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch, ...
  • Outils complémentaires de traitement : Spark, SparkQL, SparkR, Spark/ML, Storm, BigTop ; outils de développement : Cascading, Scalding, Flink; outils d'analyse : RHadoop, Hama, Chukwa, kafka
  • Atelier : exécution de jobs sur la ferme Hadoop

Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés

  • Lac de données. Construction et utilisation. Exploitation des données du lac.
  • Les différents outils : Yarn, MapReduce, Spark, Hive, Pig
  • Différentes solutions : calculs en mode batch, ou en temps réel,sur des flux de données ou des données statiques.
  • Principe de map/reduce et exemples d'implémentations, langages et sur-couches.
  • Découpage des travaux (jobs) avec stockage intermédiaire. Le format parquet.
  • Atelier : développement d'un extracteur de données et qualification de la donnée..

Développer des algorithmes parallèles efficaces avec MapReduce

  • Principe et objectifs du modèle de programmation map/reduce.
  • Configuration des jobs, notion de configuration.
  • Les interfaces principales : mapper, reducer, fonctions map() et reduce(). Couples (clés, valeurs).
  • Implémentation par le framework Hadoop.
  • Etude de la collection d'exemples.
  • Atelier : Réduction de la donnée extraite précédemment. Recherche et scores.

Charger des données non structurées des systèmes HDFS et HBase

  • Format des données : texte, json, csv, parquet, ...
  • Format des entrées et sorties d'un job map/reduce : InputFormat et OutputFormat.
  • Atelier : type personnalisés : création d'un writable spécifique. Utilisation. Contraintes.
  • Accès à des systèmes externes : S3, hdfs, har, hbase, ...
  • Outils d'interfaçage entre les différents composants
  • Atelier : Ecriture d'un ETL HDFS vers HBase
     

À qui s’adresse cette formation ?

Développeurs, Chefs de projets, data-scientists, architectes, ...
 

Quels sont les prérequis ? 

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting. 
 

Méthodes pédagogiques 

  • Apports théoriques suivis d’applications 
  • Travaux pratiques réalisés 
     

Méthodes d'évaluations

  • QCM d'évaluation des acquis

  • À l’issue de cette formation, un certificat ESIEE-IT vous sera délivré.

Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr  (réponses sous 48heures). 

Informations complémentaires

Texte

Prochaines sessions : 

  • Du 9 au 10 novembre 2023
  • Du 8 au 9 février 2024
  • Du 11 au 12 juillet 2024
  • Du 3 au 4 octobre 2024
  • Du 19 au 20 décembre 2024

 

  • Horaires : 9h00 à 17h30
  • Taux de réussite : nouvelle formation 
  • 100% à distance (D) ou en présentiel (P)
  • Si vous êtes en situation de handicap, retrouvez toutes les informations utiles  ICI

 

Contactez-nous