La formation Hadoop développement vous permet de :
- Comprendre l’écosystème Hadoop Cloudera/Hortonworks
- Présenter les principes du Framework Hadoop
- Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
- Développer des algorithmes parallèles efficaces avec MapReduce
- Charger des données non structurées des systèmes HDFS et HBase.
Hadoop développement (CB033)
Diplôme
Certificat ESIEE-IT
Durée
2 jours (soit 14 heures)
Coût
1 932 €
Campus
Paris 9ème ou à distance
Hadoop développement
- Comprendre l’écosystème Hadoop Cloudera/Hortonworks
- Présenter les principes du Framework Hadoop
- Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
- Développer des algorithmes parallèles efficaces avec MapReduce
- Charger des données non structurées des systèmes HDFS et HBase.
Comprendre l’écosystème Hadoop
- Les fonctionnalités du framework Hadoop. Les différentes versions.
- Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
- Spécificités de chaque distribution.
- Architecture et principe de fonctionnement. Zoom sur la distribution Cloudera/Hortonworks
- Terminologie : NameNode, DataNode, ResourceManager, NodeManager. Rôle des différents composants. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Hue, Oozie, Pig, Hive, HBase, Zeppelin, ...
- Atelier : Manipulations de base sur la console Hadoop.
Présenter les principes du Framework Hadoop
- Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
- Utilisation de yarn pour piloter les jobs map/reduce.
- Infrastructure/mise en œuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie. Vue d'ensemble. Gestion des données. Exemple de sqoop.
- Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch, ...
- Outils complémentaires de traitement : Spark, SparkQL, SparkR, Spark/ML, Storm, BigTop ; outils de développement : Cascading, Scalding, Flink; outils d'analyse : RHadoop, Hama, Chukwa, kafka
- Atelier : exécution de jobs sur la ferme Hadoop
Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
- Lac de données. Construction et utilisation. Exploitation des données du lac.
- Les différents outils : Yarn, MapReduce, Spark, Hive, Pig
- Différentes solutions : calculs en mode batch, ou en temps réel,sur des flux de données ou des données statiques.
- Principe de map/reduce et exemples d'implémentations, langages et sur-couches.
- Découpage des travaux (jobs) avec stockage intermédiaire. Le format parquet.
- Atelier : développement d'un extracteur de données et qualification de la donnée..
Développer des algorithmes parallèles efficaces avec MapReduce
- Principe et objectifs du modèle de programmation map/reduce.
- Configuration des jobs, notion de configuration.
- Les interfaces principales : mapper, reducer, fonctions map() et reduce(). Couples (clés, valeurs).
- Implémentation par le framework Hadoop.
- Etude de la collection d'exemples.
- Atelier : Réduction de la donnée extraite précédemment. Recherche et scores.
Charger des données non structurées des systèmes HDFS et HBase
- Format des données : texte, json, csv, parquet, ...
- Format des entrées et sorties d'un job map/reduce : InputFormat et OutputFormat.
- Atelier : type personnalisés : création d'un writable spécifique. Utilisation. Contraintes.
- Accès à des systèmes externes : S3, hdfs, har, hbase, ...
- Outils d'interfaçage entre les différents composants
- Atelier : Ecriture d'un ETL HDFS vers HBase
À qui s’adresse cette formation ?
Développeurs, Chefs de projets, data-scientists, architectes, ...
Quels sont les prérequis ?
Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.
Méthodes pédagogiques
- Apports théoriques suivis d’applications
- Travaux pratiques réalisés
Méthodes d'évaluations
- QCM d'évaluation des acquis
- À l’issue de cette formation, un certificat ESIEE-IT vous sera délivré.
Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr (réponses sous 48heures).
Informations complémentaires
Texte
Prochaines sessions :
- Du 9 au 10 novembre 2023
- Du 8 au 9 février 2024
- Du 11 au 12 juillet 2024
- Du 3 au 4 octobre 2024
- Du 19 au 20 décembre 2024
- Horaires : 9h00 à 17h30
- Taux de réussite : nouvelle formation
- 100% à distance (D) ou en présentiel (P)
- Si vous êtes en situation de handicap, retrouvez toutes les informations utiles ICI