La formation Pig : développement de scripts vous permet de :
- Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données, des analyses de données
- Intégrer des données de différents formats.
Pig : développement de scripts (CB040)
Diplôme
Certificat ESIEE-IT
Durée
2 jours (soit 14 heures)
Coût
En intra seulement
Campus
Paris 9ème ou à distance
Pig : développement de scripts
- Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données, des analyses de données
- Intégrer des données de différents formats.
Introduction
- Le projet Apache Pig, fonctionnalités, versions
- Présentation de Pig dans l'écosystème Hadoop.
- Chaîne de fonctionnement.
- Comparatif avec l'approche Hive ou Spark.
Mise en œuvre
- Rappels sur les commandes HDFS
- Prérequis techniques, configuration de Pig
- Atelier : Exécution : les différents modes : interactif ou batch
- Atelier : Principe de l'exécution de scripts Pig Latin avec Grunt.
Base latin
- Modèles de données avec Pig
- Intégration Pig avec MapReduce
- Les requêtes Latin : chargement de données, instructions
- Ordres de bases : LOAD, FOREACH, FILTER, STORE.
- Atelier : création d'un ETL de base
- Contrôle d'exécution.
Transformation
- Groupements, jointures, tris, produits cartésiens.
- Transformation de base de la donnée.
- Découpages.
- Découpages sur filtres.
Analyse de la donnée
- Echantillonnages. Filtres. Rangements avec rank et dense.
- Calculs : minimaux/maximaux, sommes, moyennes, ...
- Atelier : traitements de chaînes de caractères. Traitement de dates.
Intégration
- Formats d'entrées/sorties. Interfaçage avro, json.
- Atelier : chargement de données depuis HDFS vers HBase, analyse de données Pig/Hbase et restitution Json.
Extensions
- Extension de Pig/Latin.
- Création de fonctions UDF en java.
- Intégration dans les scripts Pig.
- Atelier : utilisation de Pig Latin depuis des programmes Python
- Exécution de programmes externes, streaming.
À qui s’adresse cette formation ?
Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l'analyse de données.
Quels sont les prérequis ?
Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques.
Méthodes pédagogiques
- Apports théoriques suivis d’applications
- Travaux pratiques réalisés
Méthodes d'évaluations
- QCM d'évaluation des acquis
- À l’issue de cette formation, un certificat ESIEE-IT vous sera délivré.
Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr (réponses sous 48heures).
Informations complémentaires
Texte
Prochaines sessions :
- Nous consulter
- Horaires : 9h00 à 17h30
- Taux de réussite : nouvelle formation
- 100% à distance (D) ou en présentiel (P)
- Si vous êtes en situation de handicap, retrouvez toutes les informations utiles ICI