formation-continue

Pig : développement de scripts (CB040)

La formation Pig : développement de scripts vous permet de : 
- Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données, des analyses de données
- Intégrer des données de différents formats.

Diplôme
Certificat ESIEE-IT
Durée
2 jours (soit 14 heures)
Coût
En intra seulement
Campus
Paris 9ème ou à distance

Pig : développement de scripts

  • Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données, des analyses de données
  • Intégrer des données de différents formats.

Introduction

  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l'écosystème Hadoop.
  • Chaîne de fonctionnement.
  • Comparatif avec l'approche Hive ou Spark.

Mise en œuvre

  • Rappels sur les commandes HDFS
  • Prérequis techniques, configuration de Pig
  • Atelier : Exécution : les différents modes : interactif ou batch
  • Atelier : Principe de l'exécution de scripts Pig Latin avec Grunt.

Base latin

  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Les requêtes Latin : chargement de données, instructions
  • Ordres de bases : LOAD, FOREACH, FILTER, STORE.
  • Atelier : création d'un ETL de base
  • Contrôle d'exécution.

Transformation

  • Groupements, jointures, tris, produits cartésiens.
  • Transformation de base de la donnée.
  • Découpages.
  • Découpages sur filtres.

Analyse de la donnée

  • Echantillonnages. Filtres. Rangements avec rank et dense.
  • Calculs : minimaux/maximaux, sommes, moyennes, ...
  • Atelier : traitements de chaînes de caractères. Traitement de dates.

Intégration

  • Formats d'entrées/sorties. Interfaçage avro, json.
  • Atelier : chargement de données depuis HDFS vers HBase, analyse de données Pig/Hbase et restitution Json.

Extensions

  • Extension de Pig/Latin.
  • Création de fonctions UDF en java.
  • Intégration dans les scripts Pig.
  • Atelier : utilisation de Pig Latin depuis des programmes Python
  • Exécution de programmes externes, streaming.
     

À qui s’adresse cette formation ?

Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l'analyse de données.
 

Quels sont les prérequis ? 

Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques. 
 

Méthodes pédagogiques 

  • Apports théoriques suivis d’applications 
  • Travaux pratiques réalisés 
     

Méthodes d'évaluations

  • QCM d'évaluation des acquis

  • À l’issue de cette formation, un certificat ESIEE-IT vous sera délivré.

Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr  (réponses sous 48heures). 

Informations complémentaires

Texte

Prochaines sessions : 

  • Nous consulter 
  • Horaires : 9h00 à 17h30
  • Taux de réussite : nouvelle formation 
  • 100% à distance (D) ou en présentiel (P)
  • Si vous êtes en situation de handicap, retrouvez toutes les informations utiles  ICI

 

Contactez-nous