Spark, développer des applications pour le Big Data (CB037)

Description
Spark, développer des applications pour le Big Data (CB037)

- Maîtriser les concepts fondamentaux de Spark
- Savoir intégrer Spark dans un environnement Hadoop
- Développer des applications d’analyse en temps réel avec Spark Streaming
- Faire de la programmation parallèle avec Spark sur un cluster
- Manipuler des données avec Spark SQL
- Avoir une première approche du Machine Learning

Diplôme

Certificat Pythagore FD

Durée

3 jours (soit 21 heures)

Coût

2 904 €

Campus

Paris 9ème ou à distance

Spark, développer des applications pour le Big Data (CB037)

A l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.

Maîtriser les concepts fondamentaux de Spark

Présentation Spark, origine du projet,apports, principe de fonctionnement. Langages supportés.
Modes de fonctionnement : batch/Streaming.
Bibliothèques : Machine Learning, IA
Mise en oeuvre sur une architecture distribuée. Architecture : clusterManager, driver, worker, ...
Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud. Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job

Savoir intégrer Spark dans un environnement Hadoop

Intégration de Spark avec HDFS, HBase,
Création et exploitation d'un cluster Spark/YARN. Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark.
Intégration de données AWS S3.
Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
Atelier : Mise en oeuvre avec Spark sur Hadoop HDFS et Yarn. Soumission de jobs, supervision depuis l'interface web

Développer des applications d’analyse en temps réel avec Spark Streaming

Objectifs , principe de fonctionnement: stream processing. Source de données : HDFS, Flume, Kafka, ...
Notion de StreamingContext, DStreams, démonstrations.

Atelier : traitement de flux DStreams en Scala. Watermarking. Gestion des micro-batches.

Intégration de Spark Streaming avec Kafka

Atelier : mise en oeuvre d'une chaîne de gestion de données en flux tendu : IoT, Kafka, SparkStreaming, Spark. Analyse des données au fil de l'eau.

Faire de la programmation parallèle avec Spark sur un cluster

Utilisation du shell Spark avec Scala ou Python. Modes de fonctionnement. Interprété, compilé.
Utilisation des outils de construction. Gestion des versions de bibliothèques.
Atelier : Mise en pratique en Java, Scala et Python. Notion de contexte
Spark. Extension aux sessions Spark.

Manipuler des données avec Spark SQL

Spark et SQL
Traitement de données structurées. L'API Dataset et DataFrames
Jointures. Filtrage de données, enrichissement. Calculs distribués de base. Introduction aux traitements de données avec map/reduce.
Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels.
Optimisation des requêtes. Mise en oeuvre des Dataframes et DataSet. Compatibilité Hive

Atelier : écriture d'un ETL entre HDFS et HBase

Atelier : extraction, modification de données dans une base distribuée.

Collections de données distribuées. Exemples.

Support Cassandra

Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark. Exécution de travaux Spark s'appuyant sur une grappe Cassandra.

Spark GraphX

Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes

Atelier : exemples d'opérations sur les graphes.

Avoir une première approche du Machine Learning

Machine Learning avec Spark, algorithmes standards supervisés et non-supervisés (RandomForest,
LogisticRegression, KMeans, ...)
Gestion de la persistance, statistiques.
Mise en oeuvre avec les DataFrames.

Atelier : mise en oeuvre d'une régression logistique sur Spark

À qui s’adresse cette formation ?

Chefs de projet, Data Scientists, Développeurs, Architectes...

Pré-requis

Avoir des connaissances de Java ou Python et des notions de calculs statistiques.

Alternance de théorie et pratique avec une vérification des acquis au fur et à mesure de la formation

Après avoir suivi l’ensemble des modules et validé l’obtention du parcours, un Certificat Pythagore FD vous sera remis.

Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr (réponses sous 48heures).

Informations complémentaires

Prochaines sessions :

Du 06 au 08 novembre 2023
Du 24 au 26 janvier 2024
Du 24 au 26 avril 2024
Du 28 au 30 août 2024
Du 27 au 29 novembre 2024

Horaires : 9h00 à 17h30
Nombre de participants : 4 à 16 par session
Possibilité de faire cette formation en 100% distanciel
Nouveau programme
Si vous êtes en situation de handicap, retrouvez toutes les informations utiles ICI.

Contactez-nous

Spark, développer des applications pour le Big Data (CB037)

Spark, développer des applications pour le Big Data (CB037)

Objectif

Programme

Maîtriser les concepts fondamentaux de Spark

Savoir intégrer Spark dans un environnement Hadoop

Développer des applications d’analyse en temps réel avec Spark Streaming

Faire de la programmation parallèle avec Spark sur un cluster

Manipuler des données avec Spark SQL

Support Cassandra

Spark GraphX

Avoir une première approche du Machine Learning

À qui s’adresse cette formation et Pré-requis

À qui s’adresse cette formation ?

Pré-requis

Méthodes pédagogiques

Délivrance du certificat

Modalités d'accès

Informations complémentaires

Prochaines sessions :

Rejoignez-nous et retrouvez toutes nos actualités sur :