- Maîtriser les concepts fondamentaux de Spark
- Savoir intégrer Spark dans un environnement Hadoop
- Développer des applications d’analyse en temps réel avec Spark Streaming
- Faire de la programmation parallèle avec Spark sur un cluster
- Manipuler des données avec Spark SQL
- Avoir une première approche du Machine Learning
Spark, développer des applications pour le Big Data (CB037)
Diplôme
Certificat Pythagore FD
Durée
3 jours (soit 21 heures)
Coût
2 904 €
Campus
Paris 9ème ou à distance
Spark, développer des applications pour le Big Data (CB037)
- A l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.
Maîtriser les concepts fondamentaux de Spark
- Présentation Spark, origine du projet,apports, principe de fonctionnement. Langages supportés.
- Modes de fonctionnement : batch/Streaming.
- Bibliothèques : Machine Learning, IA
- Mise en oeuvre sur une architecture distribuée. Architecture : clusterManager, driver, worker, ...
- Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud. Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Savoir intégrer Spark dans un environnement Hadoop
- Intégration de Spark avec HDFS, HBase,
- Création et exploitation d'un cluster Spark/YARN. Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark.
- Intégration de données AWS S3.
- Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
- Atelier : Mise en oeuvre avec Spark sur Hadoop HDFS et Yarn. Soumission de jobs, supervision depuis l'interface web
Développer des applications d’analyse en temps réel avec Spark Streaming
- Objectifs , principe de fonctionnement: stream processing. Source de données : HDFS, Flume, Kafka, ...
- Notion de StreamingContext, DStreams, démonstrations.
Atelier : traitement de flux DStreams en Scala. Watermarking. Gestion des micro-batches.
- Intégration de Spark Streaming avec Kafka
Atelier : mise en oeuvre d'une chaîne de gestion de données en flux tendu : IoT, Kafka, SparkStreaming, Spark. Analyse des données au fil de l'eau.
Faire de la programmation parallèle avec Spark sur un cluster
- Utilisation du shell Spark avec Scala ou Python. Modes de fonctionnement. Interprété, compilé.
- Utilisation des outils de construction. Gestion des versions de bibliothèques.
- Atelier : Mise en pratique en Java, Scala et Python. Notion de contexte
- Spark. Extension aux sessions Spark.
Manipuler des données avec Spark SQL
- Spark et SQL
- Traitement de données structurées. L'API Dataset et DataFrames
- Jointures. Filtrage de données, enrichissement. Calculs distribués de base. Introduction aux traitements de données avec map/reduce.
- Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels.
- Optimisation des requêtes. Mise en oeuvre des Dataframes et DataSet. Compatibilité Hive
Atelier : écriture d'un ETL entre HDFS et HBase
Atelier : extraction, modification de données dans une base distribuée.
- Collections de données distribuées. Exemples.
Support Cassandra
- Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark. Exécution de travaux Spark s'appuyant sur une grappe Cassandra.
Spark GraphX
- Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes
Atelier : exemples d'opérations sur les graphes.
Avoir une première approche du Machine Learning
- Machine Learning avec Spark, algorithmes standards supervisés et non-supervisés (RandomForest,
- LogisticRegression, KMeans, ...)
- Gestion de la persistance, statistiques.
- Mise en oeuvre avec les DataFrames.
Atelier : mise en oeuvre d'une régression logistique sur Spark
À qui s’adresse cette formation ?
- Chefs de projet, Data Scientists, Développeurs, Architectes...
Pré-requis
- Avoir des connaissances de Java ou Python et des notions de calculs statistiques.
- Alternance de théorie et pratique avec une vérification des acquis au fur et à mesure de la formation
- Après avoir suivi l’ensemble des modules et validé l’obtention du parcours, un Certificat Pythagore FD vous sera remis.
- Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr (réponses sous 48heures).
Informations complémentaires
Texte
Prochaines sessions :
- Du 06 au 08 novembre 2023
- Du 24 au 26 janvier 2024
- Du 24 au 26 avril 2024
- Du 28 au 30 août 2024
- Du 27 au 29 novembre 2024
- Horaires : 9h00 à 17h30
- Nombre de participants : 4 à 16 par session
- Possibilité de faire cette formation en 100% distanciel
- Nouveau programme
- Si vous êtes en situation de handicap, retrouvez toutes les informations utiles ICI.