formation-continue

Dask, mise en œuvre et programmation (CB042)

La formation Dask, mise en œuvre et programmation vous permettra de savoir mettre en œuvre Dask pour paralléliser des calculs en Python.
 

Diplôme
Certificat ESIEE-IT
Durée
3 jours (soit 21 heures)
Coût
2 904 €
Campus
Paris 9ème ou à distance

Dask, mise en œuvre et programmation

  • Savoir mettre en œuvre Dask pour paralléliser des calculs en Python.

Introduction

  • Présentation de Dask, fonctionnalités, apports.
  • Comparaison avec d'autres environnements : yarn, spark.
  • Calculs parallèles en environnements distribués, ou sur un seul serveur.
  • Les composants de Dask : scheduler, collections BigData.

Premiers pas avec Dask

  • Différentes méthodes d'installation : Anaconda, pip, depuis les sources
  • Atelier : installation, et création d'objets Dask,
  • Choix des méthodes et tâches, visualisation des graphes d'exécution.
  • exécution par le scheduler.

Eléments de base

  • Array : cas d'usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques
  • Atelier : création, stockage de Dask Array
  • Bag : définition, limites
  • Atelier : exemple de création, stockage, calcul sur des Dask Bags
  • Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster,
  • critères de choix par rapport aux dataframes pandas, bonne pratiques,
  • compatibilité avec Parquet, intégration de tables SQL
  • Atelier : mise en œuvre de dask.dataframes et comparaison avec pandas
  • Delayed ou Futures : une exécution stockée dans un graphe d'actions, ou en temps réel, critères de choix.

Fonctionnement avancé

  • Gestion des performances
  • Configuration du scheduler
  • Les graphes d'exécution
  • Utilisation du dashboard
  • Outils de debugging
  • Atelier : tests de performances et debugging.

Dask.distributed

  • Fonctionnalités : exécution dans un environnement distribué ou en local, outils de diagnostic et de suivi des performances, utilisation de l'API Futures pour des calculs en temps réel
  • Architecture : dask-scheduler et dask-worker
  • Atelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d'un client.
  • Présentation du dashboard
  • Analyse des performances
  • Limites de Dask.distributed
  • Bonnes pratiques.

Dask-ML

  • Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask
  • Exemples d'utilisation : modèles complexes, volumes de données importants
  • Présentation de Dask-ML et principe de fonctionnement
  • Intégration scikit-learn, PyTorch, Keras / Tensorflow
  • Atelier : Installation et exemples avec scikit-learn.

À qui s’adresse cette formation ?

  • Chefs de projet, Data Scientists, Développeurs, Architectes...

Quels sont les prérequis ? 

  • Bases de la programmation python 

Méthodes pédagogiques 

  • Apports théoriques suivis d’applications 
  • Travaux pratiques réalisés 
     

Méthodes d'évaluations

  • QCM d'évaluation des acquis

  • À l’issue de cette formation, un certificat ESIEE-IT vous sera délivré.

Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr  (réponses sous 48heures). 

Informations complémentaires

Texte

Prochaines sessions : 

  • Du 13 au 15 novembre 2023
  • Du 17 au 19 janvier 2024
  • Du 13 au 15 mai 2024
  • Du 8 au 10 juillet 2024
  • Du 30 septembre au 2 octobre 2024
  • Du 16 au 18 décembre 2024
  • Horaires : 9h00 à 17h30
  • Taux de réussite : nouvelle formation 
  • 100% à distance (D) ou en présentiel (P)
  • Si vous êtes en situation de handicap, retrouvez toutes les informations utiles  ICI

 

Contactez-nous