Capter, organiser et valoriser les données (BDVA0)

Si les deux grandes sortes de contenus numériques sont les programmes et les données, maîtriser le cycle de vie des données est aussi essentiel aux équipes IT que de maîtriser le cycle de vie des programmes.
Familiarisez-vous avec les différents types de données et les différents types d’outils pour les capter, les organiser, les valoriser.

Diplôme
Certificat ESIEE-IT
Durée
3 jours (soit 21heures)
Coût
2 342 € net
Campus
Campus Pontoise ou À distance

Formation continue : Capter, organiser et valoriser les données (BDVA0)

Au terme de cette formation, tout participant saura :

  • Appréhender de façon structurée « les data » ; saisir les logiques intrinsèques au cycle de vie des data, par contraste avec celle des programmes et outils de développement
  • Découvrir (ou redécouvrir) une panoplie d’outils pour gérer les data
  • Savoir spécifier la collecte, le stockage, le prétraitement de données selon le type de données et selon les usages potentiels

Module 1 : approche d’ensemble de la chaîne des data


Module 2 : données codées par l’Homme (formulaires)

  • Codage (au sens des data)
  • Traitement statistique
  • Valeurs extrêmes
  • Valeurs manquantes
  • Aléas et biais d’échantillon (notamment en collecte « exhaustive »)
  • Principal outil utilisé : Google Forms + Google Sheets

Module 3 : données de gestion type PGI/ERP/datawarehouses

  • Structuration pour le stockage (base de données relationnelle)
  • Interrogation structurée (SQL)
  • Choix de l’unité statistique lors du traitement.
  • Clés, (non-)redondance, tables de référence, modèle de données.

Module 4 : données multimédia, inventaires, textes structurés

  • Enjeux de temps de lecture et d’écriture dans le stockage structuré. Indexation.
  • Fichiers XML (dont html)
  • Utilisation pour les logs
  • Formatjson

Module 5 : textes naturels et NLP

  • Expressions régulières (regex).
  • Modèle du sac de mots (bag of words)
  • Indexation par dictionnaire
  • Écriture hexadécimale, encodage des caractères.
  • Tokenisation et lemmatisation.
  • Proximité ou distance entre textes. Classification automatique de textes, reconnaissance de thèmes ou découverte de thèmes (topic discovery).
  • Proximité ou distance entre mots. Réseaux d’attention (attention networks). Utilisation de Transformers (BERT).

Module 6 : images

  • Codage binaire des images (RGB) et enjeux de compression.
  • Compression non destructive : PNG, GIF…
  • Compression destructive : JPEG
  • Prétraitement des images pour la reconnaissance d’images

Module 7 : séries temporelles

  • Visualisation (dataviz)
  • Autocorrélation
  • Détection d’aberrations et alerte (smart alerting), détection de changement (changepoint detection)
  • Compression et transmission. Compressive sensing.
  • Interprétation des 0 et plages manquantes, modèles de durée
  • Pseudo-textes : représentation SAX-VSM de séries temporelles.

Option : Module 8 : réseaux (graphes)

  • Nœuds et liens
  •  Représentations graphiques des réseaux
  •  Utilisation pour formaliser des connaissances floues

 Utilisation en détection de fraude et plus largement en data analysis
 

A qui s’adresse cette formation ? 

Toute personne ayant à constituer ou prendre en charge des data, notamment en évolution de poste depuis le développement, en gestion de projets liés à la data, ou en évaluation et préparation de projets data.

Quels sont les pré-requis ?

Avoir une pratique d’au moins un type de données, et/ou d’un langage de programmation, facilite l’accès aux contenus de la formation.

Méthodes pédagogiques

  • Module 1 (brise-glace) : jeu de rôles
  • Modules 2 à 7 : 75% de pratique sur des cas d’école (miniature) avec des outils gratuits en ligne ; 25% de reprise théorique, vocabulaire spécifique, échanges.

Méthodes d'évaluations

Plusieurs QCM d’évaluation des acquis

A l’issue de cette formation, un certificat vous est délivré par ESIEE-IT

Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr (réponses sous 48heures). 

Informations pratiques

Texte
  • Prochaines sessions :
    • Du 10 au 12 juin 2024
    • Du 25 au 27 novembre 2024

 

  • Horaires : 9h00 à 17h30
  • 100% à distance (D) ou en présentiel (P)
  • Taux de réussite : Nouveau cours
  • Si vous êtes en situation de handicap, retrouvez toutes les informations utiles  ICI

 

Contactez-nous