- Découvrir les principaux concepts du Big Data
- Appréhender les avantages et les contraintes du Big Data
- Comprendre les enjeux économiques du Big Data
- Connaître l’écosystème du Big Data et appréhender les technologies associées
- Savoir anticiper son intégration dans les activités informatiques de l’entreprise
- Prendre en compte la sécurité et la confidentialité des données dans l’exploitation du Big Data
Etat de l'art du Big Data (CB000)
Diplôme
Certificat Pythagore FD
Durée
1 jour (soit 7 heures)
Coût
960 €
Campus
Paris 9ème ou à distance
Etat de l'art du Big Data (CB000)
- A l’issue de la formation, le stagiaire sera capable d’intégrer efficacement dans une stratégie d’entreprise les enjeux organisationnels et techniques du Big Data, en disposant d’une vue d'ensemble de son écosystème.
Découvrir les principaux concepts du Big Data
- Besoins fonctionnels et caractéristiques techniques des projets.
- Concepts clés : ETL/ELT, Extract Transform Load, CAP, 3V, 4V, données non structurées, semi-structurées.
- Le positionnement respectif des technologies de cloud, BigData et noSQL, et les liens, implications.
Atelier : Amazon Rekognition, Polly, EMR.
Appréhender les avantages et les contraintes du Big Data
- L'essentiel du BigData : calcul distribué, données non structurées.
- La valorisation des données. Prédictif, Machine Learning.
Atelier : Mise en oeuvre d'un cas d'utilisation de choix : quand utiliser le
BigData
Comprendre les enjeux économiques du Big Data
- Les moteurs de recherche. Méthodes d'indexation. Recherche dans les bases de volumes importants.
- Présentation de Elasticsearch et SolR.
- Les lacs de données : caractéristiques NoSQL.
- Le calcul distribué et les capacités d'analyse. Vers l'apprentissage automatique (Machine Learning) et
- l'intelligence artificielle.
- Les nouveaux métiers dans l'entreprise : DataScientists, DataEngineer, DataLabs, ...
Atelier : comparaison du mode de fonctionnement de quelques grands
acteurs du BigData
Connaître l’écosystème du Big Data et appréhender les technologies associées
- L'écosystème du BigData : les acteurs, les produits, état de l'art. Cycle de vie des projets BigData.
- Systèmes de fichiers distribués : GFS, HDFS, Ceph. Les bases de données : Redis, Cassandra, DynamoDB,
- Accumulo, HBase, MongoDB, BigTable, Neo4j, ...
- Les différents modes et formats de stockage. Les types de bases de données : clé/valeur, document, colonne,
- graphe. Besoin de distribution. Définition de la notion d'élasticité. Principe du stockage réparti.
- Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ...
- Stockage distribué : réplication, sharding, gossip, hachage,
- Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage
- Atelier : construction d'une architecture BigData à partir de briques de
- bases de l'écosystème pour répondre à un cas d'utilisation donné
Savoir anticiper son intégration dans les activités informatiques de l’entreprise
- Emergence de nouveaux métiers : Data-scientists, Data labs, Hadoop scientists, CDO, ...
- Intégration avec les outils statistiques présents et les outils BigData futurs. Outils de calcul sur des volumes
- importants : Kafka/Spark Streaming/Storm en temps réel, Hadoop/Spark en mode batch.
- Intégration avec les produits de DataScience : langage de calculs statistiques, R Statistics Language, sas,
- RStudio; outils de visualisation : Tableau, QlikView
- Intégration avec les produits de restitution et d'analyse : Logstash, Kibana, ElasticSearch, Zeppelin
Atelier : démonstration d'un ETL SQL/Hadoop
Prendre en compte la sécurité et la confidentialité des données dans l’exploitation du Big Data
- Rôle de la DSI dans la démarche BigData. Gouvernance des données: importance de la qualité des données,
- fiabilité, durée de validité, sécurité des données
- Aspects législatifs : sur le stockage, la conservation de données, ... sur les traitements, la commercialisation des données, des résultats
Atelier : mise en évidence des problèmes liés à la réplication inter-régions
et concernant les aspects juridiques des données : droits d'exploitation, propriété intellectuelle, ...
- Alternance de théorie et pratique avec une vérification des acquis au fur et à mesure de la formation
- Après avoir suivi l’ensemble des modules et validé l’obtention du parcours, un Certificat Pythagore FD vous sera remis.
- Pour vous inscrire, envoyez un mail à formationcontinue@esiee-it.fr (réponses sous 48heures).
Informations complémentaires
Texte
Prochaines sessions :
- 29 septembre 2023
- 8 décembre 2023
- 4 mars 2024
- 27 mai 2024
- 2 septembre 2024
- 25 novembre 2024
- Horaires : 9h00 à 17h30
- Nombre de participants : 4 à 16 par session
- Possibilité de faire cette formation en 100% distanciel
- Nouveau programme
- Si vous êtes en situation de handicap, retrouvez toutes les informations utiles ICI.