
Formation BIG DATA Architecture et technologies
Domaine : Data Science – Deep learning
DURÉE
2 jour(s)
OBJECTIFS
Comprendre les concepts essentiels du BigData et les technologies implémentées. Savoir analyser les difficultés propres à un projet BigData, les freins, les apports, tant sur les aspects techniques que sur les points liés à la gestion du projet.
Pré-requis
Bonne culture générale sur les systèmes d’information.
Participants
Chef de projets, architecte, développeur, data-scientist. Et toute personne souhaitant connaître les outils et solutions pour concevoir et mettre en oeuvre une architecture BigData.
coût
Nous contacter pour une formation sur mesure ou en intra
LIEUx de formation
Notre centre de formation à Sophia AntipolisOu sur votre site en formation intra
PROGRAMME DE FORMATION
BIG DATA Architecture et technologies
Introduction
L’essentiel du BigData (Calcul distribué, données non structurées, Besoins fonctionnels et caractéristiques techniques des projets, La valorisation des données, Le positionnement respectif des technologies de cloud, BigData et noSQL, Liens et implications)
Concepts clés (ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning)
Exemple d’application (Amazon Rekognition, Polly, EMR)
L’écosystème du BigData (Les acteurs, produits, état de l’art, Cycle de vie des projets Big Data)
Emergence de nouveaux métiers (DataScientists, Data labs, Hadoop scientists, CDO…)
Rôle de la DSI dans la démarche BigData (Gouvernance des données)
Aspects législatifs (Sur le stockage, la conservation de données, Sur les traitements, la commercialisation des données, des résultats)
Concepts clés (ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning)
Exemple d’application (Amazon Rekognition, Polly, EMR)
L’écosystème du BigData (Les acteurs, produits, état de l’art, Cycle de vie des projets Big Data)
Emergence de nouveaux métiers (DataScientists, Data labs, Hadoop scientists, CDO…)
Rôle de la DSI dans la démarche BigData (Gouvernance des données)
Aspects législatifs (Sur le stockage, la conservation de données, Sur les traitements, la commercialisation des données, des résultats)
Stockage distribué
Caractéristiques NoSQL (Les différents modes et formats de stockage, Les types de bases de données : Clé/valeur, document, colonne, graphe, Besoin de distribution, Définition de la notion d’élasticité, Principe du stockage répart)
Définitions (Réplication, sharding, gossip, hachage)
Systèmes de fichiers distribués (GFS, HDFS, Ceph)
Les bases de données (Redis, Cassandra, DynamoDB, Accumulo, HBase, MongoDB, BigTable, Neo4J…)
Données structurées et non structurées (Documents, images, fichiers XML, JSON, CSV…)
Moteurs de recherche (Principe de fonctionnement, Méthodes d’indexation, Recherche dans les bases de volumes importants, Présentation d’ElasticSearch et SoIR)
Principe du schemaless (Schéma de stockage, Clé de distribution, Clé de hachage)
Définitions (Réplication, sharding, gossip, hachage)
Systèmes de fichiers distribués (GFS, HDFS, Ceph)
Les bases de données (Redis, Cassandra, DynamoDB, Accumulo, HBase, MongoDB, BigTable, Neo4J…)
Données structurées et non structurées (Documents, images, fichiers XML, JSON, CSV…)
Moteurs de recherche (Principe de fonctionnement, Méthodes d’indexation, Recherche dans les bases de volumes importants, Présentation d’ElasticSearch et SoIR)
Principe du schemaless (Schéma de stockage, Clé de distribution, Clé de hachage)
Calcul et restitution, intégration
Différentes solutions (Calculs en mode batch ou en temps réel, Sur des flux de données ou des données statiques)
Les produits (Langage de calculs statistiques, R Statistics Language, Sas, Rstudio, Outils de visualisation : Tableau, QlikView)
Ponts entre les outils statistiques et les bases BigData (Outils de calcul sur des volumes importants Kafka, Spark, Hadoop …)
Zoom sur Hadoop (Complémentarité de HDFS et YARN)
Restitution et analyse (Logstash, Kibana, elk, zeppelin)
Principe de map/reduce (Exemples d’implémentations, Langage et sur-couches)
Présentation de pig pour la conception de tâches map/reduce sur une grappe Hadoop
Les produits (Langage de calculs statistiques, R Statistics Language, Sas, Rstudio, Outils de visualisation : Tableau, QlikView)
Ponts entre les outils statistiques et les bases BigData (Outils de calcul sur des volumes importants Kafka, Spark, Hadoop …)
Zoom sur Hadoop (Complémentarité de HDFS et YARN)
Restitution et analyse (Logstash, Kibana, elk, zeppelin)
Principe de map/reduce (Exemples d’implémentations, Langage et sur-couches)
Présentation de pig pour la conception de tâches map/reduce sur une grappe Hadoop
dates des formations a grenoble
dates des formations a SOPHIA ANTIPOLIS
formations associées
- Apache Flink
- Flux de données avec Storm
- Blockchain : Mise en pratique
- Apache Pig : Développement de scripts
- Apache Cassandra : Administration
- BIG DATA Gestion et pilotage de projets
- BIG DATA Hadoop Infrastructure sécurisée
- BIG DATA Cassandra
- BIG DATA Hadoop - L’écosysteme
- BIG DATA Elastic Stack : Présentation
- BIG DATA Hadoop Stockage avec HBase
- BIG DATA Elastic Stack pour administrateurs
- BIG DATA Intégration SQL, Hive, SparkDataFrames
- BIG DATA Hadoop Cloudera Administration
- BIG DATA Kafka : Ingestion et traitement de messages
- BIG DATA NEO4J Graphes et analyse
- BIG DATA Hadoop Développement
- BIG DATA Hadoop EMR
- BIG DATA Programmation R et intégration Big Data
- BIG DATA Hadoop Hortonworks Administration
- BIG DATA Spark : Traitement de données
- BIG DATA Supervision
- BIG DATA La synthèse