
Formation BIG DATA Hadoop Développement
Domaine : Data Science – Deep learning
DURÉE
3.0 jour(s)
OBJECTIFS
Connaître les principes du framework Hadoop et savoir utiliser la technologie MapReduce pour paralléliser des calculs sur des volumes importants de données.
Pré-requis
Connaissance d'un langage de programmation objet comme Java, Python, etc.
Participants
Chef de projet informatique, développeur, data scientist, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.
coût
Nous contacter pour une formation sur mesure ou en intra
LIEUx de formation
Notre centre de formation à GrenobleNotre centre de formation à MoiransNotre centre de formation à Sophia Antipolis
Sur votre site en formation intraEn classe distancielle
PROGRAMME DE FORMATION
BIG DATA Hadoop Développement
Introduction
Les fonctionnalités du framework Hadoop
Le projet et les modules (Hadoop Common, HDFS, YARN, Spark, MapReduce)
Utilisation de yarn pour piloter les jobs mapreduce
Le projet et les modules (Hadoop Common, HDFS, YARN, Spark, MapReduce)
Utilisation de yarn pour piloter les jobs mapreduce
MapReduce
Principe et objectifs du modèle de programmation MapReduce
Fonctions map() et reduce() (Couples (clés, valeurs))
Implémentation par le framework Hadoop
Etude de la collection d'exemples
Travaux pratiques (Rédaction d'un premier programme et exécution avec Hadoop)
Fonctions map() et reduce() (Couples (clés, valeurs))
Implémentation par le framework Hadoop
Etude de la collection d'exemples
Travaux pratiques (Rédaction d'un premier programme et exécution avec Hadoop)
Programmation
Configuration des jobs (Notion de configuration)
Les interfaces principales (mapper, reducer)
La chaîne de production (entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.)
Format des entrées et sorties d'un job MapReduce (InputFormat et OutputFormat.)
Travaux pratiques (Type personnalisé : création d'un writable spécifique, Utilisation et contraintes)
Les interfaces principales (mapper, reducer)
La chaîne de production (entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.)
Format des entrées et sorties d'un job MapReduce (InputFormat et OutputFormat.)
Travaux pratiques (Type personnalisé : création d'un writable spécifique, Utilisation et contraintes)
Outils complémentaires
Mise en oeuvre du cache distribué
Paramétrage d'un job (ToolRunner, Transmission de propriétés)
Accès à des systèmes externes (S3, hdfs, har )
Travaux pratiques (Répartition du job sur la ferme au travers de yarn)
Paramétrage d'un job (ToolRunner, Transmission de propriétés)
Accès à des systèmes externes (S3, hdfs, har )
Travaux pratiques (Répartition du job sur la ferme au travers de yarn)
Streaming
Définition du streaming map/reduce
Création d'un job map/reduce en python
Répartition sur la ferme (Avantages et inconvénients)
Liaisons avec des systèmes externes
Introduction au pont HadoopR
Travaux pratiques (Suivi d'un job en streaming)
Création d'un job map/reduce en python
Répartition sur la ferme (Avantages et inconvénients)
Liaisons avec des systèmes externes
Introduction au pont HadoopR
Travaux pratiques (Suivi d'un job en streaming)
Pig
Présentation des pattern et best practices Map/reduce
Introduction à Pig
Caractéristiques du langage : latin
Travaux pratiques (Installation/lancement de pig)
Ecriture de scripts simples pig (Les fonctions de base)
Ajouts de fonctions personnalisées (Les UDF, Mise en oeuvre)
Introduction à Pig
Caractéristiques du langage : latin
Travaux pratiques (Installation/lancement de pig)
Ecriture de scripts simples pig (Les fonctions de base)
Ajouts de fonctions personnalisées (Les UDF, Mise en oeuvre)
Hive
Simplification du requêtage
Etude de la syntaxe de base
Travaux pratiques (Création de tables, Ecriture de requêtes)
Comparaison pig/hive
Etude de la syntaxe de base
Travaux pratiques (Création de tables, Ecriture de requêtes)
Comparaison pig/hive
Sécurité en environnement hadoop
Mécanisme de gestion de l'authentification
Travaux pratiques (Configuration des ACLs)
Travaux pratiques (Configuration des ACLs)
dates des formations a grenoble
dates des formations a SOPHIA ANTIPOLIS
formations associées
- Apache Flink
- Flux de données avec Storm
- Blockchain : Mise en pratique
- Apache Pig : Développement de scripts
- Apache Cassandra : Administration
- BIG DATA Gestion et pilotage de projets
- BIG DATA Architecture et technologies
- BIG DATA Hadoop Infrastructure sécurisée
- BIG DATA Cassandra
- BIG DATA Hadoop - Lécosysteme
- BIG DATA Elastic Stack : Présentation
- BIG DATA Hadoop Stockage avec HBase
- BIG DATA Elastic Stack pour administrateurs
- BIG DATA Intégration SQL, Hive, SparkDataFrames
- BIG DATA Hadoop Cloudera Administration
- BIG DATA Kafka : Ingestion et traitement de messages
- BIG DATA NEO4J Graphes et analyse
- BIG DATA Hadoop EMR
- BIG DATA Programmation R et intégration Big Data
- BIG DATA Hadoop Hortonworks Administration
- BIG DATA Spark : Traitement de données
- BIG DATA Supervision
- BIG DATA La synthèse