
Formation Apache Pig : Développement de scripts
Domaine : Data Science – Deep learning
DURÉE
2.0 jour(s)
OBJECTIFS
Comprendre le fonctionnement de Pig. Savoir développer des requêtes en latin, pour effectuer des transformations sur des données, des analyses de données, intégrer des données de différents formats.
Pré-requis
Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques.
Participants
Chef de projet, data scientist, développeur souhaitant utiliser Pig pour l'analyse de données.
coût
Nous contacter pour une formation sur mesure ou en intra
LIEUx de formation
Notre centre de formation à Sophia AntipolisOu sur votre site en formation intra
PROGRAMME DE FORMATION
Apache Pig : Développement de scripts
Introduction
Le projet Apache Pig (Fonctionnalités et versions)
Présentation de Pig dans l'écosystème Hadoop (Chaîne de fonctionnement)
Comparatif avec l'approche Hive ou Spark
Présentation de Pig dans l'écosystème Hadoop (Chaîne de fonctionnement)
Comparatif avec l'approche Hive ou Spark
Mise en oeuvre
Rappels sur les commandes HDFS
Prérequis techniques (Configuration de Pig)
Travaux pratiques (Les différents modes : interactif ou batch, Principe de l'exécution de scripts Pig Latin avec Grunt)
Prérequis techniques (Configuration de Pig)
Travaux pratiques (Les différents modes : interactif ou batch, Principe de l'exécution de scripts Pig Latin avec Grunt)
Base latin
Modèles de données avec Pig
Intégration Pig avec MapReduce
Les requêtes Latin (Chargement de données, Instructions)
Ordres de bases (LOAD, FOREACH, FILTER, STORE)
Travaux pratiques (Création d'un ETL de base, Contrôle d'exécution)
Intégration Pig avec MapReduce
Les requêtes Latin (Chargement de données, Instructions)
Ordres de bases (LOAD, FOREACH, FILTER, STORE)
Travaux pratiques (Création d'un ETL de base, Contrôle d'exécution)
Transformations
Groupements, jointures, tris, produits cartésiens
Transformation de base de la donnée
Découpages (Découpages sur filtres)
Transformation de base de la donnée
Découpages (Découpages sur filtres)
Analyse de la donnée
Echantillonages (Filtres, Rangements avec rank et dense)
Calculs (min/max, sommes, moyennes)
Travaux pratiques (Traitements de chaînes de caractères, Traitement de dates)
Calculs (min/max, sommes, moyennes)
Travaux pratiques (Traitements de chaînes de caractères, Traitement de dates)
Intégration
Formats d'entrées/sorties (Interfaçage avro, Json)
Travaux pratiques (Chargement de données depuis HDFS vers Hbase, Analyse de données Pig/Hbase, Restitution Json)
Travaux pratiques (Chargement de données depuis HDFS vers Hbase, Analyse de données Pig/Hbase, Restitution Json)
Extensions
Extension du PigLatin
Création de fonctions UDF en java
Intégration dans les scripts Pig
Travaux pratiques (Utilisation de Pig Latin depuis des programmes Python, Exécution de programmes externes, streaming)
Création de fonctions UDF en java
Intégration dans les scripts Pig
Travaux pratiques (Utilisation de Pig Latin depuis des programmes Python, Exécution de programmes externes, streaming)
dates des formations a grenoble
dates des formations a SOPHIA ANTIPOLIS
formations associées
- Blockchain : Mise en pratique
- Flux de données avec Storm
- Apache Flink
- BIG DATA Gestion et pilotage de projets
- BIG DATA Architecture et technologies
- BIG DATA Hadoop Infrastructure sécurisée
- BIG DATA Cassandra
- BIG DATA Hadoop - L’écosysteme
- BIG DATA Elastic Stack : Présentation
- BIG DATA Hadoop Stockage avec HBase
- BIG DATA Elastic Stack pour administrateurs
- BIG DATA Intégration SQL, Hive, SparkDataFrames
- BIG DATA Hadoop Cloudera Administration
- BIG DATA Kafka : Ingestion et traitement de messages
- BIG DATA NEO4J Graphes et analyse
- BIG DATA Hadoop Développement
- BIG DATA Hadoop EMR
- BIG DATA Programmation R et intégration Big Data
- BIG DATA Hadoop Hortonworks Administration
- BIG DATA Spark : Traitement de données
- BIG DATA Supervision
- BIG DATA La synthèse