• Meylan
  • Moirans
  • Sophia Antipolis
  • Les Webinaires ATP
04 76 41 14 20
Référencé Datadock
Atp Formation
  • Formations
  • Certifications
  • Société
  • Contact
Plan de cours
Accueil > Formations > Data Science – Deep learning > BIG DATA Spark : Traitement de données

Formation BIG DATA Spark : Traitement de données

Domaine : Data Science – Deep learning

DURÉE
3.0 jour(s)

 
OBJECTIFS
Comprendre le fonctionnement de Spark et son utilisation dans un environnement Hadoop. Savoir intégrer Spark dans un environnement Hadoop. Traiter des données Cassandra, HBase, Kafka, Flume, Sqoop, S3. Formation préparant à l’examen "Certification Hadoop avec Spark pour développeur de Cloudera"
 
Pré-requis
Connaissance de Java ou Python, notions de calculs statistiques et des bases Hadoop.

Participants

Chef de projet, data scientist, développeur…

coût

Nous contacter pour une formation sur mesure ou en intra

programme

Télécharger le plan de cours

Consulter le plan de cours

LIEUx de formation
Notre centre de formation à GrenobleNotre centre de formation à Moirans
Notre centre de formation à Sophia AntipolisOu sur votre site en formation intra

PROGRAMME DE FORMATION
BIG DATA Spark : Traitement de données

Introduction
Présentation de Spark (Origine du projet, apports, principe de fonctionnement, Langages supportés)
Premiers pas
Utilisation du shell Spark avec Scala ou Python (Modes de fonctionnement, Interprété, compilé)
Utilisation des outils de construction (Gestion des versions de bibliothèques)
Règles de développement
Mise en pratique en Java, Scala et Python (Notion de contexte Spark)
Différentes méthodes de création des RDD (Depuis un fichier texte, Depuis un stockage externe)
Manipulations sur les RDD (Resilient Distributed Dataset) (Fonctions, Gestion de la persistance)
Cluster
Différents cluster managers (Spark en autonome, Mesos, Yarn, Amazon EC2)
Architecture (SparkContext, Cluster Manager, Executor sur chaque nœud)
Définitions (Driver program, Cluster manager, deploy mode, Executor, Task, Job)
Mise en oeuvre avec Spark et Amazon EC2 (Soumission de jobs, Supervision depuis l’interface web)
Traitements
Lecture/écriture de données (Texte, JSon, Parquet, HDFS, fichiers séquentiels, Jointures, Filtrage de données, enrichissement, Calculs distribués de base, Introduction aux traitements de données avec map/reduce)
Travail sur les RDDs (Transformations et actions, Lazy exécution, Impact du shuffle sur les performances, RDD de base, key-pair RDDs, Variables partagées : accumulateurs et variables broadcast)
Intégration Hadoop
Présentation de l’écosystème Hadoop de base : HDFS/Yarn (Travaux pratiques avec Yarn)
Création et exploitation d’un cluster Spark/Yarn (Intégration de données sqoop, kafka, flume vers une architecture Hadoop, Intégration de données AWS S3)
Support Cassandra
Description rapide de l’architecture Cassandra (Mise en oeuvre depuis Spark, Exécution de travaux Spark s’appuyant sur une grappe Cassandra)
DataFrames
Spark et SQL
Objectifs (Traitement de données structurées, L’API DataSet et DataFrames)
Optimisation des requêtes (Mise en oeuvre des DataFrames et DataSet, Comptabilité Hive)
Travaux pratiques (Extraction, modification de données dans une base distribuée, Collections de données distribuées, Exemples)
Streaming
Objectifs, principe de fonctionnement (Stream processing, Source de données : HDFS, Flume, Kafka…)
Notion de StreamingContexte, DStreams, démonstrations
Travaux pratiques (Traitement de flux DStreams en Scala)
Machine Learning
Fonctionnalités (Machine Learning avec Spark, Algorithmes standards, Gestion de la persistance, Statistiques)
Supports de RDD (Mise en œuvre avec les DataFrames)
Spark GraphX
Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes
Travaux pratiques (Exemples d’opérations sur les graphes)
dates des formations a grenoble
  • Du 01/06/21 au 03/06/21
    Réserver
  • Du 05/10/21 au 07/10/21
    Réserver
  • Du 07/12/21 au 09/12/21
    Réserver
dates des formations a SOPHIA ANTIPOLIS
  • Du 01/06/21 au 03/06/21
    Réserver
  • Du 05/10/21 au 07/10/21
    Réserver
  • Du 07/12/21 au 09/12/21
    Réserver
formations associées
  • Apache Pig : Développement de scripts
  • Blockchain : Mise en pratique
  • Flux de données avec Storm
  • Apache Flink
  • BIG DATA Gestion et pilotage de projets
  • BIG DATA Architecture et technologies
  • BIG DATA Hadoop Infrastructure sécurisée
  • BIG DATA Cassandra
  • BIG DATA Hadoop - L’écosysteme
  • BIG DATA Elastic Stack : Présentation
  • BIG DATA Hadoop Stockage avec HBase
  • BIG DATA Elastic Stack pour administrateurs
  • BIG DATA Intégration SQL, Hive, SparkDataFrames
  • BIG DATA Hadoop Cloudera Administration
  • BIG DATA Kafka : Ingestion et traitement de messages
  • BIG DATA NEO4J Graphes et analyse
  • BIG DATA Hadoop Développement
  • BIG DATA Hadoop EMR
  • BIG DATA Programmation R et intégration Big Data
  • BIG DATA Hadoop Hortonworks Administration
  • BIG DATA Supervision
  • BIG DATA La synthèse

Atp Formation
Formation informatique à Grenoble et Sophia Antipolis

31, avenue du Granier
38 240 Meylan

170, rue de Chatagnon
38 430 Moirans

1501/1503 route des Dolines
06560 Valbonne

  • Mentions légales
  • Contact
  • Formations
  • Certifications
  • Société
  • Contact
Nous utilisons des cookies pour vous offrir la meilleure expérience sur notre site.Accepter