Struttura del corso
-
Primer Scala
Una breve introduzione a Scala
Laboratori : Conoscere Scala
Nozioni di base su Spark
Contesto e storia
Spark e Hadoop
Concetti e architettura Spark
Ecosistema Spark (core, spark sql, mlib, streaming)
Laboratori : Installazione ed esecuzione di Spark
Primo sguardo a Spark
Esecuzione di Spark in modalità locale
Interfaccia utente Web di Spark
Guscio della scintilla
Analisi del set di dati - parte 1
Ispezione degli RDD
Labs: Esplorazione di conchiglie Spark
RDD
Concetti relativi agli RDD
Partizioni
Operazioni/trasformazioni RDD
Tipi RDD
RDD di coppia chiave-valore
MapReduce su RDD
Memorizzazione nella cache e persistenza
Laboratori: creazione e ispezione di RDD; Memorizzazione nella cache di RDD
Programmazione dell'API Spark
Introduzione all'API Spark / API RDD
Invio del primo programma a Spark
Debug / registrazione
Proprietà di configurazione
Laboratori : Programmazione nell'API Spark, Invio di processi
Scintilla SQL
SQL supporto in Spark
Frame di dati
Definizione di tabelle e importazione di set di dati
Interrogare i frame di dati usando SQL
Formati di archiviazione : JSON / Parquet
Laboratori : Creazione e interrogazione di frame di dati; Valutazione dei formati dei dati
MLlib
Introduzione a MLlib
Algoritmi MLlib
Laboratori : Scrittura di applicazioni MLib
GraphX
Panoramica della libreria GraphX
API GraphX
Laboratori : Elaborazione dei dati del grafico con Spark
Streaming di scintille
Panoramica dello streaming
Valutazione delle piattaforme di streaming
Operazioni di streaming
Operazioni con finestre scorrevoli
Laboratori : Scrittura di applicazioni Spark Streaming
Spark e Hadoop
Introduzione a Hadoop (HDFS / YARN)
Architettura Hadoop + Spark
Esecuzione di Spark su Hadoop YARN
Elaborazione di file HDFS con Spark
Prestazioni e messa a punto di Spark
Variabili di trasmissione
Accumulatori
Gestione della memoria e caching
Operazioni Spark
Distribuzione di Spark nell'ambiente di produzione
Modelli di distribuzione di esempio
Configurazioni
Monitoraggio
Risoluzione dei problemi
Requisiti
PREREQUISITI
familiarità con il linguaggio Java / Scala / Python (i nostri laboratori in Scala e Python) conoscenza di base dell'ambiente di sviluppo Linux (navigazione da riga di comando / modifica di file tramite VI o nano)
Recensioni (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Corso - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Corso - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Corso - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Corso - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Corso - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.