Struttura del corso
Introduzione
- Introduzione alle soluzioni di Cloud Computing e Big Data
- Panoramica delle funzionalità e dell'architettura di Apache Hadoop
Impostazione Hadoop
- Pianificazione di un Hadoop cluster (on-premise, cloud, ecc.)
- Selezione del sistema operativo e della distribuzione Hadoop
- Provisioning delle risorse (hardware, rete, ecc.)
- Download e installazione del software
- Dimensionamento del cluster per una maggiore flessibilità
Utilizzo di HDFS
- Informazioni su Hadoop Distributed File System (HDFS)
- Cenni preliminari sulla Guida di riferimento ai comandi HDFS
- Accesso a HDFS
- Esecuzione di operazioni di base sui file in HDFS
- Utilizzo di S3 come complemento a HDFS
Panoramica di MapReduce
- Informazioni sul flusso di dati nel framework MapReduce
- Mappa, mescola, ordina e riduci
- Demo: Calcolo degli stipendi più alti
Lavorare con YARN
- Informazioni sulla gestione delle risorse in Hadoop
- Utilizzo di ResourceManager, NodeManager, Application Master
- Pianificazione dei processi in YARN
- Pianificazione per un numero elevato di nodi e cluster
- Demo: Pianificazione dei processi
Integrazione Hadoop con Spark
- Configurazione dell'archiviazione per Spark (HDFS, Amazon, S3, NoSQL e così via)
- Informazioni sui set di dati distribuiti resilienti (RDD)
- Creazione di un RDD
- Implementazione delle trasformazioni RDD
- Demo: Implementazione di un programma di ricerca testuale per i titoli dei film
Gestione di un cluster Hadoop
- Monitoraggio Hadoop
- Protezione di un cluster Hadoop
- Aggiunta e rimozione di nodi
- Esecuzione di un benchmark delle prestazioni
- Ottimizzazione di un cluster Hadoop per ottimizzare le prestazioni
- Pianificazione di backup, ripristino e continuità operativa
- Garantire l'alta disponibilità (HA)
Aggiornamento e migrazione di un cluster Hadoop
- Valutazione dei requisiti del carico di lavoro
- Aggiornamento Hadoop
- Passaggio dall'on-premise al cloud e viceversa
- Ripristino da errori
Risoluzione dei problemi
Riassunto e conclusione
Requisiti
- Esperienza nell'amministrazione di sistema
- Esperienza con Linux riga di comando
- Comprensione dei concetti di big data
Pubblico
- Amministratori di sistema
- Dba
Recensioni (5)
Un sacco di esempi pratici, modi diversi di affrontare lo stesso problema, e a volte trucchi non così ovvi su come migliorare la soluzione attuale
Rafal - Nordea
Corso - Apache Spark MLlib
Traduzione automatica
very interactive...
Richard Langford
Corso - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Corso - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Corso - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift