Struttura del corso
Sezione 1: Introduzione a Hadoop
- Hadoop Storia, Concetti
- ecosistema
- Distribuzioni
- architettura di alto livello
- Miti Hadoop
- Sfide Hadoop
- Hardware / Software
- Laboratorio : Primo sguardo a Hadoop
Sezione 2: HDFS
- Design e architettura
- concetti (scalabilità orizzontale, replica, localizzazione dei dati, riconoscimento dei rack)
- Demoni : Namenode, Namenode secondario, Data node
- Comunicazioni / Battiti cardiaci
- Integrità dei dati
- Percorso di lettura/scrittura
- Disponibilità elevata dei nodi dei nomi, federazione
- labs : Interazione con HDFS
Sezione 3 : Mappa Riduci
- Concetti e architettura
- demoni (MRV1) : jobtracker / tasktracker
- Fasi : Driver, Mappatore, Mescolamento/Ordinamento, Riduttore
- Riduzione mappa versione 1 e versione 2 (YARN)
- Componenti interni di Map Reduce
- Introduzione al programma Map Reduce Java
- labs : Esecuzione di un programma MapReduce di esempio
Sezione 4 : Suini
- Riduzione della mappa di Pig vs Java
- flusso di lavoro suino
- maiale lingua latina
- ETL con maiale
- Trasformazioni e join
- Funzioni definite dall'utente (UDF)
- labs : scrittura di script Pig per analizzare i dati
Sezione 5: Hive
- Architettura e design
- Tipi di dati
- SQL Supporto in Hive
- Creazione di tabelle Hive ed esecuzione di query
- Partizioni
- Unisce
- Elaborazione del testo
- Labs : Vari laboratori sull'elaborazione dei dati con Hive
Sezione 6: HBasi
- Concetti e architettura
- hbase contro RDBMS contro cassandra
- HBase Java API
- Dati delle serie temporali su HBase
- Progettazione dello schema
- labs : Interazione con HBase utilizzando la shell; programmazione in HBase Java API ; Esercizio di progettazione dello schema
Requisiti
- Dimestichezza con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
- Comodo in ambiente Linux (essere in grado di navigare Linux riga di comando, modificare i file utilizzando VI / Nano)
Ambiente di laboratorio
Zero installazione: non è necessario installare il software hadoop sui computer degli studenti! Verrà fornito un cluster hadoop funzionante per gli studenti.
Gli studenti avranno bisogno di quanto segue
- un client SSH (Linux e Mac hanno già client ssh, per Windows si consiglia Putty )
- un browser per accedere al cluster. Si consiglia il browser Firefox
Recensioni (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Corso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Corso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Corso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Corso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay