Struttura del corso

Sezione 1: Introduzione a Hadoop

  • Hadoop Storia, Concetti
  • ecosistema
  • Distribuzioni
  • architettura di alto livello
  • Miti Hadoop
  • Sfide Hadoop
  • Hardware / Software
  • Laboratorio : Primo sguardo a Hadoop

Sezione 2: HDFS

  • Design e architettura
  • concetti (scalabilità orizzontale, replica, localizzazione dei dati, riconoscimento dei rack)
  • Demoni : Namenode, Namenode secondario, Data node
  • Comunicazioni / Battiti cardiaci
  • Integrità dei dati
  • Percorso di lettura/scrittura
  • Disponibilità elevata dei nodi dei nomi, federazione
  • labs : Interazione con HDFS

Sezione 3 : Mappa Riduci

  • Concetti e architettura
  • demoni (MRV1) : jobtracker / tasktracker
  • Fasi : Driver, Mappatore, Mescolamento/Ordinamento, Riduttore
  • Riduzione mappa versione 1 e versione 2 (YARN)
  • Componenti interni di Map Reduce
  • Introduzione al programma Map Reduce Java
  • labs : Esecuzione di un programma MapReduce di esempio

Sezione 4 : Suini

  • Riduzione della mappa di Pig vs Java
  • flusso di lavoro suino
  • maiale lingua latina
  • ETL con maiale
  • Trasformazioni e join
  • Funzioni definite dall'utente (UDF)
  • labs : scrittura di script Pig per analizzare i dati

Sezione 5: Hive

  • Architettura e design
  • Tipi di dati
  • SQL Supporto in Hive
  • Creazione di tabelle Hive ed esecuzione di query
  • Partizioni
  • Unisce
  • Elaborazione del testo
  • Labs : Vari laboratori sull'elaborazione dei dati con Hive

Sezione 6: HBasi

  • Concetti e architettura
  • hbase contro RDBMS contro cassandra
  • HBase Java API
  • Dati delle serie temporali su HBase
  • Progettazione dello schema
  • labs : Interazione con HBase utilizzando la shell;   programmazione in HBase Java API ; Esercizio di progettazione dello schema

Requisiti

  • Dimestichezza con il linguaggio di programmazione Java (la maggior parte degli esercizi di programmazione sono in Java)
  • Comodo in ambiente Linux (essere in grado di navigare Linux riga di comando, modificare i file utilizzando VI / Nano)

Ambiente di laboratorio

Zero installazione: non è necessario installare il software hadoop sui computer degli studenti! Verrà fornito un cluster hadoop funzionante per gli studenti.

Gli studenti avranno bisogno di quanto segue

 28 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (5)

Corsi in Arrivo

Categorie relative