Struttura del corso

1: HDFS (17%)

  • Descrivere la funzione dei demoni HDFS
  • Descrivi il normale funzionamento di un cluster Apache Hadoop, sia nell'archiviazione che nell'elaborazione dei dati.
  • Identificare le caratteristiche attuali dei sistemi di calcolo che motivano un sistema come Apache Hadoop.
  • Classificare i principali obiettivi della progettazione HDFS
  • In base a uno scenario, identificare il caso d'uso appropriato per la federazione HDFS
  • Identificare i componenti e il daemon di un cluster HDFS HA-Quorum
  • Analizzare il ruolo della sicurezza HDFS (Kerberos)
  • Determinare la migliore scelta di serializzazione dei dati per un determinato scenario
  • Descrivere i percorsi di lettura e scrittura dei file
  • Identificare i comandi per manipolare i file nella shell del file system Hadoop

2: YARN e MapReduce versione 2 (MRv2) (17%)

  • Informazioni su come l'aggiornamento di un cluster da Hadoop 1 a Hadoop 2 influisce sulle impostazioni del cluster
  • Informazioni su come distribuire MapReduce v2 (MRv2 / YARN), inclusi tutti i daemon YARN
  • Comprendere la strategia di progettazione di base per MapReduce v2 (MRv2)
  • Determinare il modo in cui YARN gestisce le allocazioni delle risorse
  • Identificare il flusso di lavoro del processo MapReduce in esecuzione su YARN
  • Determinare quali file è necessario modificare e come eseguire la migrazione di un cluster da MapReduce versione 1 (MRv1) a MapReduce versione 2 (MRv2) in esecuzione su YARN.

3: Hadoop Pianificazione dei cluster (16%)

  • Punti principali da considerare nella scelta dell'hardware e dei sistemi operativi per ospitare un cluster Apache Hadoop.
  • Analizza le scelte nella scelta di un sistema operativo
  • Comprendere l'ottimizzazione del kernel e lo scambio di dischi
  • Dato uno scenario e un modello di carico di lavoro, identificare una configurazione hardware appropriata per lo scenario
  • In uno scenario, determinare i componenti dell'ecosistema che il cluster deve eseguire per soddisfare il contratto di servizio
  • Dimensionamento del cluster: in base a uno scenario e alla frequenza di esecuzione, identificare le specifiche per il carico di lavoro, tra cui CPU, memoria, archiviazione, I/O del disco
  • Dimensionamento e configurazione del disco, inclusi JBOD rispetto a RAID, SAN, virtualizzazione e requisiti di dimensionamento del disco in un cluster
  • Topologie di rete: comprendere l'utilizzo della rete in Hadoop (sia per HDFS che per MapReduce) e proporre o identificare i componenti chiave della progettazione della rete per un determinato scenario

4: Hadoop Installazione e amministrazione del cluster (25%)

  • In base a uno scenario, identificare il modo in cui il cluster gestirà gli errori del disco e del computer
  • Analizzare una configurazione di registrazione e il formato del file di configurazione della registrazione
  • Comprendere le nozioni di base delle metriche Hadoop e del monitoraggio dell'integrità del cluster
  • Identificare la funzione e lo scopo degli strumenti disponibili per il monitoraggio dei cluster
  • Essere in grado di installare tutti i componenti dell'ecosistema in CDH 5, inclusi (ma non limitati a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive e Pig
  • Identificare la funzione e lo scopo degli strumenti disponibili per la gestione del file system Apache Hadoop

5: Risorsa Management (10%)

  • Comprendere gli obiettivi di progettazione generali di ciascuno dei Hadoop scheduler
  • In base a uno scenario, determinare il modo in cui l'utilità di pianificazione FIFO alloca le risorse del cluster
  • In uno scenario, determinare il modo in cui l'Utilità di pianificazione alloca le risorse del cluster in YARN
  • In uno scenario, determinare il modo in cui l'Utilità di pianificazione della capacità alloca le risorse del cluster

6: Monitoraggio e registrazione (15%)

  • Comprendere le funzioni e le caratteristiche delle capacità di raccolta delle metriche di Hadoop
  • Analizzare le interfacce utente Web di NameNode e JobTracker
  • Informazioni su come monitorare i daemon del cluster
  • Identificare e monitorare l'utilizzo della CPU sui nodi master
  • Descrivere come monitorare lo swap e l'allocazione della memoria in tutti i nodi
  • Identificare come visualizzare e gestire i file di log di Hadoop
  • Interpretare un file di registro

Requisiti

  • Competenze amministrative di base Linux
  • Competenze di programmazione di base
 35 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (3)

Corsi in Arrivo

Categorie relative