Struttura del corso

Introduzione a Data Analysis e Big Data

  • Cosa rende Big Data "grande"?
    • Velocità, volume, varietà, veridicità (VVVV)
  • Limiti al trattamento tradizionale dei dati
  • Elaborazione distribuita
  • Analisi statistica
  • Tipi di analisi Machine Learning
  • Data Visualization

Big Data Ruoli e responsabilità

  • Gli amministratori
  • Gli sviluppatori
  • Analisti di dati

Languages Usato per Data Analysis

  • R Language
    • Perché R per Data Analysis?
    • Manipolazione dei dati, calcolo e visualizzazione grafica
  • Python
    • Perché Python per Data Analysis?
    • Manipolazione, elaborazione, pulizia ed elaborazione dei dati

Approcci a Data Analysis

  • Analisi statistica
    • Analisi delle serie temporali
    • Forecasting con modelli di correlazione e regressione
    • Inferenziale Statistics (stima)
    • Descrittivo Statistics in Big Data insiemi (ad es. calcolo della media)
  • Machine Learning
    • Apprendimento supervisionato vs non supervisionato
    • Classificazione e clustering
    • Stima del costo di metodi specifici
    • Filtraggio
  • Elaborazione del linguaggio naturale
    • Elaborazione del testo
    • Comprensione del significato del testo
    • Generazione automatica di testo
    • Analisi del sentiment / analisi degli argomenti
  • Computer Vision
    • Acquisizione, elaborazione, analisi e comprensione delle immagini
    • Ricostruire, interpretare e comprendere scene 3D
    • Utilizzo dei dati delle immagini per prendere decisioni

Big Data Infrastrutture

  • Archiviazione dei dati
    • Banche dati relazionali (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Banche dati non relazionali (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Capire le sfumature
      • Banche dati gerarchiche
      • Banche dati orientate agli oggetti
      • Banche dati orientate ai documenti
      • Banche dati orientate ai grafi
      • Altro
  • Elaborazione distribuita
    • Hadoop
      • HDFS come filesystem distribuito
      • MapReduce per l'elaborazione distribuita
    • Scintilla
      • Framework di cluster computing in-memory all-in-one per l'elaborazione di dati su larga scala
      • Streaming strutturato
      • Scintilla SQL
      • Machine Learning librerie: MLlib
      • Elaborazione di grafici con GraphX
  • Scalabilità
    • Cloud pubblico
      • AWS, Google, Aliyun, ecc.
    • Cloud privato
      • OpenStack, Cloud Foundry, ecc.
    • Scalabilità automatica

Scegliere la soluzione giusta per il problema

Il futuro di Big Data

Riepilogo e passaggi successivi

Requisiti

  • Una comprensione generale della matematica
  • Una comprensione generale della programmazione
  • Una comprensione generale delle banche dati

Pubblico

  • Sviluppatori / programmatori
  • Consulenti IT
 35 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (7)

Corsi in Arrivo

Categorie relative