Struttura del corso

spark.mllib: tipi di dati, algoritmi e utilità

  • Tipi di dati
  • Statistiche di base
    • Statistiche riassuntive
    • Correlazioni
    • campionamento stratificato
    • Test di ipotesi
    • Test di significatività in streaming
    • Generazione casuale di dati
  • Classificazione e regressione
    • modelli lineari (SVM, regressione logistica, regressione lineare)
    • l'ingenuo Bayes
    • Alberi decisionali
    • insiemi di alberi (Random Forests e alberi potenziati dal gradiente)
    • Regressione isotonica
  • Filtro collaborativo
    • Minimi quadrati alternati (ALS)
  • Clustering
    • k-significa
    • Miscela gaussiana
    • clustering dell'iterazione di potenza (PIC)
    • allocazione di Dirichlet latente (LDA)
    • Bisezione K-Means
    • Streaming K-Means
  • Riduzione della dimensionalità
    • decomposizione ai valori singolari (SVD)
    • Analisi delle componenti principali (PCA)
  • Estrazione e trasformazione delle funzioni
  • Pattern mining frequente
    • Crescita del PQ
    • Regole dell'associazione
    • PrefixSpan
  • Metriche di valutazione
  • Esportazione del modello PMML
  • Ottimizzazione (sviluppatore)
    • discesa stocastica del gradiente
    • BFGS A MEMORIA LIMITATA (L-BFGS)

spark.ml: API di alto livello per le pipeline di ML

  • Panoramica: stimatori, trasformatori e tubazioni
  • Estrazione, trasformazione e selezione delle funzioni
  • Classificazione e regressione
  • Clustering
  • Argomenti avanzati

Requisiti

Conoscenza di uno dei seguenti argomenti:

  • Giava
  • Scala
  • pitone
  • SparkR.
 35 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (1)

Corsi in Arrivo

Categorie relative