Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Introduzione a Data Science for Big Data Analytics
-
Data Science Panoramica
Panoramica sui Big Data
Strutture dati
Driver e complessità dei Big Data
L'ecosistema dei Big Data e un nuovo approccio all'analisi
Tecnologie chiave nei Big Data
Processo e problemi di data mining
Estrazione di modelli di associazione
Clustering dei dati
Rilevamento dei valori anomali
Classificazione dei dati
Introduzione al ciclo di vita dell'analisi dei dati
-
Scoperta
Preparazione dei dati
Pianificazione del modello
Costruzione di modelli
Presentazione/Communication dei risultati
Operazionalizzazione
Esercizio: Caso di studio
Da questo momento in poi, la maggior parte del tempo di formazione (80%) sarà dedicato a esempi ed esercizi di R e della relativa tecnologia dei big data.
Introduzione a R
-
Installazione di R e Rstudio
Funzionalità del linguaggio R
Oggetti in R
Dati in R
Manipolazione dei dati
Problemi legati ai big data
Esercizi
Guida introduttiva a Hadoop
-
Installazione Hadoop
Informazioni sulle modalità Hadoop
HDFS (Acciaio inossidabile HDFS)
Architettura di MapReduce
Hadoop Panoramica dei progetti correlati
Scrivere programmi in Hadoop MapReduce
Esercizi
Integrazione di R e Hadoop con RHadoop
-
Componenti di RHadoop
Installazione di RHadoop e connessione con Hadoop
L'architettura di RHadoop
Hadoop streaming con R
Risoluzione dei problemi di analisi dei dati con RHadoop
Esercizi
Pre-elaborazione e preparazione dei dati
-
Fasi di preparazione dei dati
Estrazione di feature
Pulizia dei dati
Integrazione e trasformazione dei dati
Riduzione dei dati: campionamento, selezione di sottoinsiemi di funzionalità,
Riduzione della dimensionalità
Discretizzazione e binning
Esercizi e Casi di studio
Metodi esplorativi di analisi dei dati in R
-
Statistica descrittiva
Analisi esplorativa dei dati
Visualizzazione – fasi preliminari
Visualizzazione di una singola variabile
Esame di più variabili
Metodi statistici per la valutazione
Verifica delle ipotesi
Esercizi e Casi di studio
Data Visualizations
-
Visualizzazioni di base in R
Pacchetti per la visualizzazione dei dati ggplot2, lattice, plotly, lattice
Formattazione dei grafici in R
Grafici avanzati
Esercizi
Regressione (stima dei valori futuri)
-
Regressione lineare
Casi d'uso
Descrizione del modello
Diagnostica
Problemi con la regressione lineare
Metodi di ritiro, regressione di cresta, lazo
Generalizzazioni e non linearità
Spline di regressione
Regressione polinomiale locale
Modelli additivi generalizzati
Regressione con RHadoop
Esercizi e Casi di studio
Classificazione
-
I problemi legati alla classificazione
Aggiornamento bayesiano
Bayes ingenuo
Regressione logistica
K-vicini più prossimi
Algoritmo degli alberi decisionali
Reti neurali
Macchine vettoriali di supporto
Diagnostica dei classificatori
Confronto tra i metodi di classificazione
ScalaAlgoritmi di classificazione BLE
Esercizi e Casi di studio
Valutazione delle prestazioni e della selezione del modello
-
Distorsione, varianza e complessità del modello
Accuratezza vs interpretabilità
Valutazione dei classificatori
Misure delle prestazioni del modello/algoritmo
Metodo di convalida del controllo
Convalida incrociata
Ottimizzazione degli algoritmi di apprendimento automatico con il pacchetto di accento circonflesso
Visualizzazione delle prestazioni del modello con le curve Profit ROC e Lift
Metodi Ensemble
-
Insaccamento
Random Forests
Aumentare
Aumento del gradiente
Esercizi e Casi di studio
Supportare le macchine vettoriali per la classificazione e la regressione
-
Classificatori Maximal Margin
Classificatori vettoriali di supporto
Macchine vettoriali di supporto
SVM per problemi di classificazione
SVM per problemi di regressione
Selezione delle funzionalità per il clustering Algoritmi rappresentativi: k-medie, k-medoidi Algoritmi gerarchici: metodi agglomeranti e divisivi Algoritmi probabilistici di base: EM Algoritmi basati sulla densità: DBSCAN, DENCLUE Convalida del cluster Concetti avanzati di clustering Clustering con RHadoop Esercizi e Casi di studio
-
Individuazione delle connessioni con l'analisi dei collegamenti
Concetti relativi all'analisi dei collegamenti Metriche per l'analisi delle reti L'algoritmo del Pagerank Argomento indotto da collegamenti ipertestuali Search Previsione dei collegamenti Esercizi e Casi di studio
-
Estrazione di modelli di associazione
Modello di data mining di modelli frequentiFrequent Pattern Mining Model ScalaProblemi di abilità nel pattern mining frequente Algoritmi di forza bruta Algoritmo di Apriori L'approccio di crescita del PQ Valutazione delle regole candidate Applicazione delle regole di associazione Validazione e collaudo Diagnostica Regole di associazione con R e Hadoop Esercizi e Casi di studio
-
Costruzione di motori di raccomandazione
Informazioni sui sistemi di raccomandazione Tecniche di data mining utilizzate nei sistemi di raccomandazione Sistemi di raccomandazione con pacchetto recommenderlab Valutazione dei sistemi di raccomandazione Raccomandazioni con RHadoop Esercizio: Creazione di un motore di suggerimenti
-
Analisi del testo
Passaggi per l'analisi del testo Raccolta di testo non elaborato Sacco di parole Frequenza termine – Frequenza inversa del documento Determinazione dei sentimenti Esercizi e Casi di studio
35 ore
Recensioni (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Corso - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.