Programma e Struttura

Il programma ha una durata complessiva di 6 mesi per un totale di 5 moduli organizzati in 10 week-end alterni (venerdì pomeriggio e sabato tutta la giornata).

MODULO 1 – Introduzione a Big Data: Use Cases e Business Value (acquistabile singolarmente)

  • Come e perché sono nate le soluzioni Big Data Analytics
  • Cosa costituisce i Big Data
  • Concetti base di Data Governance
  • Introduzione al Data Modelling
  • Le tecnologie abilitanti:
  • Caratteristiche dei DB relazionali e NoSQL
  • Panoramica dell’ecosistema Hadoop
  • Panoramica degli strumenti analitici disponibili
  • Le architetture big data: DWH, Data Lake, Ibridi
  • Agile: Gestire Progetti Big Data
    • Introduzione alle metodologie Agili
    • Come usare metodologie Agili nel contesto big data
    • Best practice progettuali

MODULO 2 – Introduzione al linguaggio R e Python (acquistabile singolarmente)

  • Installazione di R e di RStudio, uso di IBM Cloud
  • Installazione di Python
  • Elementi base del linguaggio R e Python (variabili, matrici, Array, Dataframe, Liste, ecc.)
  • Costruzione di funzioni
  • Importazione e manipolazione di dati
  • Data cleaning ed analisi esplorativa

MODULO 3 – Introduzione al Machine Learning (acquistabile singolarmente)

  • Introduzione ai modelli supervisionati. Regressione lineare multipla e regressione logistica
  • Support vector machine, Classification And Regression Trees, k-nn, naïve bayes
  • Modelli non supervisionati Analisi in componenti principali, Cluster analysis (gerarchica, k-means, db-scan)
  • Analisi delle corrispondenze
  • Introduzione alle Time Series
  • Esperienze nel linguaggio R e con il software SPSS

MODULO 4 – Big Data in Practice (acquistabile singolarmente)

  • Marketing and Sales Analytics
    • Analisi di dataset reali, contenenti comportamenti di acquisto e di usage di un set di clienti
    • Creazione di indicatori comportamentali per il clustering e la segmentazione della clientela
    • Introduzione e sperimentazione delle varie fasi di un processo di sviluppo di modelli analitici
    • Creazione e valutazione di modelli RFM, di clustering e di propensione all’acquisto
  • Text Mining e Social Analytics
    • Cleaning del testo e preparazione per la fase di analisi
    • Analisi esplorativa dei testi e approccio tramite tm e tramite tidyverse
    • Estrazione dati social da Twitter o da Facebook
    • Problemi di codifica e di lingue diverse dall’inglese
    • Analisi di sentiment tramite metodi supervisionati e non supervisionati, e classificazione automatica testi tramite naive bayes

MODULO 5 – Data Management Systems Hadoop e NoSQL (acquistabile singolarmente)

  • L’Hadoop distributed file system (HDFS)
  • Map Reduce
  • Yarn
  • Sqoop, Storm e Flume
  • Hive, Pig e Spark
  • Perché i database NoSQL
  • Key value
  • Column-oriented
  • Graph
  • Document
  • Come scegliere il DB NoSQL adatto al contesto