Indice

Data Mining A.A. 2011/12

Docenti:

Assistenti:

News

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
  2. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  3. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  4. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Reading about the "data analyst" job

Orario e Aule

Lezioni:

Giorno Orario Aula
Mercoledì 14:00 - 16:00 primo semestre: L1, secondo semestre: I1
Venerdì 09:00 - 11:00 primo semestre: B1, secondo semestre: I1

Ricevimento:

Materiale didattico

Libro di Testo

Slides del corso

Testi di esame

Calendario delle lezioni (2011-2012)

Prima parte del corso, primo semestre

Giorno/ora Aula Argomento Materiale didattico Docente
1. 28.09.2011 14:00-16:00 L1 Introduzione: il knowledge discovery process Cap. 1 del libro di testo dm_intro-2011.pdf Pedreschi
2. 05.10.2011 14:00-16:00 L1 Open week: lezione speciale su Big Data Mining Pedreschi
3. 07.10.2011 14:00-16:00 L1 Overview delle tecniche di data mining Pedreschi
4. 12.10.2011 14:00-16:00 L1 Dati: tipi e misure di base Cap. 2 del libro di testo chap2_data_new.pdf Pedreschi
5. 14.10.2011 09:00-11:00 B1 Dati: tipi e misure di base Pedreschi
6. 19.11.2011 14:00-16:00 L1 Cancellata per impegno istituzionale del docente. Pedreschi
7. 21.10.2011 09:00-11:00 B1 Cancellata per impegno istituzionale del docente. Pedreschi
8. 26.10.2011 14:00-16:00 L1 Analisi esplorativa e data understanding. Esercitazione con il sistema Weka Weka Cap. 3 del libro di testo chap3_data_exploration.pdf Pedreschi
9. 28.10.2011 09:00-11:00 B1 Analisi esplorativa e data understanding. Esercitazione con il sistema Weka Pedreschi
10. 09.11.2011 14:00-16:00 Aula Sem. Est Seminario di cultura digitale: Social Data Science Pedreschi
11. 11.11.2011 09:00-11:00 B1 Analisi di clustering. K-means e metodi gerarchici Cap. 8 del libro di testo chap8_basic_cluster_analysis.pdf Pedreschi
12. 16.11.2011 14:00-16:00 L1 Analisi di clustering. Metodi basati su densità Pedreschi
13. 18.11.2011 09:00-11:00 B1 Esercitazione con il sistema Weka - Clustering Pedreschi
14. 23.11.2011 14:00-16:00 L1 Classificazione. Alberi di decisione Cap. 4 del libro di testo chap4_basic_classification.pdf Pedreschi
15. 25.11.2011 09:00-11:00 B1 Classificazione. Alberi di decisione Pedreschi
16. 30.11.2011 14:00-16:00 L1 Classificazione. Metodi a regole e bayesiani Pedreschi
17. 02.12.2011 09:00-11:00 B1 Esercitazione con il sistema Weka Pedreschi
18. 07.12.2011 14:00-16:00 L1 Cancellata per impegno istituzionale del docente. Pedreschi
19. 09.12.2011 09:00-11:00 B1 Cancellata per impegno istituzionale del docente. Pedreschi
20. 14.12.2011 14:00-16:00 L1 Esercitazione con il sistema Weka - Classificazione Pedreschi
21. 16.12.2011 09:00-11:00 B1 Esercitazione con il sistema Weka - Classificazione Pedreschi
22. 19.12.2011 14:00-16:00 TBD Ricevimento collettivo Pedreschi

Seconda parte del corso, secondo semestre

Giorno/ora Aula Argomento Materiale didattico Docente
1. 22.02.2012 14:00-16:00 I1 Introduzione Intro - Slides Giannotti
2. 24.02.2012 09:00-11:00 I1 Pattern frequenti e Regole associative / 1 Regole Associative - Slides [sezioni 6.1-6.3] Giannotti
3. 29.02.2012 14:00-16:00 I1 Pattern frequenti e Regole associative / 2 [sezioni 7.1-7.3] Giannotti
4. 02.03.2012 09:00-11:00 I1 Pattern sequenziali / 1 Pattern Sequenziali - Slides Nanni
5. 07.03.2012 14:00-16:00 I1 Pattern sequenziali / 2 Tools x Patt. Seq. - Slides Nanni
6. 09.03.2012 09:00-11:00 I1 Time series e Motif Time Series - Slides [pp.1-25] Nanni
7. 14.03.2012 14:00-16:00 I1 Pattern frequenti e Regole associative /3 Giannotti
8. 16.03.2012 09:00-11:00 I1 Time series e Motif Time Series - Slides [pp.25-84] Nanni
9. 21.03.2012 14:00-16:00 I1 Pattern frequenti e Regole associative, Valutazione Classificatori Esercitazione Giannotti e Pedreschi
10. 23.03.2012 09:00-11:00 I1 Case study: Data Mining per la Fraud detection dm2-fraudedetection1.ppt.pdf 4.dm2-frauddetection2-diva.ppt.pdf survey-datamining_frauddetection.pdf Giannotti
11. 28.03.2012 14:00-16:00 I1 Case study: Data Mining per il CRM / 1 Intro al CRM e Intro alla Churn Analysis Nanni
30.03.2012 09:00-11:00 I1 Annullata per sospensione della didattica
12. 13.04.2012 09:00-11:00 I1 Case study: Data Mining per il CRM / 2 Churn Analysis e Analisi eventi collettivi Nanni
13. 27.04.2012 09:00-11:00 I1 Fenomeni di diffusione e viralità dm2_informtion_diffusion.pdf Giannotti
14. 02.05.2012 14:00-16:00 I1 Privacy privacy_lezione14-16.ppt.pdf e capprivacy.pdf Giannotti
15. 04.05.2012 09:00-11:00 I1 Mobility Data Mining/1 Mobility Data Mining - Slides [pp.1-56] Nanni
16. 09.05.2012 14:00-16:00 I1 Privacy + Presentazione progetto Fraud detection economist-2012-dm.pdf e newdealondata.pdf Giannotti
17. 11.05.2012 09:00-11:00 I1 Mobility Data Mining/2 Mobility Data Mining - Slides [pp.57-83] Nanni
18. 16.05.2012 14:00-16:00 I1 Presentazione progetto Market basket + introduzione piattaforma di DM Pennacchioli
19. 18.05.2012 09:00-11:00 I1 Case study: Mining della mobilità urbana e della mobilità sistematica Case study MDM - Slides Nanni
20. 23.05.2012 14:00-16:00 I1 Web usage mining e E-commerce Web Usage Mining - Slides Nanni

Modalità di esame

Esame DM parte I

L'esame consiste in una prova scritta ed in una prova orale:

Esame DM parte II

L'esame consta di due parti:

Esercizi 2011-2012

Esercizi DM parte I

  1. Comprensione dei dati: Adult dataset. Assegnato il 02.11.2011. Da completarsi entro il 16.11.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset censuario Adult, scaricabile dall'UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Census+Income, analizzarlo con gli strumenti di data understanding di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data understanding” (3 pag. max figure escluse, in formato pdf) che descriva la semantica e la qualità dei dati, le distribuzioni delle diverse variabili ed il grado di correlazione fra variabili. Per caricare il file in Weka: 1) ridenominarlo usando l'estensione .csv (comma separated values); 2) inserire nel file una riga in prima posizione contenente i nomi delle diverse variabili (o attributi).
    • Risultati primo esercizio pdf
  2. Clustering: Russian Companies dataset. Assegnato il 23.11.2011. Da completarsi entro il 12.12.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset RussianCompanies, scaricabile come file compresso nel formato .arff di Weka all'indirizzo russiancompanies.zip, relativo ad un insieme di 1438 aziende russe. Per ciascuna azienda sono state rilevate le seguenti informazioni, relativamente agli anni 1996 e 1997: numero dei lavoratori occupati (emp), ammontare degli stipendi (wage), valore prodotto (output), il logaritmo delle tre variabili precenti (rispettivamente ln = ln(emp), lw = ln(wage/emp), ly = ln(output)), il settore produttivo (sector: 1 = industria, 2 = costruzioni, 3 = commercio), il tipo di proprietà (owntype: 1 = pubblica, 2 = privata, 3 = mista). Dopo una adeguata comprensione dei dati, si effettui una analisi di clustering in base ad opportune scelte di variabili, e si interpretino i risultati ottenuti, anche in riferimento alle variabili categoriche disponibili (sector ed owntype). Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).
    • Risultati secondo esercizio pdf
  3. Classificazione: German Credit dataset. Assegnato il 16.12.2011. Da consegnare entro due giorni prima dell'appello (solo appelli di gennaio/febbraio 2011). Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset Credit, scaricabile come file compresso nel formato .arff di Weka all'indirizzo credit.zip, relativo a 1000 record di richiesta di prestito ad una banca (descrizione dei dati disponibile online). Sperimentare la costruzione di alberi di decisione per il problema di classificazione binaria relativamente alla decisione della banca rispetto alla concessione del prestito (class = good oppure bad). Discutere la qualità dei modelli estratti e la relativa interpretazione. Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).

Esercizi DM parte II

  1. Pattern Discovery: Transazioni di acquisto. Assegnato il 29.02.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, cc a diego [dot] pennacchioli [at] isti [dot] cnr [dot] it specificando [DM] nel subject della mail. Considerare un dataset di Transazioni di input, analizzarlo con gli strumenti di pattern discovery di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern e le la regole estratte, equipaggiate con le misure di qualità ed interesse adottate, proporre una la loro possibile interpretazione ed il loro possibile utilizzo.
    • Dataset per Weka: occorre seguire un opportuno formato dei dati di input (ARFF con valori nulli). Il file pronto può essere scaricato qui: Transazioni ARFF. Si suggerisce di provare sia il “filtro” Apriori che FPGrowth (molto più efficiente, in alcuni casi).
    • Dataset per altri software: (incluso Apriori da comando di linea, descritto sotto) seguire il formato CSV. Il file può essere scaricato qui: Transazioni CSV
    • Apriori da comando di linea: il software e le istruzioni per utilizzarlo sono scaricabili qui: Apriori + info. Ulteriori informazioni sono reperibili sul sito dell'autore: http://www.borgelt.net/apriori.html.
  1. Sequential Patterns: Sequenze di acquisto. Assegnato il 9.03.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, specificando [DM] nel subject della mail. Considerare il seguente dataset di sequenze di transazazioni di acquisto: Dataset_sequenze, analizzarlo con uno strumenti di pattern sequenziali a propria scelta. Si suggerisce, tra le scelte possibili, SPAM, di cui si riportano qui gli eseguibili per Linux e Windows: spam_bin.zip. Produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern sequenziali estratti (effettuando preprocessing dei dati se ritenuto necessario), proponendo una la loro possibile interpretazione ed il loro possibile utilizzo. Nota: la codifica numerica dei prodotti acquistati è la stessa utilizzata nel primo esercizio, descritta in “marketing.csv”.

Voti delle due esercitazioni: esercitazioni_dm2_2012_voti.pdf

Appelli di esame

Verifiche intermedie/Esercizi

Data Orario Luogo Note Voti
I Esercizio e II Esercizio

Appelli regolari

Appello Data Orario Luogo Note Voti
1 16.01.2012 09:00 Aula B1 Risultati scritto del 16.01.2012
2 13.03.2012 09:00 Aula B1
3 08.06.2012 09:30 Aula I1
4 29.06.2012 09:30 Aula I1
5 20.07.2012 10:00 Aula I1
6 Settembre 2012 Su appuntamento

Edizioni anni precedenti