Indice
Data Mining A.A. 2011/12
Docenti:
- Dino Pedreschi, Fosca Giannotti, Mirco Nanni
- KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa
Assistenti:
- Anna Monreale, Luca Pappalardo, Diego Pennacchioli
- KDD Laboratory, Università di Pisa ed ISTI - CNR, Pisa
News
- [17.07.2012] Nota: l'orario dell'appello del 20/07 slitta di 30 minuti.
- [22.05.2012] Le date degli appelli estivi sono online.
- [21.05.2012] Le valutazioni delle esercitazioni per DM2 sono le seguenti: esercitazioni_dm2_2012_voti.pdf
- [29.03.2012] La lezione del 30 marzo 2012 è annullata per sospensione della didattica.
- [15.02.2012] I risultati dello scritto del 13.02.2012 sono online. Le date degli orali saranno su appuntamento dietro richiesta da parte dello studente.
- [19.01.2012] I risultati dello scritto del 16.01.2012 sono online
- [11.01.2012] Le valutazioni del secondo esercizio sono online.
- [20.12.2011] Il terzo esercizio (Analisi di classificazione) è in linea. La scadenza per la consegna è due giorni prima dell'appello (valevole solo per gli appelli di gennaio e febbraio).
- [11.12.2011] Appelli sessione invernale: Lunedì 16 gennaio 2012 e Lunedì 13 febbraio 2012 - entrambi gli appelli: ore 9:00 in Aula B1
- [11.12.2011] Il ricevimento di Lunedi 12 Dicembre avrà luogo dalle 14 alle 16 e dalle 17:30 alle 19
- [11.12.2011] Le valutazioni del primo esercizio sono online
- [05.12.2011] Le lezioni di Mercoledì 07.12 e Venerdi 09.12 sono cancellate per impegni istituzionali del docente.
- [23/11/2011] Il secondo esercizio (Analisi di clustering) è in linea. La scadenza per la consegna è Lunedi 12 Dicembre.
- [04/11/2011] Mercoledì 9 novembre - Aula Seminari Est - Dipartimento di Informatica - ore 14:15 - Lezione speciale del corso di Data Mining nell'ambito del Seminario di Cultura Digitale: Social Data Science
- [02/11/2011] Il primo esercizio (Comprensione dei dati) è in linea. La scadenza per la consegna è Mercoledì 16 Novembre.
- [02/11/2011] Le lezioni di Mercoledì 02.11 e Venerdi 04.11 sono cancellate per la sospensione generale della didattica per lo svolgimento dei compitini.
- [17/10/2011] Le lezioni di Mercoledì 19.10 e Venerdi 21.10 sono cancellate per impegni istituzionali del docente.
- [29/09/2011] Mercoledì 5 Ottobre, ore 14:00 - 16:00 Aula P1 - Lezione speciale “Open Week”: BIG DATA: la nuova scienza dei dati per il mondo che cambia
- [20/09/2011] La prima lezione dell'edizione 2011-2012 del corso di Data Mining avrà luogo Mercoledì 28 Settembre, ore 14:00 - 16:00 Aula L1
Obiettivi del corso
La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:
- i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
- le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
- alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
- l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza
Reading about the "data analyst" job
Orario e Aule
Lezioni:
Giorno | Orario | Aula |
---|---|---|
Mercoledì | 14:00 - 16:00 | primo semestre: L1, secondo semestre: I1 |
Venerdì | 09:00 - 11:00 | primo semestre: B1, secondo semestre: I1 |
Ricevimento:
- Prof. Pedreschi: Lunedì ore 14:30 - 17:30 c/o Dipartimento di Informatica
- oppure su appuntamento con i docenti c/o ISTI-CNR
Materiale didattico
Libro di Testo
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining. Addison Wesley, ISBN 0-321-32136-7, 2006
Slides del corso
- Le slide utilizzate durante il corso verranno inserite nel calendario al termine di ogni lezione. In buona parte esse sono tratte da quelle fornite dagli autori del libro di testo: Slides per "Introduction to Data Mining".
Testi di esame
- Oltre ai testi e (dove disponibili) soluzioni degli appelli d'esame degli anni recenti, sono consultabili i seguenti esercizi proposti in anni precedenti.
Calendario delle lezioni (2011-2012)
Prima parte del corso, primo semestre
Giorno/ora | Aula | Argomento | Materiale didattico | Docente | |
---|---|---|---|---|---|
1. | 28.09.2011 14:00-16:00 | L1 | Introduzione: il knowledge discovery process | Cap. 1 del libro di testo dm_intro-2011.pdf | Pedreschi |
2. | 05.10.2011 14:00-16:00 | L1 | Open week: lezione speciale su Big Data Mining | Pedreschi | |
3. | 07.10.2011 14:00-16:00 | L1 | Overview delle tecniche di data mining | Pedreschi | |
4. | 12.10.2011 14:00-16:00 | L1 | Dati: tipi e misure di base | Cap. 2 del libro di testo chap2_data_new.pdf | Pedreschi |
5. | 14.10.2011 09:00-11:00 | B1 | Dati: tipi e misure di base | Pedreschi | |
6. | 19.11.2011 14:00-16:00 | L1 | Cancellata per impegno istituzionale del docente. | Pedreschi | |
7. | 21.10.2011 09:00-11:00 | B1 | Cancellata per impegno istituzionale del docente. | Pedreschi | |
8. | 26.10.2011 14:00-16:00 | L1 | Analisi esplorativa e data understanding. Esercitazione con il sistema Weka | Weka Cap. 3 del libro di testo chap3_data_exploration.pdf | Pedreschi |
9. | 28.10.2011 09:00-11:00 | B1 | Analisi esplorativa e data understanding. Esercitazione con il sistema Weka | Pedreschi | |
10. | 09.11.2011 14:00-16:00 | Aula Sem. Est | Seminario di cultura digitale: Social Data Science | Pedreschi | |
11. | 11.11.2011 09:00-11:00 | B1 | Analisi di clustering. K-means e metodi gerarchici | Cap. 8 del libro di testo chap8_basic_cluster_analysis.pdf | Pedreschi |
12. | 16.11.2011 14:00-16:00 | L1 | Analisi di clustering. Metodi basati su densità | Pedreschi | |
13. | 18.11.2011 09:00-11:00 | B1 | Esercitazione con il sistema Weka - Clustering | Pedreschi | |
14. | 23.11.2011 14:00-16:00 | L1 | Classificazione. Alberi di decisione | Cap. 4 del libro di testo chap4_basic_classification.pdf | Pedreschi |
15. | 25.11.2011 09:00-11:00 | B1 | Classificazione. Alberi di decisione | Pedreschi | |
16. | 30.11.2011 14:00-16:00 | L1 | Classificazione. Metodi a regole e bayesiani | Pedreschi | |
17. | 02.12.2011 09:00-11:00 | B1 | Esercitazione con il sistema Weka | Pedreschi | |
18. | 07.12.2011 14:00-16:00 | L1 | Cancellata per impegno istituzionale del docente. | Pedreschi | |
19. | 09.12.2011 09:00-11:00 | B1 | Cancellata per impegno istituzionale del docente. | Pedreschi | |
20. | 14.12.2011 14:00-16:00 | L1 | Esercitazione con il sistema Weka - Classificazione | Pedreschi | |
21. | 16.12.2011 09:00-11:00 | B1 | Esercitazione con il sistema Weka - Classificazione | Pedreschi | |
22. | 19.12.2011 14:00-16:00 | TBD | Ricevimento collettivo | Pedreschi |
Seconda parte del corso, secondo semestre
Giorno/ora | Aula | Argomento | Materiale didattico | Docente | |
---|---|---|---|---|---|
1. | 22.02.2012 14:00-16:00 | I1 | Introduzione | Intro - Slides | Giannotti |
2. | 24.02.2012 09:00-11:00 | I1 | Pattern frequenti e Regole associative / 1 | Regole Associative - Slides [sezioni 6.1-6.3] | Giannotti |
3. | 29.02.2012 14:00-16:00 | I1 | Pattern frequenti e Regole associative / 2 | [sezioni 7.1-7.3] | Giannotti |
4. | 02.03.2012 09:00-11:00 | I1 | Pattern sequenziali / 1 | Pattern Sequenziali - Slides | Nanni |
5. | 07.03.2012 14:00-16:00 | I1 | Pattern sequenziali / 2 | Tools x Patt. Seq. - Slides | Nanni |
6. | 09.03.2012 09:00-11:00 | I1 | Time series e Motif | Time Series - Slides [pp.1-25] | Nanni |
7. | 14.03.2012 14:00-16:00 | I1 | Pattern frequenti e Regole associative /3 | Giannotti | |
8. | 16.03.2012 09:00-11:00 | I1 | Time series e Motif | Time Series - Slides [pp.25-84] | Nanni |
9. | 21.03.2012 14:00-16:00 | I1 | Pattern frequenti e Regole associative, Valutazione Classificatori | Esercitazione | Giannotti e Pedreschi |
10. | 23.03.2012 09:00-11:00 | I1 | Case study: Data Mining per la Fraud detection | dm2-fraudedetection1.ppt.pdf 4.dm2-frauddetection2-diva.ppt.pdf survey-datamining_frauddetection.pdf | Giannotti |
11. | 28.03.2012 14:00-16:00 | I1 | Case study: Data Mining per il CRM / 1 | Intro al CRM e Intro alla Churn Analysis | Nanni |
30.03.2012 09:00-11:00 | I1 | Annullata per sospensione della didattica | |||
12. | 13.04.2012 09:00-11:00 | I1 | Case study: Data Mining per il CRM / 2 | Churn Analysis e Analisi eventi collettivi | Nanni |
13. | 27.04.2012 09:00-11:00 | I1 | Fenomeni di diffusione e viralità | dm2_informtion_diffusion.pdf | Giannotti |
14. | 02.05.2012 14:00-16:00 | I1 | Privacy | privacy_lezione14-16.ppt.pdf e capprivacy.pdf | Giannotti |
15. | 04.05.2012 09:00-11:00 | I1 | Mobility Data Mining/1 | Mobility Data Mining - Slides [pp.1-56] | Nanni |
16. | 09.05.2012 14:00-16:00 | I1 | Privacy + Presentazione progetto Fraud detection | economist-2012-dm.pdf e newdealondata.pdf | Giannotti |
17. | 11.05.2012 09:00-11:00 | I1 | Mobility Data Mining/2 | Mobility Data Mining - Slides [pp.57-83] | Nanni |
18. | 16.05.2012 14:00-16:00 | I1 | Presentazione progetto Market basket + introduzione piattaforma di DM | Pennacchioli | |
19. | 18.05.2012 09:00-11:00 | I1 | Case study: Mining della mobilità urbana e della mobilità sistematica | Case study MDM - Slides | Nanni |
20. | 23.05.2012 14:00-16:00 | I1 | Web usage mining e E-commerce | Web Usage Mining - Slides | Nanni |
Modalità di esame
Esame DM parte I
L'esame consiste in una prova scritta ed in una prova orale:
- La prova scritta è composta essenzialmente di esercizi sui metodi e algoritmi visti a lezione. I testi degli appelli d'esame passati vengono regolarmente messi online e possono essere presi come riferimento generale. La prova scritta può essere sostituita dalle due verifiche intermedie: nel caso vengano entrambe superate con successo la media dei loro voti costituirà il voto con cui presentarsi all'orale – a meno che non si sostenga nuovamente l'esame scritto, nel qual caso il voto più recente cancella quelli precedenti (in meglio o in peggio). Non è possibile recuperare una sola verifica intermedia durante gli appelli d'esame regolari. Per l'a.a. 2011-2012, le verifiche intermedie sono sostituite da una serie di esercizi che verranno proposti durante il corso.
- La prova orale verte sugli aspetti più teorici del corso (definizioni, metodi, algoritmi, ecc.) trattati a lezione, oppure dalla discussione di bibliografia concordata con i docenti.
Esame DM parte II
L'esame consta di due parti:
- Un progetto, da scegliere tra i due presentati a lezione (Fraud detection e Market basket analysis). Gli interessati sono pregati di (1) scrivere a mirco [dot] nanni [at] isti [dot] cnr [dot] it e diego [dot] pennacchioli [at] isti [dot] cnr [dot] it per ricevere i dati relativi al progetto scelto; (2) svolgere il progetto seguendo la traccia acclusa; e (3) inviare ai docenti una relazione che riassuma procedimento e risultati del progetto stesso, almeno 2 giorni prima di sostenere l'esame orale.
- Un orale, che include tre parti: (1) discussione del progetto svolto; (2) discussione di un argomento culturale o approfondimento a propria scelta (l'elenco dei temi e il corrispondente materiale di studio si trova qui: Argomenti); (3) teoria ed esercizi su regole associative e pattern sequenziali. Il punto (3) sarà richiesto solo a chi non ha consegnato le due esercitazioni proposte durante il corso.
Esercizi 2011-2012
Esercizi DM parte I
- Comprensione dei dati: Adult dataset. Assegnato il 02.11.2011. Da completarsi entro il 16.11.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset censuario Adult, scaricabile dall'UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Census+Income, analizzarlo con gli strumenti di data understanding di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data understanding” (3 pag. max figure escluse, in formato pdf) che descriva la semantica e la qualità dei dati, le distribuzioni delle diverse variabili ed il grado di correlazione fra variabili. Per caricare il file in Weka: 1) ridenominarlo usando l'estensione .csv (comma separated values); 2) inserire nel file una riga in prima posizione contenente i nomi delle diverse variabili (o attributi).
- Risultati primo esercizio pdf
- Clustering: Russian Companies dataset. Assegnato il 23.11.2011. Da completarsi entro il 12.12.2011. Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset RussianCompanies, scaricabile come file compresso nel formato .arff di Weka all'indirizzo russiancompanies.zip, relativo ad un insieme di 1438 aziende russe. Per ciascuna azienda sono state rilevate le seguenti informazioni, relativamente agli anni 1996 e 1997: numero dei lavoratori occupati (emp), ammontare degli stipendi (wage), valore prodotto (output), il logaritmo delle tre variabili precenti (rispettivamente ln = ln(emp), lw = ln(wage/emp), ly = ln(output)), il settore produttivo (sector: 1 = industria, 2 = costruzioni, 3 = commercio), il tipo di proprietà (owntype: 1 = pubblica, 2 = privata, 3 = mista). Dopo una adeguata comprensione dei dati, si effettui una analisi di clustering in base ad opportune scelte di variabili, e si interpretino i risultati ottenuti, anche in riferimento alle variabili categoriche disponibili (sector ed owntype). Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).
- Risultati secondo esercizio pdf
- Classificazione: German Credit dataset. Assegnato il 16.12.2011. Da consegnare entro due giorni prima dell'appello (solo appelli di gennaio/febbraio 2011). Consegnare per email al docente, cc a annamonreale [at] gmail [dot] com specificando [DM] nel subject della mail. Considerare il dataset Credit, scaricabile come file compresso nel formato .arff di Weka all'indirizzo credit.zip, relativo a 1000 record di richiesta di prestito ad una banca (descrizione dei dati disponibile online). Sperimentare la costruzione di alberi di decisione per il problema di classificazione binaria relativamente alla decisione della banca rispetto alla concessione del prestito (class = good oppure bad). Discutere la qualità dei modelli estratti e la relativa interpretazione. Si descrivano sinteticamente i risultati ottenuti in una breve relazione (3 pag. max figure escluse, in formato pdf).
Esercizi DM parte II
- Pattern Discovery: Transazioni di acquisto. Assegnato il 29.02.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, cc a diego [dot] pennacchioli [at] isti [dot] cnr [dot] it specificando [DM] nel subject della mail. Considerare un dataset di Transazioni di input, analizzarlo con gli strumenti di pattern discovery di Weka o di altri strumenti a scelta, e produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern e le la regole estratte, equipaggiate con le misure di qualità ed interesse adottate, proporre una la loro possibile interpretazione ed il loro possibile utilizzo.
- Dataset per Weka: occorre seguire un opportuno formato dei dati di input (ARFF con valori nulli). Il file pronto può essere scaricato qui: Transazioni ARFF. Si suggerisce di provare sia il “filtro” Apriori che FPGrowth (molto più efficiente, in alcuni casi).
- Dataset per altri software: (incluso Apriori da comando di linea, descritto sotto) seguire il formato CSV. Il file può essere scaricato qui: Transazioni CSV
- Apriori da comando di linea: il software e le istruzioni per utilizzarlo sono scaricabili qui: Apriori + info. Ulteriori informazioni sono reperibili sul sito dell'autore: http://www.borgelt.net/apriori.html.
- Sequential Patterns: Sequenze di acquisto. Assegnato il 9.03.2012. Da completarsi entro il 20.04.2012. Consegnare per email al docente, specificando [DM] nel subject della mail. Considerare il seguente dataset di sequenze di transazazioni di acquisto: Dataset_sequenze, analizzarlo con uno strumenti di pattern sequenziali a propria scelta. Si suggerisce, tra le scelte possibili, SPAM, di cui si riportano qui gli eseguibili per Linux e Windows: spam_bin.zip. Produrre un breve rapporto di “data modeling” (3 pag. max figure escluse, in formato pdf) che descriva i pattern sequenziali estratti (effettuando preprocessing dei dati se ritenuto necessario), proponendo una la loro possibile interpretazione ed il loro possibile utilizzo. Nota: la codifica numerica dei prodotti acquistati è la stessa utilizzata nel primo esercizio, descritta in “marketing.csv”.
Voti delle due esercitazioni: esercitazioni_dm2_2012_voti.pdf
Appelli di esame
Verifiche intermedie/Esercizi
Data | Orario | Luogo | Note | Voti | |
---|---|---|---|---|---|
I Esercizio e II Esercizio |
Appelli regolari
Appello | Data | Orario | Luogo | Note | Voti |
---|---|---|---|---|---|
1 | 16.01.2012 | 09:00 | Aula B1 | Risultati scritto del 16.01.2012 | |
2 | 13.03.2012 | 09:00 | Aula B1 | ||
3 | 08.06.2012 | 09:30 | Aula I1 | ||
4 | 29.06.2012 | 09:30 | Aula I1 | ||
5 | 20.07.2012 | 10:00 | Aula I1 | ||
6 | Settembre 2012 | Su appuntamento |