Indice
Data Mining A.A. 2007/08
Docenti:
- Fosca Giannotti, fosca [dot] giannotti [at] isti [dot] cnr [dot] it
- Mirco Nanni, mirco [dot] nanni [at] isti [dot] cnr [dot] it
- KDD LAB - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it
News
- Gli studenti che devono ancora sostenere l'esame (scritto e/o presentazione progetto) possono farlo su appuntamento. Si prega di contattare il docente.
- Ricevimento collettivo: venerdì 30 maggio, ore 11-13, aula C1
- Pubblicati i risultati della prima verifica intermedia (3 aprile 2008)
- Fissati aula e orario per la prima verifica intermedia: 3 aprile, ore 9-12, aula C1
Obiettivi del corso
La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:
- i concetti di base del processo di estrazione della conoscenza: studio e
preparazione dei dati, forme dei dati, misure e similarità dei dati;
- le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
- alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
- l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza
Orario e Aule
Lezioni:
- Martedì, ore 14-16, aula I1
- Giovedi, ore 11-13, aula B
Ricevimento:
- Giannotti: mercoledì 15-17, ISTI, Area Ricerca CNR, località San Cataldo, Pisa (prenotazione per e-mail)
Libro di Testo
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006
Riferimenti bibliografici
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006
- Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8
- U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996.
- Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002
Calendario delle lezioni
Calendario confermato:
Giorno/ora | Aula | Argomento | Materiale didattico | Docente | |
---|---|---|---|---|---|
1. | Martedì, Febbraio 19, 14-16 | Aula I1 | Presentazione del corso | Giannotti | |
2. | Giovedì, Febbraio 21, 11-13 | Aula B | Cosa è il Data Mining, Motivazioni, Classi di applicazioni, I principali metodi di datamining (Cap. 1) | Slide Cap. 1 | Giannotti |
3. | Martedì, Febbraio 26, 14-16 | Aula I1 | I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati (Cap. 2) | Slide Cap. 2 | Nanni |
4. | Giovedì, Febbraio 28, 11-13 | Aula B | I Dati: misure di similarità (Cap. 2) | Giannotti | |
5. | Martedì, Marzo 4, 14-16 | Aula I1 | I Dati: Esplorazione dei dati (Cap.3) | Slide Cap. 3 | Giannotti |
6. | Giovedì, Marzo 6, 11-13 | Aula B | Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.4, 6.7) | Slide Cap. 6 | Giannotti |
7. | Martedì, Marzo 11, 14-16 | Aula I1 | Regole Associative: tassonomie, regole quantitative (Cap. 7: 7.1, 7.2, 7.3, 7.4) | Slide Cap. 7 | Giannotti |
8. | Giovedì, Marzo 13, 11-13 | Aula B | Regole Associative: Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) | Giannotti | |
9. | Martedì, Marzo 18, 14-16 | Aula I1 | Regole Associative: Esercitazione | Giannotti | |
10. | Giovedì, Marzo 20, 11-13 | Aula B | Clustering - Introduzione e Algoritmo k-means (Cap. 8: 8.1, 8.2) | Slide Cap. 8 | Nanni |
11. | Giovedì, Marzo 27, 11-13 | Aula B | Clustering - Algoritmi gerarchici e density-based (Cap. 8: 8.3, 8.4, 8.5.1) | Nanni | |
Giovedì, Marzo 27, 16-18 | A. Riun. Ovest | Ricevimento collettivo | |||
12. | Giovedì, Aprile 3, 9-12 | Aula C1 | VERIFICA | ||
13. | Martedì, Aprile 8, 14-16 | Aula I1 | Classificazione con alberi di decisione, Algoritmo C4.5 | dm_8_aprile_08.pdf | Giannotti |
14. | Giovedì, Aprile 10, 11-13 | Aula B | Classificazione: esercitazione (Cap. 4: 4.1, 4.2, 4.3) | 2tdm_classificazione.pdf | Giannotti |
15. | Martedì, Aprile 15, 14-16 | Aula I1 | Strumenti di Data Mining: Clementine | Nanni | |
16. | Giovedì, Aprile 17, 11-13 | Aula B | Casi di studio: Redemption - Customer Segmentation, Strumenti di Data Mining: Weka (1) | Redemption Segmentation | Nanni |
17. | Martedì, Aprile 22, 14-16 | Aula I1 | Casi di studio: Fraud detection, Strumenti di Data Mining: Weka (2) | Fraud detection Esempio-flow-Weka | Nanni |
18. | Martedì, Aprile 29, 14-16 | Aula I1 | Presentazione progetti, Modello Crisp-DM, Caso di studio: COOl Patterns | Progetti CRISP-DM Market Basket | Nanni |
19. | Martedì, Maggio 6, 14-16 | Aula I1 | Correzione verifica | dm.projects..2008_1_.pdf | Giannotti |
20. | Giovedì, Maggio 8, 11-13 | Aula B | Privacy e Data Mining: aspetti legali ed algoritmici | ppdm.08.05.08.pdf | Giannotti |
21. | Martedì, Maggio 20, 14-16 | Aula I1 | Reti Sociali e Data Mining | han.ppt | Giannotti |
Verifiche 2007 e anni precedenti
Verifiche anni precedenti (sottoinsieme)
- Verifica 2005 (con soluzioni)
Verifiche 2007 (appelli giugno-luglio)
- Verifica 24 luglio 2007 / Soluzioni (NOTA: il testo qui riportato potrebbe differire in alcuni dettagli da quello usato nella verifica, in seguito alla correzione di alcuni errori di editing)
Verifiche 2008
Progetti
- Descrizione progetti: Progetti
- Domande frequenti e Informazioni generali sui progetti: F.A.Q. Progetti Data Mining
Appelli di esame
Verifiche intermedie
Data | Orario | Luogo | Voti |
---|---|---|---|
3 aprile 2008 | 9.00 - 12.00 | Aula C1 | Risultati (aggiornati) |
4 giugno 2008 | 9.00 - 12.00 | Aula D1 | Risultati (aggiornati) |
Appelli regolari
Tipo di prova | Data | Orario | Luogo | Voti |
---|---|---|---|---|
Scritto | 12 Giugno 2008 | 9.30 - 12.30 | aula C1 | Risultati (Aggiornati) |
Scritto | 2 Luglio 2008 | 9.00 - 12.00 | aula D1 | Risultati |
Presentazione progetto | 10 Luglio 2008 | 9.00 | Aula riunioni ovest, Dip. Informatica | |
Scritto | 18 Luglio 2008 | 15.00 - 18.00 | aula C1 | Risultati (Aggiornati) |
Presentazione progetto | 21 Luglio 2008 | 10.00 | c/o studio prof.ssa Giannotti, CNR | |
Scritto | 11 settembre 2008 | 9.30 - 12.30 | aula D1 | Risultati |
Presentazione progetto | 26 settembre 2008 | 10.00 | Aula seminari est | |
Scritto e/o Presentazione progetto | Gennaio-Febbraio 2009 - Su appuntamento | tbd | tbd |