Indice

Data Mining A.A. 2009/10

Docenti:

News

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
  2. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  3. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  4. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Orario e Aule

Lezioni:

Giorno Orario Aula
Martedì 14:00 - 16:00 B1
Giovedì 11:00 - 13:00 B1

Ricevimento:

Materiale didattico

Libro di Testo

Slides del corso

Esercizi

Calendario delle lezioni

Giorno/ora Aula Argomento Materiale didattico Note
1. Martedì 23 febbraio 2010, ore 14.00 B1 Presentazione del corso + principali metodi di DM (Cap.1) Slides Cap.1 (tutte)
2. Giovedì 25 febbraio 2010, ore 11.00 B1 Tipi di dato (Cap.2 - parte I) + Esplorazione dati (Cap.3) Slides Cap.2 (1-25) + Slides Cap.3 (1-30)
3. Martedì 2 marzo 2010, ore 14.00 B1 Classificazione: principi generali, alberi di decisione, criteri di split (Cap. 4 - Parte I) Slides Cap.4 (1-37)
4. Giovedì 4 marzo 2010, ore 11.00 B1 Classificazione: attributi continui, problematiche varie (Cap. 4 - Parte II) Idem (38-56)
5. Martedì 9 marzo 2010, ore 14.00 B1 Classificazione: problematiche varie, valutazione dei modelli (Cap. 4 - Parte III), Esercizi Idem (57-84) + Es. Classificazione (1)
6. Giovedì 11 marzo 2010, ore 11.00 B1 Classificazione: confronto e validazione performance dei modelli (Cap. 4 - Parte IV), Esercizi Idem (85-99)
7. Martedì 16 marzo 2010, ore 14.00 B1 Preprocessing dei dati (Cap.2 - parte II) Slides Cap.2 (26-46)
8. Giovedì 18 marzo 2010, ore 11.00 B1 Misure di similarità (Cap.2 - parte III) e clustering (Cap. 8 - Parte I) Slides Cap.2 (47-68) + Slides Cap.8 (1-16)
9. Martedì 23 marzo 2010, ore 14.00 B1 Clustering: K-means (Cap. 8 - Parte II) Slides Cap.8 (17-45)
10. Giovedì 25 marzo 2010, ore 11.00 B1 Esercizi: clustering e misure di distanza Es. Clustering (1)
Giovedì 8 aprile 2010, ore 11.00 B1 I verifica in itinere Es. Classificazione (2)
11. Martedì 13 aprile 2010, ore 14.00 B1 Clustering: Algoritmi gerarchici (Cap. 8 - Parte III) Slides Cap.8 (46-73)
12. Giovedì 15 aprile 2010, ore 11.00 B1 ——— Annullata
13. Martedì 20 aprile 2010, ore 14.00 B1 ——— Annullata
14. Giovedì 22 aprile 2010, ore 11.00 B1 ——— Annullata
15. Martedì 27 aprile 2010, ore 14.00 B1 Clustering: Algoritmi density-based ed esercizi (Cap. 8 - Parte IV) Slides Cap.8 (76-104 con qualche salto) + Es. 4, esame di febbraio 2010
16. Giovedì 29 aprile 2010, ore 11.00 B1 Association Analysis: introduzione e algoritmi di base (Cap. 6 - Parte I) Slides Cap. 6 (1-25)
17. Martedì 4 maggio 2010, ore 14.00 B1 Association Analysis: altri algoritmi (Cap. 6 - Parte II) Slides Cap. 6 (26-44)
18. Giovedì 6 maggio 2010, ore 11.00 B1 Association Analysis: estrazione e valutazione di regole (Cap. 6 - Parte III) Slides Cap. 6 (45-67)
19. Martedì 11 maggio 2010, ore 14.00 B1 Casi di studio Slides Casi di studio
20. Giovedì 13 maggio 2010, ore 11.00 B1 Pattern sequenziali: definizione, GSP, time constraints (Cap. 7 - Parte I), Esercizi Slide Cap. 7 (26-40) + Es. 3, esame 02/2010
21. Martedì 18 maggio 2010, ore 14.00 B1 Pattern sequenziali, Regole Associative multi-livello (Cap.7 - Parte II), Esercizi Slide Cap. 7 (41-56,21-25) + Es. 1, esame 02/2010 + Es. 1, esame 01/2010
22. Giovedì 20 maggio 2010, ore 11.00 B1 Esercizi Es. Clustering, RdA, Seq. Pattern
Martedì 25 maggio 2010, ore 14.00 B1 II verifica in itinere

Modalità di esame

L'esame consiste in una prova scritta ed in una prova orale:

Appelli di esame

Verifiche intermedie

Data Orario Luogo Note Voti
I verifica 8 aprile 2010 11.00-13.00 Aula B1 Testo e Soluzione I Verifica, 8 aprile 2010: Risultati
II verifica 25 maggio 2010 14.00-16.00 Aula B1 Testo e Soluzione II Verifica, 25 maggio 2010: Risultati

Appelli regolari

Appello Data Orario Luogo Note Voti
AA.08/09: 1 scritto 18 gennaio 2010 10.00-12.00 Aula N1 Testo Appello 18 gennaio 2010: Risultati
orale / progetti idem 15.00- c/o Ufficio Pedreschi
AA.08/09: 2 scritto 18 febbraio 2010 10.00-12.00 Aula N1 Testo
orale / progetti idem 15.00- c/o Ufficio Pedreschi Appello 18 febbraio 2010: Risultati
1 scritto 1 giugno 2010 14.00-16.00 Aula B1 Testo e Soluzione Appello 1 giugno 2010: Risultati
orale su appuntamento
2 scritto 22 giugno 2010 14.00-16.00 Aula B1 Testo e Soluzione Appello 22 giugno 2010: Risultati
orale su appuntamento
3 scritto 13 luglio 2010 14.00-16.00 Aula C1 Testo e Soluzione Appello 13 luglio 2010: Risultati
orale su appuntamento
4 scritto 9 settembre 2010 16.00-18.00 Aula B1 Testo e Soluzione Appello 9 settembre 2010: Risultati
orale su appuntamento

Edizioni anni precedenti