Indice
Web Mining ed Analisi delle Reti Sociali 2008-2009
Docenti:
- Dino Pedreschi dino [dot] pedreschi [at] di [dot] unipi [dot] it
- Fabrizio Silvestri (ISTI-CNR) fabrizio [dot] silvestri [at] isti [dot] cnr [dot] it
Novità
- Il docente, Prof. Pedreschi, è in congedo per l'anno accademico 2009-2010. Il corso sarà tenuto dal Dr Fabrizio Silvestri (ISTI-CNR).
Obiettivi
Il Web è diventato con il passare degli anni il più grande repository di dati esistente, con stime recenti di più di 500 miliardi di documenti online. Blog, Wiki, Pagine Web “Classiche”, sono solo alcuni esempi di cosa oggi contenga il Web. La dimensione partecipativa del cosiddetto Web 2.0 rende questo fenomeno ancora più complesso, amplificando la possibilità di relazione fra persone attraverso la proiezione online delle relazioni sociali ed economiche - il social networking.
Lo scopo di questo corso è mostrare alcune tra le più importanti metodologie di analisi dei dati provenienti dal Web: dati relativi al contenuto delle risorse Web, alla struttura di link fra le risorse, all'uso e all'accesso alle risorse da parte degli utenti, ed infine alle reti (grafi) di relazioni fra soggetti che usano gli strumenti di social networking del Web 2.0.
Dopo una breve introduzione che ricapitola le tecniche di base per l’analisi ed il mining dei dati Web, saranno affrontati e discussi i seguenti argomenti:
Web mining link a Wikipedia:
- Valutazione dell’importanza “Statica” di pagine Web
- Ranking Dinamico di pagine Web
- Link analysis
- Analisi delle informazioni di uso del Web
- Web Spam Advertisement nei motori di ricerca
Reti sociali link a Wikipedia:
- Tassonomia di reti di relazioni fra persone (sociali, tecnologiche, economiche, di parentela, amicizia, …)
- Misure quantitative: componenti connesse, il fenomeno “small world”, località e distribuzione delle relazioni
- Modelli statistici ed evolutivi delle reti sociali
- Data mining di grafi di relazioni sociali
Orario delle lezioni
- Lunedi 16:00 - 18:00 Aula E (Polo Fibonacci)
- Mercoledi 16:00 - 18:00 Aula A (Polo Fibonacci)
Materiale didattico
- Lucidi dei docenti, resi disponibili attraverso questo wiki (sezione Calendario delle lezioni).
- M. E. J. Newman, The structure and function of complex networks, SIAM Review, Vol. 45, p. 167-256, 2003. (download pdf)
- Capitolo 9 Sezione 2 del libro: Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. 2nd ed. Morgan Kaufmann Publishers, 2006.
- Testo di consultazione: Duncan J. Watts. Six Degrees: The Science of a Connected Age. Norton, New York, 2003.
Calendario delle lezioni
Giorno | Argomento | Lucidi | Docente | |
---|---|---|---|---|
1. | Mer 24.09.2008 | Introduzione al Web Mining | Silvestri | |
2. | Lun 29.09.2008 | Webgraph & its Models | Silvestri | |
3. | Mer 01.10.2008 | Clustering and Classification | Silvestri | |
4. | Lun 06.10.2008 | Introduzione all'analisi delle reti sociali | Pedreschi | |
5. | Mer 08.10.2008 | Annullata per assemblea | Silvestri | |
6. | Lun 13.10.2008 | Log Analysis | Silvestri | |
7. | Mer 15.10.2008 | Sospensione generale della didattica | Pedreschi | |
8. | Lun 20.10.2008 | Silvestri | ||
9. | Mer 22.10.2008 | Silvestri | ||
10. | Lun 27.10.2008 | Proprietà analitiche delle reti | Pedreschi | |
11. | Mer 29.10.2008 | Richiami di statistica | Pedreschi | |
12. | Lun 03.11.2008 | Sospensione per Compitini | Silvestri | |
13. | Mer 05.11.2008 | Sospensione per Compitini | Silvestri | |
14. | Lun 10.11.2008 | Applicazioni Di Log Analysis | Silvestri | |
15. | Mer 12.11.2008 | Modelli di generazione delle reti - random graph - LEZIONE IN PIAZZA | Pedreschi | |
16. | Lun 17.11.2008 | Smart Document Partitioning for Web Search | Silvestri | |
17. | Mar 19.11.2008 | Multimedia Caching | dr. Claudio Lucchese (Silvestri) | |
18. | Lun 24.11.2008 | Silvestri | ||
19. | Mer 26.11.2008 | Silvestri | ||
20. | Lun 01.12.2008 | Modelli di generazione delle reti - small-world model | Pedreschi | |
21. | Mer 03.12.2008 | Modelli di generazione delle reti - power-law model | Pedreschi | |
22. | Mar 09.12.2008 | Graph-mining ed analisi delle reti | Pedreschi | |
23. | Mer 10.12.2008 | Demo su sistemi per l'analisi di reti | Dr. Michele Coscia (Pedreschi) |
Modalità di esame
Sono previste tre possibili modalità di esame:
- Un progetto di carattere implementativo, rivolto alla realizzazione di un algoritmo o sistema di web mining o di analisi di reti
- Un progetto di carattere analitico, rivolto all'applicazione di strumenti di analisi a dataset di dati web o di social networking
- Una rassegna ragionata relativa ad un tema di approfondimento collegato al web mining o all'analisi delle reti
In ogni caso, è prevista la redazione di un testo a documentazione del lavoro svolto, e la presentazione dello stesso in una seduta pubblica, alla presenza degli studenti del corso e dei ricercatori dei gruppi di ricerca KDD LAB ed HPC LAB dell'ISTI-CNR. La valutazione terrà conto sia del documento preparato che della presentazione. Ogni progetto/rassegna potrà essere svolto individualmente o a gruppi di due studenti. Il contenuto di ogni progetto/rassegna dovrà essere concordato preventivamente con il docente.