Docenti:
Il Web è diventato con il passare degli anni il più grande repository di dati esistente, con stime recenti di più di 500 miliardi di documenti online. Blog, Wiki, Pagine Web “Classiche”, sono solo alcuni esempi di cosa oggi contenga il Web. La dimensione partecipativa del cosiddetto Web 2.0 rende questo fenomeno ancora più complesso, amplificando la possibilità di relazione fra persone attraverso la proiezione online delle relazioni sociali ed economiche - il social networking.
Lo scopo di questo corso è mostrare alcune tra le più importanti metodologie di analisi dei dati provenienti dal Web: dati relativi al contenuto delle risorse Web, alla struttura di link fra le risorse, all'uso e all'accesso alle risorse da parte degli utenti, ed infine alle reti (grafi) di relazioni fra soggetti che usano gli strumenti di social networking del Web 2.0.
Dopo una breve introduzione che ricapitola le tecniche di base per l’analisi ed il mining dei dati Web, saranno affrontati e discussi i seguenti argomenti:
Web mining link a Wikipedia:
Reti sociali link a Wikipedia:
Giorno | Argomento | Lucidi | Docente | |
---|---|---|---|---|
1. | Gio 21.10.2010 | Introduzione al Web Mining e all'Analisi di Reti Sociali | wma.sna.pedreschi.1.2010.pdf | Pedreschi |
2. | Lun 25.10.2010 | Nozioni di base su grafi, misure su reti | Pedreschi | |
3. | Gio 28.10.2010 | Misure di base su reti reali | wma.sna.pedreschi.2.2010.pdf | Berlingerio |
4. | Gio 04.11.2010 | Un tool di analisi per reti | lezione_cytoscape.pdf | Berlingerio |
5. | Lun 08.11.2010 | Analisi di una rete reale e domande su reti | Pedreschi - Berlingerio | |
6. | Gio 11.11.2010 | Lezione speciale: Big Data e società della conoscenza | Pedreschi | |
7. | Mar 16.11.2010 | Reti sociali: weak and strong ties | wmr.2010.2011.pedreschi.weak.ties.pdf | Pedreschi |
8. | Gio 18.11.2010 | Misure di centralità. Richiami di statistica | centrality.pdf | Pedreschi |
9. | Mar 23.11.2010 | cancellata per assemblea | ||
10. | Gio 25.11.2010 | cancellata per occupazione | ||
10. | Mar 30.11.2010 | cancellata per occupazione | ||
11. | Gio 02.12.2010 | Modelli generativi delle reti: random, small world, preferential attachment | Pedreschi | |
12. | Mar 07.12.2010 | Community Discovery, Diffusione di informazione su reti | community.pdf , diffusion.pdf | Berlingerio |
13. | Gio 09.12.2010 | |||
14. | Mar 14.12.2010 | Richiami di Algebra Lineare | richiamidialgebra.pdf | Silvestri |
15. | Gio 16.12.2010 | Link Analysis: HITS e PageRank | Un interessante survey per approfondire Link Analysis | Silvestri |
16. | Mar 21.12.2010 | Link Analysis avanzata: Topic-Sensitive PR e Adversarial IR | Silvestri | |
17. | Mar 11.01.2011 | Advertisement nei Motori di Ricerca | Silvestri | |
18. | Gio 13.01.2011 | Esercitazione | Venturini | |
19. | Mar 18.01.2011 | Query Log Analysis | Slides lezione9.pdf Survey su query log mining paper.pdf | Silvestri |
20. | Gio 20.01.2011 | Query Log Analysis Avanzata / Recommender Systems | Slide sugli argomenti avanzati presentazione-tolomei.pdf | Tolomei/Silvestri |
21. | Mar 25.01.2011 | Discussione Progetti e Modalita' di Esame | Pedreschi/Berlingerio/Silvestri |
Come accennato a lezione, l'esercizio da svolgere in gruppo è alla pagina Esercizio 1. L'esercizio 1 racchiude entrambi gli esercizi proposti a lezione, in un'unica soluzione che va dalla creazione di una rete alla sua analisi.
Per quanto riguarda la parte relativa al modulo di Web Mining. Si richiede di analizzare la rete costruita all'Esercizio 1 usando PageRank e HITS. Lo studente dovrà soffermarsi in particolare sui risultati dell'analisi descrivendo eventuali similarità e differenze con i risultati dell'analisi ottenuti all'Esercizio 1. [Fabrizio Silvestri]