Processing math: 100%

Strumenti Utente

Strumenti Sito


wma:esercizio1

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

Prossima revisione
Revisione precedente
wma:esercizio1 [21/12/2010 alle 18:09 (15 anni fa)] – creata Dino Pedreschiwma:esercizio1 [23/12/2010 alle 17:50 (15 anni fa)] (versione attuale) Dino Pedreschi
Linea 65: Linea 65:
 Domande tipiche : Domande tipiche :
   - che tipo di lista di parole posso creare? Risposta: la lista di parole in qualche modo è già parte del problema che vi porrete alla fine. se nella lista di parole mettete nomi di giocatori, specie di animali, e modelli di auto fiat, probabilmente alla fine avrete una rete che vi darà poche informazioni. Esempi interessanti possono essere invece: lista di organizzazioni internazionali e lista di paesi del mondo (magari sia in modo bipartito che non), lista di termini scientifici, lista di personaggi politici, lista di attori del cinema, lista di attori e registi, lista di attori e film, ecc. Come vedete una lista può anche essere eterogenea, dando spunti per interessanti problemi analitici dopo.   - che tipo di lista di parole posso creare? Risposta: la lista di parole in qualche modo è già parte del problema che vi porrete alla fine. se nella lista di parole mettete nomi di giocatori, specie di animali, e modelli di auto fiat, probabilmente alla fine avrete una rete che vi darà poche informazioni. Esempi interessanti possono essere invece: lista di organizzazioni internazionali e lista di paesi del mondo (magari sia in modo bipartito che non), lista di termini scientifici, lista di personaggi politici, lista di attori del cinema, lista di attori e registi, lista di attori e film, ecc. Come vedete una lista può anche essere eterogenea, dando spunti per interessanti problemi analitici dopo.
-  - quante parole devo mettere nella mia lista? La risposta più ovvia sarebbe: tutte quelle che riuscite a trovare, poi potrete filtrare in seguito. Tenete presente che magari Cytoscape non riesce a farvi lavorare bene con più di 5k-10k nodi, e che magari una rete di 20 nodi non è così interessante.+  - quante parole devo mettere nella mia lista? La risposta più ovvia sarebbe: tutte quelle che riuscite a trovare, poi potrete filtrare in seguito. Tenete presente che magari Cytoscape non riesce a farvi lavorare bene con più di 5k-10k nodi, e che magari una rete di 20 nodi non è così interessante. Tenete anche presente che n parole nella lista porteranno a n*(n-1)/2 interrogazioni del crawler, via Internet.
   - in che lingua devono essere le parole? Risposta: generalmente Inglese, in quanto gli articoli in cui vengono cercate le co-occorrenze sono presi dal New York Times. Potete anche provare a mettere parole in Italiano o altra lingua, semplicemente potreste ritrovarvi con pochi archi alla fine.   - in che lingua devono essere le parole? Risposta: generalmente Inglese, in quanto gli articoli in cui vengono cercate le co-occorrenze sono presi dal New York Times. Potete anche provare a mettere parole in Italiano o altra lingua, semplicemente potreste ritrovarvi con pochi archi alla fine.
   - da dove prendo le parole? Risposta: ci sono tantissime sorgenti per rispondere a questa domanda: potreste partire con una pagina a caso di wikipedia in inglese e seguire via via i link, e usare tutte le parole contenute nelle pagine che trovate, o scaricare una lista di persone, posti, associazioni, ecc cercando su un qualsiasi motore di ricerca.   - da dove prendo le parole? Risposta: ci sono tantissime sorgenti per rispondere a questa domanda: potreste partire con una pagina a caso di wikipedia in inglese e seguire via via i link, e usare tutte le parole contenute nelle pagine che trovate, o scaricare una lista di persone, posti, associazioni, ecc cercando su un qualsiasi motore di ricerca.
 +  - posso usare il crawler da casa? Risposta: certo, solo che dato che il crawler cercherà di creare tutti gli archi (se mettete n parole, farà n*(n-1)/2 interrogazioni, vi consigliamo di accertarvi di avere una buona connessione Internet. 
 +  - visto che ci sono due parametri corrispondenti agli anni, posso usare l'informazione temporale nella mia analisi? Risposta: certo, in almeno due modi: o create una serie di snapshot temporali della stessa rete nel tempo, oppure un'unica rete, con gli archi etichettati col primo anno di comparsa. A questo punto usare anche la dimensione temporale nella propria analisi vi porta ad analisi più ricche di informazioni
   - come faccio a filtrare velocemente il file? Risposta: se il file non è gigantesco, è molto probabile che possiate importarlo in un foglio di calcolo. a questo punto potrete usare le capacità del foglio di calcolo. Per chi è pratico con i comandi Unix/Linux/Mac, dal terminale potete usare una qualsiasi combinazione di cat, grep, awk, cut, ecc.. per filtrare righe e colonne. Esempio: in un terminale di Linux, per prendere solo le prime tre colonne, scartare l'header, filtrare i self-loop e selezionare solo gli archi con peso maggiore di 300, è sufficiente la seguente combinazione di comandi:'' tail -n +2 output.txt | awk '{if(1!=2) { if(3>300)print1, 2,3 }}' > outputFINALE.txt ''. questa riga, eseguita sull'esempio precedente, produce il file outputFINALE.txt con le seguenti tre righe:   - come faccio a filtrare velocemente il file? Risposta: se il file non è gigantesco, è molto probabile che possiate importarlo in un foglio di calcolo. a questo punto potrete usare le capacità del foglio di calcolo. Per chi è pratico con i comandi Unix/Linux/Mac, dal terminale potete usare una qualsiasi combinazione di cat, grep, awk, cut, ecc.. per filtrare righe e colonne. Esempio: in un terminale di Linux, per prendere solo le prime tre colonne, scartare l'header, filtrare i self-loop e selezionare solo gli archi con peso maggiore di 300, è sufficiente la seguente combinazione di comandi:'' tail -n +2 output.txt | awk '{if(1!=2) { if(3>300)print1, 2,3 }}' > outputFINALE.txt ''. questa riga, eseguita sull'esempio precedente, produce il file outputFINALE.txt con le seguenti tre righe:
  
Linea 76: Linea 78:
 ''france germany 1950'' ''france germany 1950''
  
 +
 +Per ulteriori chiarimenti, scrivere a [[michele.berlingerio@isti.cnr.it]]
  
  
wma/esercizio1.1292954960.txt.gz · Ultima modifica: 21/12/2010 alle 18:09 (15 anni fa) da Dino Pedreschi

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki