Strumenti Utente

Strumenti Sito


wma:esercizio1

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

Entrambe le parti precedenti la revisioneRevisione precedente
Prossima revisione
Revisione precedente
wma:esercizio1 [23/12/2010 alle 13:28 (15 anni fa)] Dino Pedreschiwma:esercizio1 [23/12/2010 alle 17:50 (15 anni fa)] (versione attuale) Dino Pedreschi
Linea 68: Linea 68:
   - in che lingua devono essere le parole? Risposta: generalmente Inglese, in quanto gli articoli in cui vengono cercate le co-occorrenze sono presi dal New York Times. Potete anche provare a mettere parole in Italiano o altra lingua, semplicemente potreste ritrovarvi con pochi archi alla fine.   - in che lingua devono essere le parole? Risposta: generalmente Inglese, in quanto gli articoli in cui vengono cercate le co-occorrenze sono presi dal New York Times. Potete anche provare a mettere parole in Italiano o altra lingua, semplicemente potreste ritrovarvi con pochi archi alla fine.
   - da dove prendo le parole? Risposta: ci sono tantissime sorgenti per rispondere a questa domanda: potreste partire con una pagina a caso di wikipedia in inglese e seguire via via i link, e usare tutte le parole contenute nelle pagine che trovate, o scaricare una lista di persone, posti, associazioni, ecc cercando su un qualsiasi motore di ricerca.   - da dove prendo le parole? Risposta: ci sono tantissime sorgenti per rispondere a questa domanda: potreste partire con una pagina a caso di wikipedia in inglese e seguire via via i link, e usare tutte le parole contenute nelle pagine che trovate, o scaricare una lista di persone, posti, associazioni, ecc cercando su un qualsiasi motore di ricerca.
 +  - posso usare il crawler da casa? Risposta: certo, solo che dato che il crawler cercherà di creare tutti gli archi (se mettete n parole, farà n*(n-1)/2 interrogazioni, vi consigliamo di accertarvi di avere una buona connessione Internet. 
 +  - visto che ci sono due parametri corrispondenti agli anni, posso usare l'informazione temporale nella mia analisi? Risposta: certo, in almeno due modi: o create una serie di snapshot temporali della stessa rete nel tempo, oppure un'unica rete, con gli archi etichettati col primo anno di comparsa. A questo punto usare anche la dimensione temporale nella propria analisi vi porta ad analisi più ricche di informazioni
   - come faccio a filtrare velocemente il file? Risposta: se il file non è gigantesco, è molto probabile che possiate importarlo in un foglio di calcolo. a questo punto potrete usare le capacità del foglio di calcolo. Per chi è pratico con i comandi Unix/Linux/Mac, dal terminale potete usare una qualsiasi combinazione di cat, grep, awk, cut, ecc.. per filtrare righe e colonne. Esempio: in un terminale di Linux, per prendere solo le prime tre colonne, scartare l'header, filtrare i self-loop e selezionare solo gli archi con peso maggiore di 300, è sufficiente la seguente combinazione di comandi:'' tail -n +2 output.txt | awk '{if(1!=1!=2) { if(3>300)print3>300)print1, 2,2,3 }}' > outputFINALE.txt ''. questa riga, eseguita sull'esempio precedente, produce il file outputFINALE.txt con le seguenti tre righe:   - come faccio a filtrare velocemente il file? Risposta: se il file non è gigantesco, è molto probabile che possiate importarlo in un foglio di calcolo. a questo punto potrete usare le capacità del foglio di calcolo. Per chi è pratico con i comandi Unix/Linux/Mac, dal terminale potete usare una qualsiasi combinazione di cat, grep, awk, cut, ecc.. per filtrare righe e colonne. Esempio: in un terminale di Linux, per prendere solo le prime tre colonne, scartare l'header, filtrare i self-loop e selezionare solo gli archi con peso maggiore di 300, è sufficiente la seguente combinazione di comandi:'' tail -n +2 output.txt | awk '{if(1!=1!=2) { if(3>300)print3>300)print1, 2,2,3 }}' > outputFINALE.txt ''. questa riga, eseguita sull'esempio precedente, produce il file outputFINALE.txt con le seguenti tre righe:
  
Linea 76: Linea 78:
 ''france germany 1950'' ''france germany 1950''
  
-  - posso usare il crawler da casa? Risposta: certo, solo che dato che il crawler cercherà di creare tutti gli archi (se mettete n parole, farà n*(n-1)/2 interrogazioni, vi consigliamo di accertarvi di avere una buona connessione Internet.  + 
-  - visto che ci sono due parametri corrispondenti agli anniposso usare l'informazione temporale nella mia analisi? Risposta: certo, in almeno due modi: o create una serie di snapshot temporali della stessa rete nel tempo, oppure un'unica rete, con gli archi etichettati col primo anno di comparsaA questo punto usare anche la dimensione temporale nella propria analisi vi porta ad analisi più ricche di informazioni +Per ulteriori chiarimentiscrivere a [[michele.berlingerio@isti.cnr.it]]
-  - +
  
  
wma/esercizio1.1293110886.txt.gz · Ultima modifica: 23/12/2010 alle 13:28 (15 anni fa) da Dino Pedreschi

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki