WarLogs Dataset
Il dataset contiene un sottoinsieme del dataset pubblicato da WikiLeak il 22 Ottobre 2010 contenente i report di guerra in Iraq dal 2004 al 2009.
I dati sono stati già filtrati e semplificati in una tabella relazionale, i cui attributi vengono descritti di seguito:
- report_key | text: chiave univoca del rapporto
- to_timestamp | timestamp: la data di emissione del rapporto (precisione fino al minuto)
- Type | text: Macro-classificazione degli eventi di ogni rapporto
- category | text: Classificazione specifica di ogni rappporto
- region | text: classificazione della localizzazione dell'evento
- attack_on | text: obiettivo dell'evento/attacco del rapporto
- coalition_forces_wounded | integer: numero di alleati feriti nell'evento/attacco
- coalition_forces_killed | integer: numero di alleati uccisi nell'evento/attacco
- iraq_forces_wounded | integer: numero di soldati iracheni feriti nell'evento/attacco
- iraq_forces_killed | integer: numero di soldati iracheni uccisi nell'evento/attacco
- civilian_wia | integer: numero di civili feriti nell'evento/attacco
- civilian_kia | integer: numero di civili uccisi nell'evento/attacco
- enemy_wia | integer: numero di nemici feriti nell'evento/attacco
- enemy_kia | integer: numero di nemici uccisi nell'evento/attacco
- enemy_detained | integer: numero di nemici catturati nell'evento/attacco
- total_deaths | integer: numero di morti totali per l'evento/attacco
- st_x | numeric: longitudine della posizione dell'evento/attacco
- st_y | numeric: latitudine della posizione dell'evento/attacco
Il dataset viene fornito in formato CSV: warlogs.csv.zip (nuova versione)
Viene fornito anche un sample del dataset contenente 2000 report estratti in modo random (distribuzione uniforme sulla report_key): warlogs2000.csv.zip
A causa di un errore nella generazione del dataset integrale (warlogs.csv), è stata caricato sul wiki una versione aggiornata del file.
Problema
Si richiede una analisi dei dati forniti utilizzando i metodi di clustering forniti da Weka mettendo in relazione i diversi tipi (attributo “Type”) di attacco e le distribution di morti, feriti e nemici catturati.
Per ogni clustering effettuato è necesario fornire una motivatione/spiegazione del risultato in base al valore degli altri attributi (es. correlazione tra diversi attributi e classe di clustering).
Suggerimenti:
- I termini di alcuni attributi possono contenere alcuni errori/ripetizioni (al momento non viene rivelato quali sono questi attributi). Verificare se questi errori emergono all'interno del clustering
- Alcuni attributi hanno un ruolo di classe (ad esempio, l'attributo “region”). Verificare che la correlazione con gli attributi “st_x” e “st_y” sia valida.
- Provare a selezionare sottoinsiemi di attributi per eseguire clustering separati
- Una volta determinato un clustering del dataset, è possibile selezionare uno dei cluster come un dataset separato per eseguire ulteriori analisi solo sul gruppo scelto? (è necessario l'uso di filtri esterni a Weka)