matematica:asd:asd_23:progetto_21
Differenze
Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.
Prossima revisione | Revisione precedente | ||
matematica:asd:asd_23:progetto_21 [18/05/2024 alle 02:25 (10 mesi fa)] – creata Roberto Grossi | matematica:asd:asd_23:progetto_21 [03/10/2024 alle 13:11 (5 mesi fa)] (versione attuale) – Roberto Grossi | ||
---|---|---|---|
Linea 1: | Linea 1: | ||
- | ====== Progetto | + | ====== Progetto |
- | Il progetto riguarda la costruzione e l' | + | Il progetto riguarda la costruzione e l' |
{{: | {{: | ||
Linea 8: | Linea 8: | ||
I. **Lettura e Creazione del Grafo:** | I. **Lettura e Creazione del Grafo:** | ||
- | - Leggere un file GFA e creare un grafo etichettato utilizzando liste di adiacenza. | + | * Leggere un file GFA e creare un grafo \(G\) etichettato |
- | - Etichettare i nodi e gli archi del grafo in base alle informazioni fornite nel file GFA. | + | * Etichettare i nodi e gli archi di \(G\) in base alle informazioni fornite nel file GFA. |
- | II. **Analisi | + | II. **Analisi |
- | - Considerare | + | * Verificare se il grafo \(G\) sia ciclico: in tal caso effettuare una visita DFS e rimuovere gli archi all' |
- | | + | |
- | III. **Ricerca di Cammini | + | III. **Ricerca di Pattern sui Cammini |
- | - Utilizzare | + | * Eseguire |
- | - Ignorare l' | + | * Attenzione che il numero di tali cammini può essere esponenziale, |
- | - Modificare | + | |
+ | * Data una sequenza pattern \( P \) di lunghezza \( K \), verificare se è contenuta in una delle sequenze generate come sopra. In tal caso, \( P \) è chiamata // | ||
+ | * Utilizzare tecniche di rolling hash per calcolare l'hash delle porzioni di lunghezza \( K \) nella sequenza (hash visto a lezione) e confrontarle con l'hash del pattern \( P \). | ||
- | IV. **Verifica di Pattern nella Sequenza:** | + | V. **Facoltativo: Calcolo delle Frequenze dei K-mer:** |
- | - Data una sequenza pattern \( P \), verificare se è contenuta in una delle sequenze generate durante la ricerca. | + | * Calcolare |
- | - Utilizzare tecniche di rolling hash per calcolare l'hash delle porzioni della sequenza e confrontarle con l'hash del pattern \( P \). | + | * Riportare i 10 K-mer più frequenti in \( G \). |
- | + | ||
- | V. **Calcolo delle Frequenze dei K-mer:** | + | |
- | - Identificare | + | |
- | - Calcolare la frequenza di ogni K-mer e il numero delle sue occorrenze. Ad esempio, per \( P = ATA \), la frequenza | + | |
**Struttura del GFA** | **Struttura del GFA** | ||
Linea 35: | Linea 33: | ||
* **L (Link):** Linee che descrivono collegamenti tra segmenti. | * **L (Link):** Linee che descrivono collegamenti tra segmenti. | ||
* **P (Path):** Linee che descrivono cammini attraverso segmenti. | * **P (Path):** Linee che descrivono cammini attraverso segmenti. | ||
+ | * **L (Walk):** Linee che descrivono cammini attraverso segmenti non sovrapposti. | ||
+ | Utilizzare solo S per i nodi e L per gli archi. | ||
**Esempio di Analisi** | **Esempio di Analisi** | ||
Consideriamo un grafo con i seguenti nodi e archi rappresentati in formato GFA: | Consideriamo un grafo con i seguenti nodi e archi rappresentati in formato GFA: | ||
- | ``` | ||
- | S1 0 514 | ||
- | S2 517 unused | ||
- | L1 S1 S2 GAT CAG TA GAA | ||
- | ``` | ||
- | In questo grafo, analizziamo i cammini possibili e verifichiamo se il pattern \( P = TTCA \) è presente in una delle sequenze ottenute. | ||
- | **Conclusioni** | + | < |
+ | H VN: | ||
+ | S s11 GAT | ||
+ | S s12 T | ||
+ | S s13 A | ||
+ | S s14 CAG | ||
+ | S unused GAA | ||
+ | S s15 A | ||
+ | S s16 T | ||
+ | S s17 TA | ||
+ | L s11 + s12 + * | ||
+ | L s11 + s13 + * | ||
+ | L s12 + s14 + * | ||
+ | L s13 + s14 + * | ||
+ | L s14 + s15 + * | ||
+ | L s14 + s16 + * | ||
+ | L s15 + s17 + * | ||
+ | L s16 + s17 + * | ||
+ | P A s11+, | ||
+ | W sample 1 A 0 10 > | ||
+ | W sample 2 A 0 10 > | ||
+ | </ | ||
+ | |||
+ | In questo grafo \( G \), analizziamo i cammini possibili e verifichiamo se il pattern \( P = TTCA \) è presente in una delle sequenze ottenute. | ||
+ | |||
+ | {{: | ||
- | Questo progetto permette di comprendere e applicare tecniche avanzate di bioinformatica per l' | ||
**Riferimenti** | **Riferimenti** | ||
- | - Documentazione del formato GFA | + | * Spiegazioni video dettagliate del progetto: [[https:// |
- | - Algoritmi di ricerca in profondità (DFS) | + | * Documentazione del formato GFA: [[http:// |
- | - Tecniche di rolling hash | + | * Data set: [[https:// |
matematica/asd/asd_23/progetto_21.1715999142.txt.gz · Ultima modifica: 18/05/2024 alle 02:25 (10 mesi fa) da Roberto Grossi