reciprocal_smallest_distance è un algoritmo ortologia coppie che utilizza l'allineamento di sequenze globale e di massima verosimiglianza distanza evolutiva tra sequenze rileva con precisione ortologhi tra genomi.
Installazione da un tarball
Scaricare ed estrarre l'ultima versione da GitHub:
cd ~
ricciolo -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Tar XVZ
Installare reciprocal_smallest_distance, avendo cura di utilizzare Python 2.7:
cd reciprocal_smallest_distance-VERSION
python setup.py install
Utilizzo di RSD per trovare Othologs
I seguenti comandi di esempio dimostrano i principali modi per eseguire rsd_search. Ogni invocazione di rsd_search richiede specificare la posizione di un file di sequenza FASTA-formattato per due genomi, chiamato la query e genomi soggetto. Il loro ordine è arbitrario, ma se si utilizza l'opzione --ids, gli ID devono provenire dal genoma query. È inoltre necessario specificare un file di scrivere i risultati delle ortologhi trovate dall'algoritmo RSD. Il formato del file di output contiene una ortologa per riga. Ogni riga contiene l'ID della query sequenza, soggetto id sequenza, e la distanza (calcolato da codeml) tra le sequenze. È possibile specificare un file contenente gli ID utilizzando l'opzione --ids. Poi RSD cercheranno solo ortologhi per tali ids. Utilizzando --divergence e --evalue, si ha la possibilità di utilizzare soglie differenti da quelli predefiniti.
Chiedi aiuto su come eseguire rsd_search, rsd_blast, o rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Trova ortologhi tra tutte le sequenze dei genomi di query e soggetti, con divergenza di default e EVALUE soglie
Esempi rsd_search -q / genomi / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomi / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Trova ortologhi utilizzando diversi soglie di divergenza e EVALUE non predefinite
Esempi rsd_search -q / genomi / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomi / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0,2 1e-20 --de 0,5 0,00001 --de 0,8 0,1
Non è necessario formattare un file FASTA per BLAST o calcolare BLAST colpisce perché rsd_search fa per voi.
Tuttavia, se si prevede di eseguire rsd_search più volte per gli stessi genomi, soprattutto per le grandi genomi, è possibile risparmiare tempo utilizzando rsd_format per preformatting i file FASTA e rsd_blast per precomputing l'esplosione colpisce. Quando si esegue rsd_blast, assicurarsi di utilizzare un --evalue grande come il più grande soglia EVALUE si intende dare a rsd_search.
Ecco come formattare un paio di file FASTA in luogo:
rsd_format -g examples / genomi / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g examples / genomi / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
Ed ecco come formattare i file FASTA, mettendo il risultato in un'altra directory (la directory corrente in questo caso)
rsd_format -g examples / genomi / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g examples / genomi / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Ecco come calcolare in avanti e indietro colpi scoppio (con il EVALUE di default):
rsd_blast -v -q examples / genomi / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomi / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-Hits q_s.hits --reverse-Hits s_q.hits
Ecco come calcolare in avanti e retromarcia esplosione colpisce per rsd_search, con genomi già formattati per esplosione e un EVALUE non predefinito
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-genoma = Mycobacterium_leprae.aa
--forward-Hits q_s.hits --reverse-Hits s_q.hits
--no-format --evalue 0.1
Trova ortologhi tra tutte le sequenze nella query e genomi soggetti che utilizzano genomi già formattati per esplosione
rsd_search -q Mycoplasma_genitalium.aa
--subject-genoma = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-format
Trova ortologhi tra tutte le sequenze nella query e genomi soggetti con risultati che sono già stati calcolati. Si noti che --no-formato è inclusa, perché dal momento che i colpi di scoppio sono già stati calcolati i genomi non hanno bisogno di essere formattato per esplosione.
rsd_search -v --query-genoma Mycoplasma_genitalium.aa
--subject-genoma = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-Hits q_s.hits --reverse-Hits s_q.hits --no-format
Trova ortologhi di sequenze specifiche del genoma query. Per trovare ortologhi per solo poche sequenze, con --no-blast-cache può accelerare il calcolo. YMMV.
Esempi rsd_search -q / genomi / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomi / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o examples / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids examples / Mycoplasma_genitalium.aa.ids.txt --no-blast-cache
Formati Output
Ortologhi possono essere salvati in diversi formati che utilizzano l'opzione --outfmt di rsd_search. Il formato predefinito, --outfmt -1, si riferisce a --outfmt 3. Ispirato UniProt file dat, una serie di ortologhi inizia con una linea di parametri, quindi ha 0 o più linee ortologhi, quindi ha una linea di fondo. I parametes sono il nome della query genoma, soggetto nome genoma, soglia di divergenza, e la soglia EVALUE. Ogni ortologa è su una sola riga che elenca le query ID sequenza, la id sequenza di soggetto, e la stima di distanza massima verosimiglianza. Questo formato può rappresentare ortologhi per più set di parametri in un singolo file così come set di parametri senza ortologhi. Quindi è adatto per l'uso con rsd_search quando si specifica più soglie di divergenza e EVALUE.
Ecco un esempio che contiene due combinazioni di parametri, uno dei quali non ha ortologhi:
PA tLACJO tYEAS7 t0.2 T1E-15
O tQ74IU0 tA6ZM40 t1.7016
O tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 T1E-15
//
Il formato originale di RSD, --outfmt 1, è previsto per la compatibilità all'indietro. Ogni riga contiene un ortologo, rappresentato come id sequenza soggetto, interrogare sequenza id, e la massima stima di distanza verosimiglianza. Esso può rappresentare solo una singola serie di ortologhi in un file.
Esempio:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Previsto anche per la compatibilità è un formato utilizzato internamente da Roundup (http://roundup.hms.harvard.edu/) che è come il formato RSD originale, tranne la colonna id sequenza di query viene prima della id sequenza di soggetto.
Esempio:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Requisiti :
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- kalign 2.04
I commenti non trovato