a MAQ-szerű politika Bowtie algoritmusának három fázisa. A háromfázisú megközelítés igazításokat talál a két nem megfelelő esetekre 1 nak nek 4 miközben minimalizálja a visszahúzást. Az 1. fázis a tükörindexet használja, és felhívja az Igazítót, hogy megtalálja az 1.és 2. eset igazításait. Fázis 2, illetve 3 együttműködni, hogy megtalálja nyomvonalakat az esetben 3: 2. Szakasz megállapítja, részleges nyomvonalakat a diszkrepanciák csak a hi-fele, fázis 3 megpróbálja kiterjeszteni a részleges nyomvonalakat a teljes nyomvonalakat., Végül a 3. fázis felhívja az Igazítót, hogy keresse meg a 4. eset igazítását.
teljesítmény eredmények
a Bowtie teljesítményét az 1000 Genomes project pilot (National Center for Biotechnology Information Short Read Archive:SRR001115) olvasásával értékeltük. Összesen 8,84 millió olvasás, körülbelül egy sáv adat egy Illumina eszköz, vágták 35 bp és igazodik az emberi referencia Genom . Eltérő rendelkezés hiányában az olvasási adatokat nem szűrjük vagy módosítjuk (a vágás mellett) az archívumban megjelenő módon., Ez azt eredményezi, hogy az olvasás körülbelül 70-75% – a igazodik valahol a genomhoz. Tapasztalataink szerint ez jellemző az archívumból származó nyers adatokra. Az agresszívebb szűrés magasabb összehangolási sebességhez és gyorsabb összehangoláshoz vezet.
az összes futást egyetlen CPU-n hajtották végre. Bowtie speedups számított aránya falióra igazítás alkalommal. Mind a falióra, mind a CPU-idő azt bizonyítja, hogy a bemeneti/kimeneti terhelés és a CPU-állítás nem jelentős tényező.
a Bowtie index felépítéséhez szükséges idő nem került bele a Bowtie futási időkbe., A Versengő eszközökkel ellentétben a Bowtie számos igazítási futáson keresztül újra felhasználhatja a referencia Genom előre kiszámított indexét. Arra számítunk, hogy a legtöbb felhasználó egyszerűen letölti az ilyen indexeket egy nyilvános tárolóból. A Bowtie oldal az emberi, a csimpánz, az egér, a kutya, a patkány és az Arabidopsis thaliana genomes, valamint még sokan mások jelenlegi építményeit mutatja be.
Eredmények születtek a két hardver platformok: asztali munkaállomás 2,4 GHz-es Intel Core 2 processzor, 2 GB RAM; nagy-memória szerver egy négy magos 2.4 GHz-es AMD Opteron processzor, 32 GB RAM-mal., Ezeket ” PC “- nek, illetve “szervernek” nevezik. Mind a PC, mind a szerver futtatja a Red Hat Enterprise Linuxot a 4. kiadásként.
összehasonlítása SOAP és Maq
Maq egy népszerű aligner, hogy az egyik leggyorsabban versengő nyílt forráskódú eszközök összehangolására millió Illumina olvas az emberi genom. A SOAP egy másik nyílt forráskódú eszköz, amelyet rövid olvasású projektekben jelentettek be és használtak .
az 1. táblázat a Bowtie v0.9.6, a SOAP V1.10 és a Maq V0.6.6 teljesítményét és érzékenységét mutatja be. A SOAP nem futtatható a számítógépen, mert a SOAP memória lábnyoma meghaladja a számítógép fizikai memóriáját. A szappan.,contig ” változata a szappan bináris használták. Összehasonlításképpen SZAPPANNAL, Csokornyakkendő hivatkozott a ‘-v ‘2’, hogy utánozza SZAPPAN alapértelmezett megfelelő politika (amely lehetővé teszi, akár két eltérések a felszerelését, valamint figyelmen kívül hagyja a minőségi értékek), illetve ‘–maxns 5’ szimulálni SZAPPAN alapértelmezett politika a szűrés ki olvas öt vagy több nem-bizalom alapjait. A Maq összehasonlítás Bowtie fut az alapértelmezett politika, amely utánozza Maq alapértelmezett politika, amely lehetővé teszi akár két eltérés az első 28 bázisok és érvényesítése teljes határérték 70 az összeg a minőségi értékek minden nem megfelelő olvasási pozíciók., Hogy Csokornyakkendő van memóriát több hasonló Maq van, Csokornyakkendő hivatkoznak a ‘-z’ opciót minden kísérletet annak érdekében, hogy csak az előre, vagy tükör index rezidens a memória egy időben.
Az igazított leolvasások száma azt jelzi, hogy a szappan (67,3%) és a Bowtie-v 2 (67,4%) hasonló érzékenységgel rendelkezik. A szappannal vagy Bowtie-val igazított olvasmányok közül 99,7% – ot mindkettő igazított, 0,2% – ot Bowtie igazított, de nem szappan, 0,1% – ot pedig szappan igazított, de nem Bowtie. A Maq (74,7%) és a Bowtie (71,9%) szintén nagyjából hasonló érzékenységgel rendelkezik, bár a Bowtie 2,8% – kal elmarad., A Maq vagy a Bowtie által igazított olvasások közül 96,0% – ot mindkettő igazított, 0,1% – ot Bowtie igazított, de nem Maq, 3,9% – ot pedig Maq igazított, de nem Bowtie. A MAQ által leképezett olvasások közül, de nem Bowtie, szinte mindegyik a MAQ igazítási algoritmusának rugalmasságának köszönhető, amely lehetővé teszi egyes igazítások számára, hogy három eltérés legyen a magban. A Maq által leképezett, de nem Bowtie által készített olvasás fennmaradó része Bowtie hátsó mennyezetének köszönhető.
Maq dokumentációja megemlíti, hogy a “poli-a-leleteket” tartalmazó olvasmányok ronthatják Maq teljesítményét., A 2. táblázat a Bowtie és a Maq teljesítményét és érzékenységét mutatja be, amikor az olvasási készletet a MAQ ‘catfilter’ parancsával szűrjük a poli-a műtárgyak kiküszöbölésére. A szűrő megszünteti 438,145 ki 8,839,010 olvasás. Más kísérleti paraméterek megegyeznek az 1.táblázatban szereplő kísérletekével, és a Bowtie és a Maq viszonylagos érzékenységére vonatkozó megfigyelések itt is érvényesek.
olvasási hossz és teljesítmény
ahogy a szekvenálási technológia javul, az olvasási hossz a mai nyilvános adatbázisokban gyakran látott 30-bp-ről 50-bp-re növekszik., A Bowtie, a Maq és a SOAP support akár 1,024, 63, illetve 60 bp hosszúságú, a Maq 0.7.0 verziók pedig később támogatják az olvasási hosszúságot 127 bp-ig. A 3. táblázat mutatja teljesítmény eredményeket, ha a három eszközök minden használt align három különböző a 2 M untrimmed olvas, egy 36-bp készlet, 50-bp meghatározott, illetve a 76-bp állítsa be, hogy az emberi genom a szerver platform. Minden 2 M-es készletet véletlenszerűen mintavételeznek egy nagyobb készletből(NCBI rövid olvasási Archívum: SRR003084 36-bp, SRR003092 50-bp, SRR003196 76-bp)., Az olvasókat úgy mintavételezték, hogy a 2 m-es három készletnek egységes bázis-hibaaránya legyen, az alap-Fred tulajdonságokból számítva. Minden olvasás áthalad Maq “catfilter”.
3.táblázat változó olvasási hossz Bowtie, MAQ és SOAP segítségével
Bowtie mind a Maq-szerű alapértelmezett módban, mind a szappanszerű ‘-v 2’ módban fut. Bowtie is kap a “- z ” lehetőséget annak biztosítására, hogy csak az előre vagy tükör index rezidens memória egy időben. Maq v0.7. 1 használták helyett Maq v0.6.6 a 76-bp készlet, mert v0.6.,Az 6 nem tudja összehangolni a 63 bp-nél hosszabb olvasásokat. Szappan nem fut a 76-bp készlet, mert nem támogatja olvas hosszabb, mint 60 bp.
Az eredmények azt mutatják, hogy a Maq algoritmusa összességében jobban skálázik, mint a Bowtie vagy a SOAP. Azonban a Bowtie szappanszerű “- v 2 ” módban is nagyon jól skálázik. Bowtie az alapértelmezett Maq-szerű mód mérlegek is 36-bp 50-bp olvasás, de lényegesen lassabb 76-bp olvasás, bár ez még mindig több, mint egy nagyságrenddel gyorsabb, mint a Maq.,
párhuzamos teljesítmény
az Igazítás párhuzamosítható az egyidejű Keresési szálak közötti olvasások terjesztésével. Bowtie lehetővé teszi a felhasználó számára, hogy adja meg a kívánt szálak száma (option-p); Bowtie majd elindítja a megadott számú szálak segítségével a pthreads könyvtár. Bowtie szálak szinkronizálni egymással, amikor lekérése olvasás, kimenet eredmények közötti váltás indexek, és végző különböző formái globális könyvelés, mint például a jelölés olvasási “kész”., Ellenkező esetben a szálak szabadon működhetnek párhuzamosan, jelentősen felgyorsítva a több processzormaggal rendelkező számítógépek összehangolását. Az index memória képét minden szál megosztja, így a lábnyom nem növekszik jelentősen, ha több szálat használnak. A 4. táblázat a négymagos szerveren futó Bowtie V0.9.6 teljesítményeredményeit mutatja egy, kettő és négy szálon.,
4.táblázat Bowtie párhuzamos igazítási teljesítmény
Index building
Bowtie egy rugalmas indexelő algoritmust használ, amely konfigurálható a memória használata és a futási idő közötti kereskedelemre. Az 5. táblázat szemlélteti ezt a kompromisszumot a teljes emberi referencia Genom indexelésekor (NCBI build 36.3, contigs). A futásokat a szerver platformon hajtották végre. Az indexelőt négyszer futtatták, különböző felső határértékekkel a memóriahasználatra.,
5.táblázat Bowtie index building performance
a jelentett idők kedvezően hasonlítanak az igazítás során indexelést végző versengő eszközök igazítási idejéhez. Kevesebb, mint 5 óra szükséges ahhoz, hogy Bowtie mind az 1000 Genomprojektből (NCBI Short Read Archive:SRR001115) 8, 84 millió olvasással egész emberi indexet készítsen és lekérdezzen egy szerveren, több mint hatszor gyorsabban, mint az egyenértékű Maq run., Az alsó-legtöbb sor azt mutatja, hogy a Bowtie indexelő, megfelelő érvekkel, elég memória-hatékony ahhoz, hogy egy tipikus munkaállomáson 2 GB RAM-mal működjön. Az 1.kiegészítő adatfájl (3. és 4. Kiegészítő megbeszélések) ismerteti a kapott index algoritmusát és tartalmát.
Software
a Bowtie C++ nyelven íródott és a SeqAn könyvtárat használja . A MAQ mapping formátumba konvertáló Maq kódot használ.