GenoFinisherの利用方法
GenoFinisherはFinishing開始時にどのような状況であるかに応じて、必要な各種機能を提供します。ここでは、大きく分けて3つのケースについて利用方法を説明します。
(1) 454のシングルエンドのデータのみがある場合
(2) 454のペアエンドのデータがある場合
(3)454のシングルエンドのデータに加えて、イルミナのメイトペアペアエンドのデータがある場合
ケース1: 454のシングルエンドのデータのみがある場合
454のシングルエンドのデータのみがある場合、必要なのは以下のファイルです。
454ContigGraph.txt
454AllContigs.fna
454AllContigs.qual
Finishingは概念的には以下の手順ですすめることになります。
- 1: 重複問題を解決する。原則的にはPCRで、どのコンティグとどのコンティグが繋がっているかを明らかにしていく操作をします。
- 2: 孤独末端問題を解決する。原則的には孤独末端間で総当たりPCRを行い、増幅産物をテンプレートにシーケンスを行い、gapを埋める配列データを手に入れます。
- 3: 1の結果に従って、コンティグの配列を連結します。
- 4: 必要に応じて、コンティグの配列を修正します。
- 5: 残ったコンティグを手動で連結します。
具体的な手順は以下の通りです。
- 1: 3つのファイルを含むフォルダを指定します。
- 2: primer検索の条件を設定します(最初は初期設定でどうぞ)。
- 3: 各種設定を必要に応じて変更します(最初は初期設定でどうぞ)。
- 4: runボタンを押します。ボタンを押すと各種解析が開始します。
- 5: primerがデザインされなかったコンティグがあれば、警告が表示されます。そのコンティグについてprimerを設定してください。
- 6: 重複問題について、解決すべき課題それぞれについてコンティググラフが表示されます。孤独末端についても、一覧が出力されます(一番最後のシートがそうです)
- 7: コンティググラフを良く眺め、解決すべき課題について理解してください。PCRで決着できるのか?シーケンスが必要なのか?あるいはサザン解析が必要なのか?
- 8: 重複問題として自動的にピックアップされた問題の中にはヒゲ問題に帰結すべきものなど、実際にPCRをするまでもないものが含まれています。実際にPCRをするかどうかについて判断をし、必要がないものに関してはチェックボックスのチェックを外します。
- 9: primerに関する総合情報を、表計算シートに貼り付けます。
- 10: primerを購入して必要なPCR反応を行って下さい。primer総合情報が役に立つはずです。
- 11: コンティググラフ左上にある、primer対戦表の中から、実際に増幅が見られたセルをクリックしてください。同じprimerセットでも複数の増幅産物があり得る場合は、「*」が表示されています。その場合は、コンテクストメニューから、ルートを選択してください。
- 12: この後のステップで、全てのコンティググラフ内のコンティググラフについて、指定されたルート上のコンティグについて自動連結処理を実行します。自動連結処理を実行すると、ウィンドウ「Contig Graph(Task1)」中のすべてのコンティググラフは廃棄され、新たに連結されたコンティグが、メインウィンドウに現れます。このとき、もう使わないコンティグに関しては、コンティグ上のチェックボックスをオンにしておくと、結合処理後にメインウィンドウから消去されます。そのような仕様になっていますので、結合処理後にメインウィンドウから消去したいコンティグについて、チェックボックスにチェックを入れます。
- 13: 「Finish All」ボタンを押します。上のステップで述べた処理が実行されます。
- 14: メイン画面を見ます。連結してできたコンティグのパネルが表示されていると思います。
- 15: 孤独末端について、連結先が明らかになったものがあれば、それをメイン画面上で連結します。これに先立ち、必要がない場合を除き、孤独末端のDNA配列を編集します(コンティグパネルのshow sequenceコンテクストメニュー)。
- 16: ここまでくれば、あまり意味のないと考えられる薄いリード数による連結(ヒゲ問題)を無視すれば、メイン画面上ではレプリコンがレプリコンとして繋がる状態になっているはずです。
- 17: 残ったコンティグを、ヒゲを無視することにしながら連結します(コマンドを押した状態でコンティグパネルを2つ選択して「combine selected contigs」ボタン)。
- 18: コンティグパネルのshow sequenceコンテクストメニューからDNA配列を取り出します。必要に応じてクオリティが低い部分がどれ位あるかについて検討します。
ケース2: 454のペアエンドのデータがある場合
スキャフォールドがある場合、スキャフォールドのDNA配列内にはNの連続が続く箇所があります。このギャップ部分に相当する配列を見い出し、そのギャップ部分にはめ込みます。全部終わればFinishingも終了です。実は、ギャップ部分にどのコンティグがはまるのかは多くの場合(半数以上??)は、newblerからの出力ファイル(ContigGraph.txt)中の情報に基づいて知ることができます。バリエーション問題を回避するため、当該部分をあえてNNNNとして出力し、ユーザー自身がその部分を埋めるようにしていると推測されます。
454のペアエンドデータに基づくアッセンブルの後に、GenoFinisherを利用するのに必要なファイルは以下の6つです。
454ContigGraph.txt
454AllContigs.fna
454AllContigs.qua
454Scaffolds.txt
454Scaffolds.fna
454Scaffolds.qual
さらに以下の2つがあれば、スキャフォールド中のgapのいくつかを(追加の実験なしに)、埋める機能が使用可能になります。
454PairStatus.txt
454TrimmedReads.fna
具体的な手順は以下の通りです。
- 1: 6つ(8つ)のファイルすべてを含むフォルダを指定します。
- 2: primer検索の条件を設定します(最初は初期設定でどうぞ)。
- 3: 各種設定を必要に応じて変更します(最初は初期設定でどうぞ)。
- 4: runボタンを押します。ボタンを押すと各種解析が開始します。
- 5: primerがデザインされなかったコンティグがあれば、警告が表示されます。そのコンティグについてprimerを設定してください。
- 6: スキャフォールド内のギャップの前のコンティグと後のコンティグについて(どのギャップの前後のコンティグ番号についてはScafold.txtファイルに記述されています)、この2つのコンティグを結びうるコンティグが探索されます。
- 7: 各ギャップについて、そのルートを形成しうるコンティグ群によるコンティググラフが、ウィンドウ「Contig Graph (Task2)」に出力されます。
ファイルが8つある場合は、ウィンドウの左上にあるprimer名の交点にあるセルを右クリックし、「show pair reads with presumed sequence」を実行します。これにより(1)gapの前の配列、(2)gapに相当すると推測される配列(この配列はバリエーションによって必ずしも正しくありません)、(3)gap後の配列、(4)(1)の配列に100%で(右向きに)マッチする配列とそのペアとなる配列、(5)(3)の配列に100%で(左向きに)マッチする配列とそのペアになる配列、が出力されます。これら配列を再アッセンブルすることにより、gap部分の配列を、バリエーション問題が回避されたものとして得ることができることがあります。
- 8: PCRにて増幅して配列を確認したいギャップ以外について、画面左上のチェックボックスを外して下さい。
- 9: primerに関する総合情報を、表計算シートに貼り付けます。
- 10: PCR増幅を行い、産物をテンプレートとして塩基配列データを得ます。
- 11: 2つあるテキストボックスの上の方に、ギャップ相当部分の塩基配列をペーストします。
- 12: fill gap in scafoldボタンを押します。この操作により、スキャフォールドパネル内のシーケンスデータの中の対応するギャップ部分に、配列が挿入されます。
- 13: PCRをするまでもない、と判断したギャップについては、primer対戦表のセルを選択してください。この操作により、ギャップ相当部分の塩基配列とクオリティスコアがそれぞれ出力されます。fill gap in scafoldボタンを押します。
- 14:全てのギャップについて、この操作を繰り返します。
ケース3: 454のシングルエンドのデータに加えて、イルミナのメイトペアペアエンドのデータがある場合
この場合、イルミナのペアデータを、newblerでアッセンブルするときに加えてください(加えなくてもできますが、加えた方が総合して楽です)。必要なファイルはケース2で示した6つのファイルです。また各種ファイルをおいたフォルダの中に、「pairReads」と名前を付けたフォルダを置き、この中に、multi FASTA形式のイルミナのペアリードを格納したファイルをおいてください。このとき、以下の点に留意して下さい。
- 複数のファイルを置くことができます。
- 各ファイルはおおよそ10 MB程度にしてください。大きすぎると処理中にメモリが足りなくなってクラッシュします。
- ペアとなるリードは、同じファイルに含めるようにしてください。
- 関係ないファイルをフォルダ内に置かないでください。
この場合、コンティグとコンティグを連結するペアがある場合(例えばContig15にイルミナのリードペアの一方が、またContig16にまた一方が張り付く場合)、コンティグ間を結ぶ灰色の曲線が表示されます。またケース2の時と同様、ウィンドウ「Contig Graph (Task2)」上で「show pair reads with presumed sequence」を実行することで、gapを埋めるのに利用可能である可能性があるイルミナリードを出力することができます。詳細についてはケース2を参照して下さい。