ContigDeepAnalysisの機能

ContigDeepAnalysisは任意のコンティグについて、コンティグを形成するリードを詳細に解析するのに有用な機能です。showメニューから、「ContigDeepAnalysis」を選択してください。本機能を使用するには、newblerでアッセンブルを行ったときに出力される2つのファイル「454Contigs.ace」と「454ReadStatus.txt」が必要です。本機能を利用すると、(追加実験なしに)スキャフォールド内のgapを埋めることができる場合があります。

前処理について

「454Contigs.ace」ファイルは極めて巨大なファイル(数GBになることもあります)なので、この機能を使用するには、あらかじめこのファイルに対して前処理を行う必要があります。前処理を行うには、「454Contigs.ace」を、メイン画面で指定したフォルダにいれた上で、ContigDeepAnalysisウィンドウ中の「get ready」ボタンを押してください。このボタンを押すと、intermediateFileという名前のフォルダが作成され、このフォルダ内に必要な中間ファイルが保存されます。ファイルサイズにもよりますが、10分から30分程度かかります。処理の進行具合は、intermediateFileフォルダ内を見るとある程度推測できるかと思います。前処理は一度だけ必要です。

使い方

前処理終了後、解析対象コンティグの番号を指定した上で、load contigボタンを押します。そうすると、そのコンティグを形成するすべてのリードが表示されます。各リードの右端にはリードの向き(->または、<-)とリードIDが表示されます。またクオリティスコア、およびdepth(倍率を指定可能)を示す折れ線と、各ポジションの得票率を表すカラフルな線が表示されます。

load contigボタンを押すときに、「reverse」スイッチにチェックを入れておくと、リバースコンプリメントされたコンティグ配列が表示されます。

2通りのリード群について

load contigボタンを押したときに、2種類のリードデータ群がソフトウエア内部に準備されます。1つは、解析対象コンティグを形成する全リードデータ群です(リード群A)。もう1つは、全リード群から、特定の条件を満たすリード群を抽出したものです(リード群B)。この2つのリード群のうちどちらを表示するかはチェックボックスで指定することができます。「特定の条件」については3種類指定することができます。これらは、(1)指定したコンティグと関連がある、(2)指定したコンティグと関連がない、(3)指定したコンティグと関連がある、という条件です。(1)と(3)は全く同じ表現になっていますが、詳細については追って説明します。ここで関連があるとは、あるリードまたはそのリードのペアとなるリードが指定したコンティグに含まれていることを指します(下図)。


リードの一端が指定コンティグ6に含まれている場合(下の赤矢印)と、リードのペアが指定コンティグ6に含まれている場合(上の赤矢印)

また指定するコンティグについては、解析対象コンティグに対する向きを指定することができます。またコンティグは半角スペース区切りで複数指定できます。(1)の条件についてですが、例えばコンティグ5とコンティグ6に重複コンティグ355が挟まれている場合、コンティグ355をloadするときに、5+ 6-を指定します(下図)。このように指定することで、コンティグ355を形成するリード集合のうち、コンティグ5+またはコンティグ6-に関連のあるリード集合が、データ群Bとして準備されます。なぜ向きまで指定する必要があるかについては下図を見てください。5と6の間の重複コンティグ355を解析するのに、向きまで指定しないと、6の後にあるcontig355関連のリードが表示されてしまいます。

(2)の条件では、あるコンティグと関連があるリードを排除することができます。(3)については、リードをさらに絞り込むことができます。例えば、(1)でコンティグ5+またはコンティグ6-に関連のあるリードを指定した上で、(3)で12+ 15+を指定すると、コンティグ5+またはコンティグ6-に関連があり、かつ、コンティグ12+またはコンティグ15+に関連があるリードを指定することになります。なお、(2)と(3)についてはよほど込み入った部分について解決しようと思わない限り必要がありません。これら3条件の変更は「load contig」しない限り反映されません。

その他の絞り込み

表示させるリードについては、さらに絞り込みをかけることができます。1つは、リードIDの接頭辞による絞り込み、もう一つは指定する位置が指定する塩基であるリードによる絞り込みです。前者については、接頭辞は複数(半角スペース区切りで)指定できます。例えばイルミナリードの接頭辞が@であれば、これを指定することでイルミナリードのみを表示できます。後者については、コンティグ中の位置と配列をセットで指定します。コンティグの配列は、リードをアラインするために*がたくさん挿入されていますが、*を含めた位置を指定します(位置を確認するには、位置を確認したい塩基にカーソルを合わせてください)。エクセルシートで以下の様に編集して、コピペで入力してください。

リードのマーキング

<作成中です。しばらくお待ちください>マークしたい配列と、その配列にどのような色を付けるかを指定できます。配列は複数指定できます。また色は文字列で指定しますが、文字列と色の関係は、「GenoFinisher」メニューの「color settings」により確認/変更できます。

リードの選択

各リードはクリックして選択できます。シフトキーを押しながら、ドラッグするとマウスポインタが通過したリードを選択できます。またコマンドキーを押しながらであれば、リードの選択/脱選択を個別のリードについて行えます。選択したリードの数は画面上に表示されています。

またリードから作成したコンセンサス配列を選択することができます。このとき選択した配列がペーストボードにコピーされます。なお選択終了時にオプションキーが押されていると配列中のアスタリスクが除かれたものが、コピーされます。

リードの編集

リードをダブルクリックすると編集モードに入ります。また選択しているリードが1つの場合、カーソルキーを用いてリードを動かすことができます(ただしリードを折返し表示している場合はうまく機能しないように見えます)。

リードのコンテクストメニュー

リードのソートやリードの削除をすることができます。ソートについては、全リードソートおよび選択リードソートができます。削除についても、コンテクストメニューの呼び出し元のリードの削除、および、選択中の全リードの削除ができます。

nについて

多数決の票が割れているところを、強調表示するようになっていますが、どれぐらい表が割れたら強調表示するかを指定します。例えばnに3を指定すれば、三分の一以上がコンティグの配列と異なる場所が強調表示されます。

使い方

リピートコンティグ内にバリエーション塩基がある場合、本機能を使って表示するリードを絞ると、そのバリエーションについて明らかにできるケースが多々あります。下図の左側はリピートコンティグ355について全リードを表示した結果です。背景をシアン/黄色にした部分で、「票が割れている」のがわかるかと思います。一方右側では、contig5+と6-を指定して、リードを表示したときの結果です。このコンテクストでは、この部分の配列は、ACTTTCではなくATTTTCであることがわかります。なお、図の上の方の青いピークは票が割れている部分を示しています(1位以外の票の合計が占める割合)。この青線を見ることで、リピート内のバリエーションの有無を確認することができます。

<その他のヒントと注意>

  1. 文字サイズを変更できます。
  2. 表示したい場所を、塩基番号を指定して表示することができます。
  3. depthは表示レートを変更できます。
  4. コンティグを形成する全リードをテキスト形式で出力するには、コンティグ番号を指定した上で(複数指定可)、export reads in contigsボタンを押してください。この際、上記の3条件のいずれかが指定されていれば、その条件を満たすリードのみが出力されます。
  5. コンティグ配列にカーソルをあわせると、そのポジションを形成するリードのうち、リードの一端が別のコンティグ内にあるリードについて(つまり2つ以上のコンティグにまたがって存在するリード)、リードの末端がどのコンティグにあるかについてと、そのようなコンティグについての票の割れ方の内訳を示します。重複コンティグ中の票が割れている部位について、この情報を見ると、どのコンティグとつながっている場合に、その配列が何であるか、について知ることができる場合があります。ここで表示される情報は「454ReadStatus.txt」ファイルに含まれる内容に基づいていること、またリードの末端がどのコンティグにあるかについてのみ評価しているため、表示されているリードの本数などとは必ずしも一致しません。