GenomeMatcher project homepage
GenomeMatcher, a graphical interface for comparative genomics

Contents

Link

StringFormatter

文字列を取り扱うための機能です。改行コードの変更、複数同時検索置換、指定タグに囲まれた文字列の変換、など通常のテキストエディタにはできないような機能がついています。表計算シートで編集したデータをワンクリックでmulti FASTA形式に変換する機能もついています。

はじめに

StringFormatterは文字列を取り扱う機能です。Stringとは「ヒモ」の意味ですが「文字列」の意味もあります。操作画面を見ていただくと、何ができるのかおおよそおわかりいただけるかと思います。ここでは操作画面を見てもわかりにくいことについて説明します。改行キー(改行コード)についてはこちらを参照してください。

実行例1 「改行コードを調べる」

調べたいテキストをペーストすると左下に使われている改行コードの数が種類別に表示されます。

実行例2「文頭に>を追加し、タブを改行に変換」

表計算シートで編集したデータをmulti FASTA形式に変換します。表計算シートで「FASTAのheadderにする文字列」と「配列」を隣り合ったセルで編集します。

これをメインテキストフィールドにペーストして、「文頭に>を追加し、タブを改行に変換」ボタンを押すと、multi FASTA形式に変換されます。

逆にmulti FASTA形式を、表計算シートに貼れる形式に変更する機能もあります。

実行例3 2つのタグに挟まれた文字を変換

例えば以下のような使い方が考えられます。

それ以外にも工夫の仕方でいろいろ便利に使うことができます。

実行例4 改行やタブを含んだ検索置換

改行やタブを含む文字列を検索置換することができます。例えば、複数行よりなるデータの行頭にある余計なスペースを取り除くときには、<改行文字+スペース>を<改行文字>に変更します。テキストフィールドに改行やタブを入力するには、画面下部にあるテキストフィールド中のこれらをコピーすると良いでしょう。これらの文字は見えないので気を付けてください。

実行例5 複数同時検索置換

1をAに、2をBに、3をCに変更したいときは、テキストフィールドに下図のように入力して変換ボタンを押します。

複数の配列から系統樹を作成した場合に、配列のヘッダーをアクセッション番号にしてしまったとしましょう。そうすると系統樹は、アクセッション番号が枝の末端に書かれた系統樹になってしまいます。このような系統樹のアクセッション番号を例えばその配列が由来する種名に置き換えると、系統樹がずっとわかりやすくなります。このような時に複数同時検索置換機能が役立ちます。つまり、1アクセッション番号とそれに対応する種名をリストとしてつくり、系統樹のデータファイル(多くの場合テキストエディットなどで開くことができます)の中のアクセッション番号を種名に一括変更します。

実行例6 DDBJに配列を登録するときのための機能 <公開準備中>

DDBJでは、多数のFeatureを含む配列を登録する際には、Mass Submission Systemを使うことが推奨されています(詳しくはこちら)。そのとき"アノテーションファイル"を登録者が準備することになりますが、「アノテーションファイル」の形式は、表計算シートで簡単に編集できるような形式ではありません。この機能は、表計算シート上で編集したデータを、「アノテーションファイル」が要求する形式に変更するための機能です。また本機能はデータ形式を変換するだけの単純なものであり、変換後のデータが、問題のないアノテーションファイルとなっていることを保証するものではありません。必要に応じて、DDBJが公開してるUME等のツールを使ってアノテーションデータの不具合を解消してください。

入力データの例を示します。

先頭の行はカラムヘッダーとして使用されます。A列目からD列目は、順番に、feature_key、開始位置、終了位置、向きです。開始位置 < 終了位置である必要があります。また向きは1または-1で指定します。E列目以降には値を設定するクオリファイアを入力してください。ここではクオリファイアとして「product」、「gene」、「note」、「note」、「bound_moiety」が使用されています。

2行目以降に、必要なデータを入力します。1行あたり1件の注釈データを格納します。各データについて、ヘッダーで指定したクオリファイアについて値を指定しない場合は、対応するセルを空欄にしてください。クオリファイアとしてpseudo、ribosomal_slippage、trans_splicingを使用する場合、各データの対応する値を、それぞれクオリファイアと同値として下さい。

必ずヘッダー行を含んでデータをコピーし、StringFormatterにペーストして入力し、変換を実行してください。

注意とヒント

置換機能は対象となる語句がなくなるまで繰り返されます。この点に十分気を付けて下さい。例えば、「1」を「11」に変換、とすると永遠に置換作業を繰り返し最終的にはメモリが足りなくなってクラッシュしてしまいます。これは複数同時検索置換の場合も同様です。この場合強制終了する以外に実行を中断する方法はありません。

複数同時検索置換は、上の行から順番に置換する機能です。文字列「1」を「1をAに変換」「AをBに変換」とすると、最終的に「B」に変換されます。

当該チェックボックスがオンになっていれば、&tをタブ文字、&rと&nを改行コードとして指定できます。

テキストフィールドについての注意はこちら。