GenomeMatcher project homepage
GenomeMatcher, a graphical interface for comparative genomics

Contents

Link

RecordMatcher

2つのデータのペアがあるとき、その一方を指定することで、もう一方を知ることができる機能です。例えば、郵便番号と住所の関係があるときに、郵便番号を指定すると、住所を知ることが出来ます。郵便番号が1件しかなければ検索機能などを使ってすぐに答えを知ることができますが、郵便番号が10000件あってその対応する住所を調べなくてはならいとしたらどうでしょうか?RecordMatcherはそのような問題を解決します。

はじめに

1対1の関係よりなるデータはよく見られます。例えば、

等です。ここで対応関係の前者をkey、後者をvalueと呼びます。全てのkeyとvlaueの関係はあらかじめ決まっておりリスト化されているとします。kyeはユニークな値でリストの中で一度しか出てきません。例えば、KEGG番号がkeyでプロダクトがvalueです。KEGG番号はユニークな番号でリストの中には同じKEGG番号は1回しかでてきません。

keyとvalueの指定の仕方

表計算シートでkeyとvalueを編集します。1行あたり1つの関係を入力します。各行の最初のセルがkey、それ以後のセルがvalueとなるように編集します。すなわちkeyは1列で編集しなくてはなりませんが、valueは複数列にわたって編集することができます。

緑色の部分が、key、黄色い部分がvalue。

調べたいkeyの編集

調べたいkeyについても表計算シートで編集しておきます。keyが3つだけ入力されていますが、もっとたくさん入力することもできます。

実行

keyとvalueの関係を表計算シートからコピーペーストして左側のテキストフィールドに入力します。また調べたいkeyを真ん中のテキストフィールドに入力します。そして実行ボタンを押します。

返ってきた結果の処理

右側のテキストフィールドに結果が返ってきますので、内容をコピーして(keyを用意したシートに)ペーストします。これで完了です。ここでは例として限られた件数の処理について示しましたが、50000万件の対応関係から5000件の検索をしたりすることができます。

注意とヒント

この機能を効率良く使うにはkeyとvalueの関係を表計算シートにまとまった形で持っておく必要があります。これらの関係を表計算シート上ですぐ使えるようにして持っておくと、効率良くkeyに対応する値を得ることができます。COG番号やKEGG番号とプロダクトの関係などよく使う1対1の対応関係はすぐ使えるようにしておくと良いでしょう。

万一同じkeyを2回以上指定してしまうと、下の行で指定した関係の方が優先されます。この際エラー表示などは出ないので同じkeyを2回以上指定しないように気を付けてください。なお、keyは厳密に区別されます。大文字と小文字は区別されますし、スペースなどがあればそれも区別されます。「A」と「A 」は別のものとして認識されます。