研究経過
WebデータベースPODCをメジャー・アップデートしました
May 23, 2018 12:13 PM
Category:研究成果
main:矢野班
データベースPODCは、有用植物種の横断的比較解析と遺伝子機能・発現機構の理解を容易とするために、以下の情報・機能・特徴を持ちます。
・11種のモデル植物・農作物種のオミックス情報(2018/04/04現在)
・網羅的な種間オーソログ(パラログを含む)情報
・個々の植物種の遺伝子発現ネットワーク(GEN)のオーソログ情報による結合・種横断的比較解析機能
・NCBI SRAに登録されているRNA-Seqデータの実験条件に基づく網羅的な分類情報(マニュアル・キュレーション)
・マニュアル・キュレーションによる遺伝子名(Gene Symbol)と遺伝子IDの統合化(紐付け)
・自然言語処理とマニュアル・キュレーションを通して整備した網羅的な遺伝子機能の知識情報(学術文献情報を含む)
今回、新たに、以下の情報を統合し提供しました。
1.マニュアルキュレーションにより集積した約3万件の転写因子・シス因子情報
2.自然言語処理のみによる遺伝子機能情報(マニュアル・キュレーションを通していないドラフト情報)
以下、これらの簡単なご紹介です。
1. 転写因子・シス因子情報(Transcription factor and cis-element)
これまでに集積した転写因子・シス因子情報をPODCに統合しました。タンパク質と遺伝子の結合関係、または結合部位に存在するシス因子配列などの情報を、情報の根拠(実験手法)、引用元(学術論文)の情報と共に提供しています。2018年3月現在、154報の論文から収集した約3万件のレコードを公開しています。
2. 自然言語処理による遺伝子機能情報(Unreviewed automatic NLP curation)
PODCが提供している遺伝子機能の知識情報(高信頼度な遺伝子機能情報)は、自然言語処理(テキストマイニング)からドラフト情報を得た後に、ドラフト情報に対するマニュアルキュレーションを通して構築しています。テキストマイニングは、短時間で多数の情報が得られる一方で、情報に誤りも多く含まれます。また、マニュアルキュレーションは、信頼度の高い情報が得られる一方で、情報の集積に長い時間と労力を要します。これまで、PODCの運営では、マニュアルキュレーションが終了した情報のみを提供してきましたが、信頼度の低い膨大なドラフト情報も遺伝子探索に資することから、公開することといたしました。PODCでは、マニュアルキュレーションより得た知識情報(Knowledge-based functional description)と明確に区別するために、新たに加えたドラフト情報を"Unreviewed automatic NLP curation"として区分・提供しています。知識情報、ドラフト情報ともに毎月更新しており、閲覧だけでなく、ダウンロードも可能です。
[URL] Webデータベース'Plant Omics Data Center (PODC)' http://plantomics.mind.meiji.ac.jp/podc/index.html
[引用文献] 論文などでは以下を引用ください
Plant Cell Physiol. 2015 56(1):e9
[問い合わせ窓口] データベース利用において、お気づきの点やリクエスト(追加希望の植物種、遺伝子ファミリーなど)がございましたら、kyano-bioinfo-db@ml.meiji.ac.jpまでお知らせください。