UTProt: ~ LODと機械学習を組み合わせた創薬のパラダイムシフト ~

応募者の情報
ご氏名 込山悠介, 番野雅城, ガル・サード, 鑓水優行, 植木快,[学生]
ご所属 東京大学
e-mailアドレス ykomiyama [at] bi.a.u-tokyo.ac.jp
応募するアイデアの情報
アイデアの名称 UTProt: ~ LODと機械学習を組み合わせた創薬のパラダイムシフト ~
アイデアの概略説明 生命科学のデータベースから網羅的な分子間相互作用LODを作成し、SPARQLエンドポイントを公開。オープンデータと機械学習予測を組み合わせ創薬分野向けのリガンド結合部位予測用アプリケーションを開発。
アイデアの詳細説明 氏名:込山悠介, 番野雅城, ガル・サード, 鑓水優行, 植木快, 清水謙多郎

(氏名欄に共著者全員が表示されなかったため、ここに記す。)



背景:

 我々は計算バイオセマンティクス(Computational Biosemantics)をセマンティックウェブ(Semantic Web)技術用いて、生命科学の知識をグローバルに統合化し、新しい生物学的な発見を得るためのデータマイニング手法と定義する。農学・創薬・医薬の各領域において生命情報科学の研究を行う上での問題点として、バイオインフォマティクス研究者が多数のデータベースを巡回して、データを集めるためにスクリプトのコーディングをしていたことが挙げられる。セマンティックウェブではベースとなるRDF (Resource Description Framework)を用いてグラフ構造で表現できる。グラフを結合して、そのネットワークを拡張することで、運用中のデータベースに新しい種類のレコードを容易に追加することができる。そして、URI(Uniform Resource Identifier)によってオリジナルのデータが何処のドメインに帰属するかが同定され、データの質が担保される。加えて、高い機械可読性を持つため計算機ソフトウェアを柔軟に設計できる。LOD(Linked Open Data)の網を広げることでデータのライセンス問題もクリアすることが期待できる。本研究では、従来法の弱点を克服する目的で、セマンティックウェブを基盤とした生命科学データベースを開発することを提案する。バイオセマンティクスにより変革を遂げる近い将来のバイオインフォマティクスでは、RDFが標準フォーマットとなる。本研究の目的は、網羅的な分子間相互作用であるインタラクトーム(interactome)におけるバイオセマンティクスを実現するためのデータベース統合とツール開発の支援である。その意義は、データ自身の次世代化により知識循環プロセスの速度を上げ、情報生命科学者の研究開発の促進と、実験生命科学者の利便性を高めることにある。



結果:

 我々は分子間相互作用のための統合グラフデータベースが開発した。それをUTProt RDF Platformと命名した。その内分けはPDBとPDB Ligandを基にしたPLBSP (Protein Ligand Binding Site Pair database)、UniProtとEBI SIFTSから作成されたRDF-SIFTSである。PLBSPとRDF-SIFTSは2つのコアデータベースであり、それをベースに目的別で軽量化されたSBP(Sugar Binding Site database)やPLBSP residueなどのサブセットLODが誕生した。2013年12月現在のUTProtの総トリプル数は300億トリプルである。


これらのデータベースはJST NBDCの統合化推進プログラム (統合データ解析トライアル)における『 機械学習を用いたタンパク質-リガンド結合部位予測ツールの自動生成パイプラインの開発』を支援した。開発されたプログラムはパイプラインにおいてモジュール化されている。そのパイプラインはウェブ上で利用できるワークフローシステムUTProt Galaxyとして公開された。


UTProt Image ではアプリケーションを開発する際に必要となるグラフィックスにオープンライセンスを与えて公開している。約48万件のタンパク質とリガンドのイメージが登録されている。そのうち40万件はHPC(High Performance Computing)によってLigplotで並列計算したタンパク質–リガンド結合部位の2Dグラフィックスである。


これら一連のインタラクトームのためのツールとデータベースを統合したポータルサイトがUTProtである。



結論:

我々はバイオセマンティクスの手法を用いることで、バイオインフォマティクス研究者がウェブ上に散在した生命科学データベースを巡回しなくても、必要な情報を入手できるRDFプラットフォームを開発した。それらの基盤データベースを拡張し機械学習による分子間相互作用予測ツール開発の支援を行った。その結果、アプリケーションの開発期間を大幅に短縮することができた。予測ツールはウェブ上でワークフローのモジュールとして実行できる。データベース開発者向けにオープンライセンスが付与させたイメージ48万件を公開した。ライセンスは全て『Creative Commons 表示 (CC-BY)』で運用する。いずれもウェブアプリケーションとして公開しているため、バイオインフォマティクスの非専門家にとっても利用しやすい実装といえる。セマンティックウェブは将来的にバイオインフォマティクスの基盤になり、その上で二次データベースやアプリケーションが出現し、WWWを通じたさらなる知識発見を行うのが計算バイオセマンティクスである。UTProtのサービスはウェブブラウザからhttp://utprot.netへアクセスすることで利用できる。




*注:本アイデアは2013年度日本バイオインフォマティクス学会年会で発表したものである。

Yusuke Komiyama, Masaki Banno, Gul Saad, Masayuki Yarimizu, Kokoro Ueki and Kentaro Shimizu, UTProt: Database Integration and Tool Development for Interactomics Utilizing Biosemantics, 2013 Annual Convention of Japanese Society for Bioinformatics, 81-82 , (2013).




投稿時に【アイデアの投稿】へのファイルアップロードにてエラーが出たため、下記URIのPDFを参考にしていただきたい。


http://utprot.net/files/4113/8933/1147/A0postar_a.pdf


投稿したアイデア
関連する作品の情報
関連するデータセット d064 d065
関連するアイデア
関連するアプリケーション a095
関連するビジュアライゼーション作品
関連する基盤技術作品

登録情報の修正について

修正の希望がある場合には実行委員会までご連絡下さい。lod-challenge[at]sfc.keio.ac.jp *メールアドレスの[at]を@としてお送り下さい。