UTProt RDF Platform: ~ タンパク質の機能と構造のためのSPARQLエンドポイント集 ~

応募者の情報
ご氏名 込山悠介, 番野雅城, 鑓水優行, 清水謙多郎[学生]
ご所属 東京大学
e-mailアドレス ykomiyama [at] bi.a.u-tokyo.ac.jp
応募するデータセットの情報
データセットの名称 UTProt RDF Platform: ~ タンパク質の機能と構造のためのSPARQLエンドポイント集 ~
データセットのURL http://www.utprot.net/index.php/semantic_web/
データセットの概略説明 『UTProt RDF Platform』はタンパク質の機能と構造を分子間相互作用から解析するためのデータ基盤であり、RDFのグラフの総数は約300億トリプルである。
データセットの詳細説明 結果:

 我々は創薬や農学への応用に向けてインタラクトーム(網羅的な分子間相互作用の研究)のためのLODのプラットフォームを開発、UTProt RDF Platformと命名した。そのコンテンツはProtein Data Bank(PDB)とPDB Ligandを基にしたProtein Ligand Binding Site Pair (PLBSP)データベース、Universal Protein Resource(UniProt)、European Bioinformatics Institute(EBI)Structure integration with function, taxonomy and sequence(SIFTS)から作成されたRDF-SIFTSなどがある。PLBSPとRDF-SIFTSは2つのコアデータベースであり、それをベースに目的別で軽量化されたSBP(Sugar Binding Site database)やPLBSP residueなどのサブセットLODが誕生した。2013年12月現在のUTProt RDF Platformの総トリプル数は300億トリプルである。

 最終的に全成果をウェブからアクセス可能なSPARQLエンドポイントでオープンデータ(CC-BY)として公開した。各エンドポイントへはhttp://www.utprot.net/index.php/semantic_web/ からアクセスできる。



方法:

 我々はインタラクトームのLODの作成にPDB、PDB Ligand、UniProtのRDFデータを利用した。これに独自にRDF化したEBI SIFTSのデータセットを加えた。また、ガル・サードらの先行研究においてOctreeを用いて計算されたPDB中のタンパク質–リガンド間の原子間距離をRDF化した。

 さらに二次データベースとして作成するLODのコンテンツは、PDB中のタンパク質–リガンド間の原子間距離の情報、チロシンキナーゼ(Tyrosine Kinase)と相互作用を持つリガンドタンパク質との組合せの情報、アミノ酸残基レベルでの糖(炭水化物)結合タンパク質部位の情報、SIFTSに基づくタンパク質鎖レベルでの他主要データベースへのIDマッピングの情報を整理した。我々はこれらの情報についてRDFスキーマモデルを設計し、AllegroGraph 4.11とVirtuoso 7のRDFストア中へ実装した。

アプリ提案・希望   本研究は、インタラクトームLODを用いた機械学習の研究開発支援という位置付けでスタートした。タンパク質と相互作用を持つリガンドの情報が必要な場面があれば農学・創薬・生命医学など幅広い分野に対してデータ提供できる。
データセットの権利指定
表示
原作者のクレジット(氏名、作品タイトルとURL)を表示することを守れば、改変はもちろん、営利目的での二次利用も許可される最も自由度の高いCCライセンス。
関連する作品の情報
関連するデータセット d065
関連するアイデア i043
関連するアプリケーション a095
関連するビジュアライゼーション作品
関連する基盤技術作品

登録情報の修正について

修正の希望がある場合には実行委員会までご連絡下さい。lod-challenge[at]sfc.keio.ac.jp *メールアドレスの[at]を@としてお送り下さい。