このドキュメントは
What the Semantic Web can represent
http://www.w3.org/DesignIssues/RDFnot.html
の和訳です。
この文書には和訳上の誤りがありえます。
内容の保証はいたしかねますので、必ず正式版文書を参照して下さい。

Tim Berners-Lee

Date: September 1998. Last modified: $Date: 1998/09/17 20:10:41 $

Status: . Editing status: Comments please. An parenthetical discussion to the Web Architecture at 50,000 feet. and the Semantic Web roadmap.

Up to Design Issues


ここでは、セマンティックウェブであること・・・あるいはそうでないことの現状を述べ、さらに他のデータモデルがいかに有向グラフに位置付けられるかということを述べる。

セマンティックウェブが表現できること

RDFのDLGと非常に似通っており、その上にRDFを位置付けられような多くのモデルというものが存在している。このページではそのようなモデルの類似性と差異を枚挙することを意図しており、どのようにそれらを位置付けるのが適切であるか、またその過程においてどのような情報を補足すべきかを示してゆく。 DLG以外のモデルは果たされ得なかった過去のコンピュータサイエンスと関連しており、いまや解くことの出来なかった問題として公知の事実となっているが、それはセマンティックウェブが最終的に行き着くところも不適切ではないかという懸念を示唆している。

セマンティックウェブと多くのプログラム言語のデータモデルとの間で終始一貫している相違点というのは「閉仮説世界」である。

セマンティックウェブは人工知能ではない

計算機が理解可能(machine-understandable)なドキュメントという概念とは、機械が人のつぶやきを理解できるかのような何か特別な人工知能を暗示しているわけではない。それは単に、良定義された(well-defined)問題を良定義された(well-defined)オペレーションによって、良定義された(well-defined)データが存在している前提で解決する機械の能力のことを示しているだけである。人々が使用する言語を機械に理解させようというのではなく、人に対してさらなる努力を払うことが求められるという意味である。

定義することは単純ではあるが、セマンティックウェブと同じパワーを持つRDFは言語を完全なものとするであろうし、そこではパラドックスとトートロジーが表現可能であり、その内部では回答がウェブ全体を探索することを求められ、導出に際し考えられないほどの多くの時間を要求するような句形式での質問が可能である。このことは言語が完全なものとされるのを妨げるのではない。メカニカルなRDFアプリケーションはそれぞれ、RDFの使用を意図的に特定の言語のみに制限するようなスキーマを用いることになるであろう。しかしながらRDFウェブ間でリンクが形成される際には、その結果は膨大な量の情報を表現したものとなるであろう。セマンティックウェブが世界を記述するための全ての種類のデータを含めることができなければならないので、言語それ自身は完全に表現力に富んだものでなければならない。

セマンティックウェブは、全てのアプリケーションに対して自由で複雑な表現を使用するよう要求しているわけではない。

言語自体は任意の複雑さと計算可能性を持った表現に寛容であるが、実際問題としてRDFを生成するアプリケーションは、アクセスコントロールリストや個人の趣向あるいは検索基準のような単純な表現を生成することに限られるであろう。これは、"not"が必要とされる場合に、どんなRDFエンジンもそれを"not"として認識できるような標準的語彙からの取り出しをすべきでないといっているわけではない。

(つづく)

セマンティックウェブは、証明の生成を要求しているわけではない:証明が評価できれば充分であろう。

ウェブサイトのアクセスコントロールを扱うような初期の使われ方では、前もって準備されている証明に対する評価は要求されるであろうが、任意の質問に対する回答として、正しい証明手順を見つけることは要求されないであろう。 任意の質問に対する証明の生成と探索は、一般的に現実世界の多くの問題に対する扱いにくいプロセスであることが良く知られており、RDFはこの(解くことのできない)問題を解決できるほど役立つことを要求されてはいない。

セマンティックウェブは、かつて不成功に終わった実験を改めて行うものではない。

この点で、他の知識提示システムとの関係について懸念が生じる。その知識システムとは:KIFcyc といった、以前にプロジェクトとして実行されているものではないだろうか?その回答は"yes"である。多かれ少なかれそのようなシステムは長期にわたり発展してきた。それらはセマンティックウェブにデザイン経験を与え、セマンティックウェブは同様なプロジェクトにリーズニングエンジンを発展させるためのデータのソースを与えるだろう。

多くのKRシステムは、二つの分けられている知識ベースを結合するあるいは相互関係をもたせる問題を抱えており、そのモデルというのはあらゆる概念が一つであり知識の木構造中でもそれが占める場所は一つであるというものである。それゆえKRシステムとは拡大しなかった、換言すれば、独立した発明としては成功している。[evolvability 参照] 対照的に、RDFの世界はこのために考えられており、元来より独立した概念間の関係についての遡及的な文書化である。

知識表現はグローバル化する

知識表現は現在のところ、当初は興味深いという評判を得られているように見える分野である。しかしそれは支持者が望むほどまでに世界を揺さぶったようには見えなかった。知識表現は小さなスケール上での限定された利用においては意味があったが、大きなスケールでは決して意味を為さなかった。これはまさに以前のWebにおけるハイパーテキスト分野の状態である。各々の分野はある中央集権的な仮定を作ってしまっており -- もしそれが哲学上のものでなければ、実装上のものであり、その仮定はその分野を広範囲に拡大することを妨げていた。しかし、各々の分野は根本的に健全な考え方に基盤を置いているものである。 Web初期のころハイパーテキストに対して行ったグローバル化のプロセスと同様なことを知識表現に対して行うならば、そこで得られるものこそセマンティックウェブである。 絶対的な真理、完全な知識そして完全な証明可能性といった中央集権的な概念を取り除き、限定的な知識に対して我々ができることを確かめよう。

セマンティックウェブとエンティティ-リレーションシップなモデル

RDFモデルはエンティティ-リレーションシップモデルであろうか?yesでありnoである。それは巨大なERモデルの基礎としてすばらしいものであるが、RDFはその他の物事にも同様に用いられるというために、RDFはより一般的である。 RDFはエンティティ(ノード)と関係のモデルである。もし、あなたがデータに対し"ER"モデリングシステムに慣れているのなら、そのRDFは基本的にWebで動作するERモデルの第一歩である。典型的なERモデルはエンティティタイプを含んでおり、エンティティタイプにはそれぞれにリレーションの(典型的なERダイアグラムに入る)集合がある。 RDFモデルもリレーションシップが第一クラスのオブジェクトであることを除いては同様であり、そのオブジェクトとは:URIによって特定され、誰もがそれを作成することができるものである。さらに、オブジェクトのスロットの集合は、あるオブジェクトのクラスが定義されている時には定義されない。けれどもWebというものは誰かが何かについて何かを言うことを(技術的に)可能にするように動作する。これは、二つのオブジェクト間の関係は、それら二つのオブジェクトについての他の全ての情報から離して保存されるべきであることを意味する。 これは、しばしばERモデルの実装として用いられるオブジェクト-オリエンテッドなシステムとは異なっており、それは一般的にオブジェクトに関しての情報はオブジェクトの内部(:そのオブジェクトのクラス定義はそのプロパティを暗示するストレージを定義するような)に蓄えられるべきと仮定されているものである。

例えば、ある人は車輪と重量と長さは定義してあるがしかし色に関しては言及していないような乗り物を定義するかもしれない。このことは、どこかで他人が色に関する語彙を用いることで、車が赤であるという主張を妨げるものではない。

この単純なだが重要な変更はさておき、ERのモデリングを含む多くの概念は直接セマンティックウェブモデルへと引き継がれている。

セマンティックウェブと関係データベース

セマンティックウェブデータモデルはまさに関係データベースと直結している。関係データベースはテーブルで構成されており、それは列かレコードとからなる。それぞれのレコードはフィールドの集合からなっている。レコードとはそのフィールド内容に過ぎず、それはまさにRDFノードがその関係:属性値に過ぎないのと同じである。そのマッピングは非常に直接的であり、

確かに、セマンティックウェブの主要な推進力の一つは、常にいわれている通り、ウェブ上で膨大な量の関係データベースの情報を機械で処理可能とすることである。

RDFのシリアル化形式 -- そのシンタックスはXMLであるが -- は関係データベースの情報を表現することに非常に適した形式である。

関係データベースシステムは、RDFデータを扱うが、非常に特化された方法による。テーブル内部では、同じプロパティの集合を持った多くのレコードが存在する。独立したセル(それはあるRDFプロパティと比較して)はそう度々自身について考慮されはしない。 SQLクエリーはテーブルを結合し、そこからデータを取り出すことができるが、その結果は一般的にテーブルである。それゆえ、現実的な利用状況では、RDBソフトウェアは典型的な利用状況に合わせて、たくさんのエレメントを保持できるような少数のテーブルの操作できるように最適化されている。

RDBシステムはRDFやXMLの現在あるいは今後がそうであるように、アトミック(構造をもたない)レベルでデータタイプを持つ。 RDBにおける結合法則は無秩序に強化される傾向にある。その枠組みでは、クエリーはテーブルをデータタイプが一致するどのカラムによっても結合させることができ--その際セマンティクスの検証が行われることはない。例えば、あなたは従業員の靴のサイズと同じ部屋番号の家のリストを作成できる。どの従業員にとってもその意味は疑問符のつくところであろうが。

セマンティックウェブは単に新しいデータモデルとして設計されたのではない - 特に多くの異なったデータモデルのリンク付けに対して評価されるべきであろう。特筆すべき点の一つは、ウェブ上の異なったデータベースに関する情報を付加することである。

RDFは推論システムではない

私はFPOCやHOLといったあらゆる推論エンジンを推薦しているわけではない。 HOLでは、扱う対象がSQLからAIまでの異なる推論エンジンを使用するシステムを複数統合することが許されていることを、単に著者は述べているだけである。例えばシンプルなHOLは、あらゆるSHOEルール、データ、そして結果の表現を認めており、SHOEエンジンによって見つけられた証明は誰でも検証できるものである。

全ての一階もしくは高階の述語計算ベースシステム(KIFのような)は歴史的に見ると広範囲なインパクトを与えるには至らなかったのであろうか?

1970年から1990年すなわちウェブ以前におけるハイパーテキストシステムについても同様のことが言えるであろう。実際に、同様の意見がウェブ上でも上がっており、同様の理由がその夢を押しつぶすことに用いられている。

全てのそのようなシステムにおける問題は、それらが概念的あるいは物理的に集中化されているということである。それらのリンクは広範囲な無矛盾性を要求している。

何故であろうか? KIFは知識を纏め上げるアプローチが非常に集中化されており(例えばcycオントロジーは、皆が一般的な英単語に対して同じターム(を用いること)に同意しており、RDFはそうではない)そしてそれは、その概念を一階のウェブオブジェクトへと増進させるわけではない。一般にKIFあるいはKRをウェブ化するということは多くの方法があり、ハイパーテキストをウェブ化するのに多くの手法があるのと同様である。識別子をURIに置き換える。広範囲な無矛盾性に対する要求を取り除く。批判的な大衆を獲得するために特別な努力を払う。黙って待つ。

FOPCで表現可能な多くのことは効果的に計算可能ではないというのか?

全く正しい。SWが目指すところは現実世界を描写することである。現実世界における多くの物事、我々が直面する現実の問題は、効果的に計算可能ではないものである。これには二つの解決法がある:古典的な(web以前の)解決法は全てのクエリーが有限時間で完結するように言語表現に制約を加えることである。ウェブ的解決法は、現実社会を描写するのに十分フレキシブルでパワフルな総合的な言語で、事実とルールによる表現を認めることである。特定の制約が特定の計算プロパティをもたらすようなウェブのサブセットを作ることである。アナロジーとはウェブ以前から存在していた人−情報システムである。たいていは、データを階層深さがしばしば固定された階層に保持することや、特定の次元数のマトリックスに保持することを強要していた。これはそのインフォメーションシステムにおいては無矛盾なプロパティを与えた。 DARPAはこれらのシステムの多くを保持しており、それがまだ続くであろうことは筆者が保証してもよい。それらが統合され得る唯一の方法は、それらをよりパワフルな言語-グローバルなハイパーテキスト-によって表現することであった。ハイパーテキストはこれらを再保証するようなプロパティを全く持ってはいない。人々はそのなかで途方にくれる恐れがある。リンクは無限に辿ることができる。それが判明し、ウェブ上でのリンクを永遠にたどることができてしまうという問題があるのももちろん真実である。そしてセマンティックウェブ上では、推論エンジンは停止する必要性は無いであろう。しかしながらそのウェブ上では、寿命がよく順序付けられており、わかりきっている多くのウェブサイトのような多くのサブシステムが存在し、そして検索は決定的な結果をあたえ、参照先の無いリンクは存在しない。 しかし、順序付けのあるなしに関わらず他のシステムの全てと結合されることを可能にする方法で、この情報の全てを晒すことには大きな利点がある。 

我々は非決定的計算を含むベース推論のレベルを期待すべきではない

SWコア設計において、私は推論能力を全く期待してはいない。セマンティックウェブは標準でHOL推論を保持しているわけではない。セマンティックウェブに沿ったどんなデバイスでもHOL証明を評価できる期待はある。しかし証明の生成 を期待はしない。

もしnon-HOL-完全な言語を用い、それをHOLに拡張するならば、初めに方向性を(HOL言語を定義し、初めにSHOEを表現する)定義なくしては、結局のところ非常に凝り過ぎたHOLで終わってしまうであろう。

FOPC推論モデルは過度に矛盾に対して不寛容である [i.e. P(x) & NOT (P(X)) -> Q], セマンティックウェブは多くの種類の矛盾に対して寛容でなければならない

矛盾に対する寛容さはファジーシステムにおいてのみ実現可能である。我々は保証を提供できるセマンティックウェブを必要としており、それは論理を用いて判断ができるという保証である。ファジーシステムは証明を発見するのには適しているかもしれないが--しかしそれから遡ることができるべきであり、誰もが検証できるunifying HOL言語を用いた証明を生成して、それぞれの導出の正当性を論理的に示すべきである。あらゆる本当のSWシステムは、ウェブ上で読み込んだものを信用するのではなく、あらゆる情報のソースを検証することで動作するようになる。(人々も同じようにウェブのソースを検証できるようになればよいが!)それゆえ実際には、あるルールが、特定のキーによってサイン付けされた特定の形式のステートメントのみからシステムが物事を推論することを認めている。 そのようなシステムの内部では、周囲で動作している何かではなく、ある一つの矛盾が重大な問題を引き起こす。もし、私の残高が銀行では100ドルと示され、自分のコンピューター上では200ドルと示されているならば、問題を解決する必要がある。卑見では、同様のことがミサイルの発射にもいえる。セマンティックウェブモデルは、ステートメントの有効グラフとして構文解析されたドキュメントに対するURIのデリファレンスである。そのステートメントはURIをパラメータとして持つことができ、それゆえにドキュメントおよびその他のステートメントに対するステートメントとなっている。それゆえ、セマンティックウェブは信頼でき、理にかなったものとなっており、自分の表現する情報を信頼性のある無矛盾のデータに制限することができる。

さらに、高階論理への拡張は筆者にとっては意味のあることだが、FOPC推論モデルの要求は危険に思われる

殆どのKRシステムは推論における内部情報(tips)により情報が混乱する。システムがあるルール娘の娘は孫娘(a daughter of one's daughter is one's grandaughter)を格納する際には、特色としてそのステートメントの形ではなく、特定の時間に(例えば、両親の娘という記述が発見された場合)アルゴリズムから参照されるような表形式のルールで格納される。データとさまざまな型のルールとの分類は、その言語自身では表現されない一般的なメタレベル情報の一種である。二つのシステムはルールの型が互いの推論エンジンにとっても未知であるような状態の時でさえも、ルールの論理的な意味を置き換えられ得るべきである。(もちろん一般的な論理で記述され得るルールは他のシステムによってもルールとして認識され得るべきであるしそのように取り入れられるべきである。)上で述べた例は論理的には次のように示される。

∀α,β,χ (d(a,b) & d(b,c) => gd(a,c))

しかしながら、例えばSHOE-basedシステムとAlgernon-basedシステムは、ルールの適用回数もシステムも異なったものとなっている。

概念グラフとセマンティックウェブ

筆者による概念グラフとセマンティックウェブの関係について別の記載がある。


順不同のリファレンス - 以下の他ページを参照のこと

Shoe

Web上でのKRに関するリファレンス from Tim Finin:

IJCAI-99 Workshop on Intelligent Information Integration, からの関連文書を示す。最初の文献は、概要を把握するのに適している

他に興味深い文献を示しておく...

Embedding Knowledge in Web Documents, Philippe Martin and Peter Eklund, Eighth International World Wide Web Conference, Toronto, May 11-14, 1999.

Ontobroker: Or How to Enable Intelligent Access to the WWW, Dieter Fensel, Stefan Decker, Michael Erdmann, and Rudi Studer, Eleventh Workshop on Knowledge Acquisition, Modeling and Management, Voyager Inn, Banff, Alberta, Canada, Saturday 18th to Thursday 23rd April, 1998

もし背景としてのcycに関して、良い概略となる文献をお探しなら

CYC: A Large-Scale Investment in Knowledge Infrastructure Douglas B. Lenat, CACM, 1995. 筆者の手元にあるローカルコピーはこちら http://www.cs.umbc.edu/471/papers/cyc95.pdf