next up previous
Next: 考察 Up: STARTS : Managing Search Previous: 目的

問題領域とアプローチ

メタサーチは現在で困難な作業である。 なぜなら、異なるサーチエンジンは全体的に非互換で、相互運用性がないからである。 メタサーチは次の3つの問題に直面している。

1.
情報資源のメタデータの問題
メタサーチの検索は数多くの情報資源が対象なので、 検索式の実行に最適の情報資源を選ぶための情報資源のコンテンツに関する情報が必要となる。

アプローチ

STARTSでは情報資源自身について送るべき情報を定義している。 この情報は最適の情報資源の選択を支援する 自動生成されたコンテンツの要約を含んでいる。 また、検索質問の機能も記述している。

2.
検索質問の問題
メタサーチは複数の情報資源にまたがって検索式を与えるが、 各情報資源のインタフェースと機能は大きく異なるので、元の検索式を各情報資源の文法と機能に合わせなければならない。

アプローチ STARTSは情報資源がサポートすべき単純な検索質問言語を定義している。 これはZ39.50の単純なサブセットである。 STARTSの検索質問は2つの要素からなっている。 検索式を満たす文書を示すブール式と、 文書にスコアを付け、これに従ってランク付けを行なうランキング式の2つである。 また、STARTSはフィールド(author、titleなど)を指示するセットや 修飾子(シソーラス、ステミングなど)を指示するセットも定義している。

3.
ランクのマージの問題
多くの商用システムでは検索式と文書の類似度によって文書をランク付けしている。 メタサーチでは異なる情報資源で文書のランクがどのように算出されたかについての情報が手に入らないので、検索結果をマージするのは困難となる。

アプローチ STARTSでは情報資源が検索式に対する結果と一緒に何らかの統計情報を返すことを必要としている。 この方法では、メタサーチャは情報資源が文書に付けたスコアを無視し、 この統計情報からスコアを計算できる。 メタサーチャはこの新しいスコアをもとに文書をランキングできる。 例えば、統計情報には文書中の検索キーワードの出現回数が含まれる。



Masao Takaku 平成11年3月12日