next up previous
Next: History Previous: Inverted File Structure

N-Gram Data Stractures

N-グラム (N-Grams) は合成のための特殊な手法、 情報システムにおける独特のデータ構造とみなされている。 N-グラムはある決まった長さ``n''文字からなる文字列である。 一般的に語の意味を表す語幹を決定しようとするステミングとは違い、 N-グラムは意味を考慮しない。 その代わりに、 ある一定の数の文字列に基づいたアルゴリズムを持っている。 検索可能なデータ構造は、N-グラムを重ねたものに変換され、 それがデータベースを構築するのに使われる。 図4.7に2-、3-、5-グラムによる「sea colony」という語句に対する例を示す。 Nが2以上のN-グラムでは、 N-グラムの一部として普通は語間記号の1文字を除いているが、 語間記号を採用するシステムもある。 記号#は何らかの記号である語間記号(空白、ピリオド、セミコロン、コロンなど)を 表現している。 作成されたN-グラムは独立した処理トークンとなり、検索可能となる。 一つの単語から同一のN-グラムが複数回作成されることもあり得る。



 

Masao Takaku 平成11年3月11日