http://googleblog.blogspot.com/2008/07/technologies-behind-google-ranking.html
Amit SinghalによるGoogleにおけるランキングの解説、第2弾。
Googler特有のかなりぼやかした書きぶりだが、ヒントとして見れば、そ
れなりに興味深い。
「Understanding pages」の項で言っていることを見ると、たとえば、ア
ンカーテキストや周辺ページからの文書拡張を使って適合ページを見つけ
る、という話題のように読めるし、具体例はないものの、ページ内の出現
語のfreshnessを計算するといった手法についても触れられている。
「Understanding queries」の項も、同義語コーパスの使用例や、多言語
認識によるエンティティマッチの例が示されている。
「Understanding users」の項では、アクセス元の地理的属性を利用した
手法や、ログインユーザの行動履歴を通じたパーソナライゼーションにつ
いて触れている。また、クエリ補正との関連やビデオ検索といった他のサー
ビスへのリンクを提供する手法についても触れている。
ちょっとびっくりしたのは、CLIRについても触れている点。CLIRは研究レ
ベルでは伝統的にやられてきたものの、応用面では使えないと言われて久
しいといわれていたので。。。
まあ、残念ながら全部の仕組みが透けて見えるわけではないものの、特に
最初の「Understanding pages」あたりは、Google規模でなくとも、ある
程度は実験的に確認できる話であるので、なんとなく想像がつくが、他の
部分は、高精度のエンティティマッチなど、ブラックボックスになってし
まっていて、そのままでは中身の想像が効かないものも多い。
ただし、巷の誤解に満ちたSEO情報などを駆逐する意味でも、こういった
情報をきちんと提供しようという姿勢は評価したい。
また、個人的にも、こういった裏側での実装手法を知ることが、ユーザの
検索行動を助けるのではないかという思いがあるので、その点でも助かる。
P.S.
そういえば、「PageRank」に一言も触れていないのは、マーケティング戦
略の変換なのか? それとも単にブログというメディアでの誠実さなのか?