SDP layout of high dimensional data:
米国Yahoo!の音楽レビューサイトに載っているミュージシャンのレビュー
記事を元に類似度グラフを可視化。
・書誌情報:
David Gleich, Matt Rasmussen, Kevin Lang, Leonid Zhukov:
The World of Music: SDP layout of high dimensional data.
Proceedings of InfoViz2005, 2005. (to be appear)
・概要:
Yahoo! Musicの30日分のデータ、およそ400万ユーザ・10万アーティスト・
2億5000万件のレーティングデータから、100件以上のレーティング、かつ、
100点満点中75点以上のデータが付いたものだけを抽出。
→ 9,276アーティスト、15万ユーザ、250万件のレーティング
各アーティストをノードとして、レーティング情報を類似度としてマッピ
ング。類似度にはコサインを使用。アーティストa,bの間で、どちらかか
らの類似度が上位20件に入っているノード同士を繋ぎ、大規模なグラフ構
造を作成。
グラフ構築にはCLUTOというクラスタリングソフトウェアを使用し、SDP法
を応用して、次元削減して球面上にレイアウトし、それを2次元からの視
点で可視化する。
可視化アプリケーションにはOpenGLによるプログラムを作成。
・感想:
やったことは面白いが、データの抽出法で単純化しすぎていて、きちんと
類似度を測るところまでいけていない気も。まあ、可視化がメインテーマ
だから、それほど「それらしい類似度グラフになるか」にはこだわってい
ないのだろうが。
ちなみに、SDP(Semidefinite PProgramming)のことらしいが、詳細は知
らない。Webで検索すると、「半正定値計画問題」なる訳語が出ているこ
とが分かる。時間があったら調べてみてもいいけど。それよりCLUTOソフ
トウェアを調べた方が良さげ。