まさおのChangeLogメモ / 2010-01

Webometrics.info というサイトで、世界のリポジトリランキングという
ものが公開されている。
→ http://repositories.webometrics.info/

ところが、このサイト上のランキングで日本国内の機関リポジトリに対す
るランキングが、直感的ではないように感じたので、原因を探ってみよう
と思って、国内の機関リポジトリのより詳しい情報を掲載しているNIIの
IRDB/JAIROのデータを使った、より正確なランキングの作成を試みた。
cf. http://irdb.nii.ac.jp/

とくに、Webometricsが対象としている日本の機関には非常に漏れが多い。
例えば、筑波大、神戸大、大阪大などは2009年1月版では対象外となって
いる。そこで、おおざっぱな推計情報だけでも有用かと思い、参考までに
試作してみた。

このサイトWebometricsでは、以下のページに掲載されているように:
http://repositories.webometrics.info/methodology_rep.html

s*{Size} + r*{Rich} + gs*{Scholar} + v*{Visibility}

s := {Size} （リポジトリ収録コンテンツの量）に対する重み。
r := {Rich} （リッチコンテンツ:pdf, docなどの搭載量）に対する重み。
gs:= {Scholar} （Google Scholar上でのコンテンツの人気度）に対する重み。
v := {Visibility} （Web上での人気度）に対する重み。

s = 0.2, r = 0.15, gs = 0.15, v = 0.5

というような式でランキングを計算している、とのこと。

当方では、このうち、{Size}はコンテンツの収録アイテム総数をそのまま
つかい、{Visibility}に関してもWebometricsと同様にバックリンク総数
を用いる。のこりの{Rich}に関しては大半のリポジトリで変わらないので
無視することとし、{Scholar}も計算のためにはかなりの時間を要するた
めにここでは省略し、代わりにリポジトリの成長度{Grow}という指数を導
入してみる。{Grow}は一日あたり平均のアイテム搭載数で、とくに最近の
成長率を見るために直近1年間と直近半年での成長率の平均をとることと
する。

つまり、最終的に:

s*{Size} + gr*{Grow} + v*{Visibility}

s = 0.25, gr = 0.25, v = 0.5

という式を定義し、IRDBにおける本文付き登録アイテムの推移値と
Yahoo! APIから得られた値で計算しなおしてみると、以下のようなラン
キングが得られる。
（スコアは0-100の範囲で、他の指標は0-1の範囲となるよう正規化した値）

順位	機関名	スコア	Size	Grow	Visibility
1	京都大学	100.0	1.00	1.00	1.00
2	北海道大学	71.3	0.60	0.31	0.99
3	東京大学	65.8	0.38	0.48	0.87
4	東北大学	62.4	0.59	0.24	0.88
5	九州大学	60.3	0.27	0.19	0.98
6	千葉大学	59.9	0.49	0.16	0.89
7	金沢大学	58.2	0.34	0.30	0.84
8	お茶の水女子大学	57.7	0.40	0.22	0.87
9	筑波大学	57.4	0.43	0.21	0.86
10	長崎大学	56.9	0.34	0.18	0.90

なんとなく直感的なランキングになっているように見える。
# 「直感的」という語が、本末転倒な表現であることに注意... ^_^;;)

一つだけ気になっているのは、Webometricsサイトではなぜ国内有数のリ
ポジトリである北海道大のHUSCAPの順位が低くみつもられているのか？と
いう疑問は、すこし見てみたが、今回のランキング試作の過程では不明の
ままだった。。。
# だれかご存知でしたら、おしえてください。

参考までに、IRDB収録機関すべてのランキングを下記に置いておく:
→ ../etc/webometrics_rep_jp.html

なお、結論をいえば、下記の理由から、ランキングの*正確な*再現という
ものは無意味もしくは不可能であり、よくても恣意的で大雑把な近似しか
できそうにないことがよくわかった。
1）そもそも、リポジトリサービスのどの要素が重要であるかは機関やリ
ポジトリの目的によって異なるため、単線的な比較に向かない。
2）本家サイトのランキング計算がどの情報を用いているかが自明でない。
3）Webでの認知度は検索エンジンの検索結果を用いた推計であり、不確定
的な情報に頼っているため。

Referrer (Inside): [2010-12-30-1]

まさおのChangeLogメモ / 2010-01

* Yet another Webometrics for Japanese Institutional Repositories

* 今日のサイクリング

* mecab bug?

* 「ふわっとCiNii関連検索」に対する反響

* junii2ガイドラインについて

* ふわっとCiNii関連検索 [website]

* sakuraメールサーバのユーザ名

* BOAI signee

* xpdf textcopy permission

* Stopword list