リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2010-01

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2010-01-31 Sun

* Yet another Webometrics for Japanese Institutional Repositories

Webometrics.info というサイトで、世界のリポジトリランキングという
ものが公開されている。
http://repositories.webometrics.info/

ところが、このサイト上のランキングで日本国内の機関リポジトリに対す
るランキングが、直感的ではないように感じたので、原因を探ってみよう
と思って、国内の機関リポジトリのより詳しい情報を掲載しているNIIの
IRDB/JAIROのデータを使った、より正確なランキングの作成を試みた。
cf. http://irdb.nii.ac.jp/

とくに、Webometricsが対象としている日本の機関には非常に漏れが多い。
例えば、筑波大、神戸大、大阪大などは2009年1月版では対象外となって
いる。そこで、おおざっぱな推計情報だけでも有用かと思い、参考までに
試作してみた。

このサイトWebometricsでは、以下のページに掲載されているように:
http://repositories.webometrics.info/methodology_rep.html

s*{Size} + r*{Rich} + gs*{Scholar} + v*{Visibility}

s := {Size} (リポジトリ収録コンテンツの量)に対する重み。
r := {Rich} (リッチコンテンツ:pdf, docなどの搭載量)に対する重み。
gs:= {Scholar} (Google Scholar上でのコンテンツの人気度)に対する重み。
v := {Visibility} (Web上での人気度)に対する重み。

s = 0.2, r = 0.15, gs = 0.15, v = 0.5

というような式でランキングを計算している、とのこと。

当方では、このうち、{Size}はコンテンツの収録アイテム総数をそのまま
つかい、{Visibility}に関してもWebometricsと同様にバックリンク総数
を用いる。のこりの{Rich}に関しては大半のリポジトリで変わらないので
無視することとし、{Scholar}も計算のためにはかなりの時間を要するた
めにここでは省略し、代わりにリポジトリの成長度{Grow}という指数を導
入してみる。{Grow}は一日あたり平均のアイテム搭載数で、とくに最近の
成長率を見るために直近1年間と直近半年での成長率の平均をとることと
する。

つまり、最終的に:

s*{Size} + gr*{Grow} + v*{Visibility}

s = 0.25, gr = 0.25, v = 0.5

という式を定義し、IRDBにおける本文付き登録アイテムの推移値と
Yahoo! APIから得られた値で計算しなおしてみると、以下のようなラン
キングが得られる。
(スコアは0-100の範囲で、他の指標は0-1の範囲となるよう正規化した値)

順位機関名スコアSizeGrowVisibility
1京都大学100.01.001.001.00
2北海道大学71.30.600.310.99
3東京大学65.80.380.480.87
4東北大学62.40.590.240.88
5九州大学60.30.270.190.98
6千葉大学59.90.490.160.89
7金沢大学58.20.340.300.84
8お茶の水女子大学57.70.400.220.87
9筑波大学57.40.430.210.86
10長崎大学56.90.340.180.90

なんとなく直感的なランキングになっているように見える。
# 「直感的」という語が、本末転倒な表現であることに注意... ^_^;;)

一つだけ気になっているのは、Webometricsサイトではなぜ国内有数のリ
ポジトリである北海道大のHUSCAPの順位が低くみつもられているのか?と
いう疑問は、すこし見てみたが、今回のランキング試作の過程では不明の
ままだった。。。
# だれかご存知でしたら、おしえてください。

参考までに、IRDB収録機関すべてのランキングを下記に置いておく:
../etc/webometrics_rep_jp.html


なお、結論をいえば、下記の理由から、ランキングの*正確な*再現という
ものは無意味もしくは不可能であり、よくても恣意的で大雑把な近似しか
できそうにないことがよくわかった。
1)そもそも、リポジトリサービスのどの要素が重要であるかは機関やリ
ポジトリの目的によって異なるため、単線的な比較に向かない。
2)本家サイトのランキング計算がどの情報を用いているかが自明でない。
3)Webでの認知度は検索エンジンの検索結果を用いた推計であり、不確定
的な情報に頼っているため。
Referrer (Inside): [2010-12-30-1]

2010-01-27 Wed

2010-01-25 Mon

2010-01-24 Sun

* 今日のサイクリング

浅草を経由し、秋葉原まで往復。

・走行距離: 20.16km
・走行時間: 1:40:11

快晴の休日ということで、浅草および秋葉原は人出が多く、それだけでぐっ
たりする感じ。

雷門からのんびり歩いてみようかと思ったけど、予想以上の人出と、駐輪
場が見当たらずに断念。
秋葉原のほうは、5000円以上で無料というヨドバシの駐輪場に停めてみた。
ほとんど利用がない状態の店舗駐輪場という、不思議な感あり。

2010-01-23 Sat

* mecab bug?

"--", ")" などのただの記号文字が「名詞」と判定されてしまう。

一瞬バグかと思ったけど。どうやら、接尾形などを手掛かりにした、未知
語の品詞自動推定機能がついているらしい。
cf. http://mecab.sourceforge.net/#unk

→ -x オプションを渡せば回避できる模様。。。
Referrer (Inside): [2010-12-30-1]

2010-01-22 Fri

2010-01-21 Thu

2010-01-19 Tue

* 「ふわっとCiNii関連検索」に対する反響

公開から一週間経過したので、いくつかあった反響をメモ代わりに記録し
ておきます。
cf. [2010-01-12-2]

まず利用状況ですが、公開直後から多くの方に利用していただいています。
下記 bit.ly のアクセス統計ページでの状況がおおむねそれを反映してい
るようです: http://bit.ly/info/69qFBJ
(これらから推計すると、おおよそ500名前後の方に試していただいたよ
うです)

以下では、Twitter上などでいただいたコメントを引用抜粋し、それに対
する簡単なコメントを付しておきます。

まず、当初にアナウンスした Twitter 上での反響は以下のとおり:

http://twitter.com/kzhr/status/7574948654
ウィキペディアの「キリシタン版」を読ませたら,キーワードが「活字 日本 印刷 印行本」と解されたよう。文書のタイトルや見出しはあんまり重視されないんですかね #fuwatto
http://twitter.com/kzhr/status/7576292383
ありがとうございます / さっきのページは,わりとよく検索するキーワードでありながら,知らなかった論文があったので,なかなかおもしろく思いました

これは公開直後に試用していただいた感想で、有益性についても言及して
いただいたコメントで、たいへんうれしく感じました。

http://twitter.com/lib110ka/status/7612439721
ふわっとCiNii関連検索使ってみた。すげー。試しに自分のブログ投げてみたんだけど、自分の考え書き殴っているだけの論から関連文献出てきたー。

これまた、アナウンス直後に試用していただいた感想で、利用例としても、
想定通りの使い方での有益性を的確に言及していただいたコメントで、た
いへんうれしく感じました。

http://twitter.com/tsukamoto/status/7584834001
「Wiki」で検索したら「混沌の中から生まれる秩序,協調,そして学び」が最初に出てきた。「ふわっとCiNii関連検索」、これはイけてるかも知れない。...あれ、キーワードにずばりWikiが入ってるからか?
http://twitter.com/tsukamoto/status/7584877502
「日本語学習における批判性・創造性の育成への試み-『教科書書きかえ』プロジェクト-」これはアブストラクトにもキーワードにもWiki入ってないな。

これまたありがたいコメントでしたが、残念ながら、この論文情報内の英文
抄録部分には「Wiki」が入っているのでした。^_^;; クエリ拡張機能は来
月あたりに手をつけようと思っていて、今のところ未対応です。

http://twitter.com/yuiseki/status/7624027724
文章から興味語抽出 → CiNii API的な。検索結果0件だとエラーでるな

おなじくエラーになるよ的なコメントは何件かいただいております。
はい、ごめんなさい。これに関してはいまだにエラー処理をさぼっていま
す。のちほどアップデート対応いたします。

続いて、はてなブックマークでの反響コメントより:

http://b.hatena.ne.jp/entry/kagaku.nims.go.jp/~masao/fuwatto/cinii.rb
complex_cat Search, CiNii これは良いな。Google scholarではノイズが多かったりbiosisかけるほどじゃないときにちょっと使ってみる。 2010/01/11

たしかに、CiNiiに対する、Google Scholarとの対比というのは面白い視
点かもしれませんね。

http://b.hatena.ne.jp/entry/kagaku.nims.go.jp/~masao/fuwatto/cinii.rb
tsysoba 学術情報, Web, 国立情報学研究所 面白い。かつ、使える感じがする。自分が見ているページからこれにURLを投げてくれるスクリプトを、誰か作ってくれないものか。 2010/01/11

ありがとうございます。スクリプトに関しては、単に ?url=[url] という
パラメータを付けるだけなので、比較的容易かと。。。
例えば以下をブックマークに登録して呼び出すなどできます:
ふわっと関連検索

http://b.hatena.ne.jp/entry/kagaku.nims.go.jp/~masao/fuwatto/cinii.rb
betelgeuse CiNii 「ガンダム」 で月刊アスキーとか。「アルパカ」で 500 Internal Server Error 2010/01/10

単なる学術雑誌論文だけじゃなくって一般向け雑誌も出てくるのは、
CiNiiの面白いところですよね。「アルパカ」のエラーの件は、コメント
いただいた直後に直しました。

http://b.hatena.ne.jp/entry/kagaku.nims.go.jp/~masao/fuwatto/cinii.rb
Yuichirou 何よりもまずタイトルがうまい。 2010/01/10

「名前重要」というのはウェブ系サービスでのひとつのキーになる要素だ
と思っています。今回の「ふわっと関連検索」という名前も、システムの
イメージと名前を先に考えて、それが決まってはじめて作る気になったく
らいなので。いただいたコメントの中でも、大変うれしかったコメントの
ひとつでした。

最後に一般のブログから:

http://lib-plus.blogspot.com/2010/01/cinii.html
公共図書館でも,何となくあることに興味はあって読書をしたいけど,
実際どの本が読みたいかというと漠然としている,なんていう利用者も
いると思います。そんな利用者のためにこれに似たツールがあるとおも
しろいのかなと思いました。OPACが連想検索できればいいのかな。

同感です。まさにその部分で作りたかった動機を的確に表現していただい
た気分です。あと、OPAC関連で言えば、謝辞の部分に載せわすれましたが、
間接的には下記の宮崎大学の事例にインスパイアされた部分も大です。

宮崎大学におけるOPACとJuNii+のマッシュアップ事例:
DRFIC 2008 ポスター発表 (2008-12) / 『大学の図書館』 Vol.27,
No.7, pp.145-146, 2008-07 / 『九州地区大学図書館協議会誌』 No.50,
pp.13-15, 2008-03)

以上。他にもいくつもコメントをいただきましたが、長くなりすぎるので、
このへんで。
Referrer (Inside): [2010-12-30-1]

2010-01-18 Mon

2010-01-17 Sun

2010-01-15 Fri

2010-01-14 Thu

2010-01-13 Wed

* junii2ガイドラインについて

http://www.nii.ac.jp/irp/archive/system/junii2_guide.html
「junii2ガイドライン(案)」の公開 に反応するコメントとして、以下
を送付した。



物質・材料研究機構の高久と申します。
いつもお世話になっております。

標記のガイドライン案を拝見いたしました。
今回のガイドライン案の公開とコミュニティによるフィードバックプロセ
スは、今後のリポジトリ関連サービスの研究開発および国内の学術情報流
通コミュニティにおける相互運用性の確保にとって、大変有益であると存
じます。

そこで、リポジトリシステムおよびサービスの研究開発担当者の視点から、
下記のとおり、いくつか気になりました点について、コメントさせていた
だきたいと思います。


・「junii2ガイドラインの目的」 p.1
>> JAIRO,CiNii等,NIIのサービス基盤を効果的に使用したい場合は,本
>> ガイドラインに準拠することを推奨する。
junii2の効果は単に「NIIのサービス基盤」における恩恵だけではなく、
国内の学術メタデータの相互運用性を高めることにその主眼があるように
思います。そういったより広い意味での目的についても言及しておくこと
が、junii2の可能性を広げることにつながり、NII以外のサービスとNIIの
サービス基盤との連携が広がる道なのではないかと思います。

ですので、単にNIIのサービス基盤の効果的な利用のみを挙げるのではな
く、国内におけるリポジトリメタデータの相互互換性を高めるため、と明
記しても良いのではないでしょうか。

・「1. タイトル」 p.3
「推奨例」の4つ目:
>> <title><論文>都市内バス輸送の利用促進策の動向と課題 (<特集>都市内バス輸送の将来)</title> 記事種別や特集名などがある場合。
となっていますが、junii2がXMLベースである以上、この例がXMLデータ例
を示しているのであれば、
>> <title>&lt;論文&gt;都市内バス輸送の利用促進策の動向と課題 (&lt;特集&gt;都市内バス輸送の将来)</title> 記事種別や特集名などがある場合。
と、エスケープするべきではないでしょうか?

もし仮に「<>」といった文字を特集名等の区切り文字に使うことを推奨例
とするのであれば、このような文字参照となる旨、注記を付すべきと思い
ます。

・「3. 作成者」 p.5
「非推奨例」の3件目以降の creator 開始タグの末尾に余分な空白が入っ
ています:
>> <creator >木田, 元 / 品川, 和彦</creator>
など。(「<creator>木田, …」などと修正。)

・「3. 作成者」 p.5
「クロスウォーク例」の例として、たとえば以下のような例もあるとよい
と思いますが、いかがでしょうか?

例3)
IRのローカルデータ:
creator1.givenName: |次郎|
creator1.familyName: |本日|
creator2.givenName: |次郎|
creator2.familyName: |昨日|
junii2出力データ:
<creator>本日, 太郎</creator>
<creator>昨日, 次郎</creator>

・「24. 本文フルテキストへのリンク」 p.13
推奨例、非推奨例ともに、要素名が"identifier"となってしまっています。
要素名"fullTextURL"の誤字と思われますので、修正をお願いします。

・「36. PubMed番号」 p.19
要素名が"doi"と記載されていますが、"pmid"の誤字と思われますので、
修正をお願いします。

・その他

ガイドライン案に明記されていない点として、OAI-PMHレベルでの実装
(名前空間URIやmetadataPrefixの指定)および、XMLスキーマに対する検
証可能性といった点があります。

■ 名前空間URIの指定

現在、http://irdb.nii.ac.jp/oai にて提供されているjunii2のXMLスキー
マを見ると、名前空間が「http://irdb.nii.ac.jp/oai」と定義されてい
ますが、実際の国内のリポジトリにおける名前空間URIの扱いには揺らぎ
があります。これはとりわけ http://ju.nii.ac.jp ドメインからの移動
によるものと思われますが、名前空間URIは到達可能性自体は問わないも
のですので、例えば、「名前空間URIは、"http://irdb.nii.ac.jp/oai"を
指定すること。」とガイドライン上で指定しておく方が良いと思います。

■ metadataPrefixの指定

名前空間URIと同様、現在のリポジトリ上で展開されているOAI-PMHサービ
スで明示されていない点として、metadataPrefixに何を用いるのか、とい
う点があります。これも「metadataPrefixにはjunii2を指定することが望
ましい。」などの形で、ガイドラインとして明記してもよいのではないで
しょうか。

■ XML検証可能性

さらに相互運用性と実装の簡便性を考えた場合、メタデータがXMLデータ
として検証できるよう、明記しておくことも重要と思います。すでに提供
されているXMLスキーマがありますので、XMLデータとしてのjunii2メタデー
タが最低限の仕様に沿っているかを確認できる点で実装開発者にとって有
用かと思います。
たとえば、「junii2データをファイルに落とすなどしたうえで、バリデー
タを通じて検証し、スキーマに対して妥当なデータとなっていることを確
認することが望ましい。」といった明記があるとうれしいと思います。
====

以上です。
ご検討いただければ幸いです。
どうぞよろしくお願いいたします。
Referrer (Inside): [2010-12-30-1]

2010-01-12 Tue

* ふわっとCiNii関連検索 [website]

すでにTwitter上で数日前に公開宣言したものだが、このChangeLogメモを
置いているサーバへの接続が不安定だったので、本サイトでの連絡が遅く
なったしまったことをお詫びします。

下記サービスを公開しました:

「ふわっとCiNii関連検索」
http://kagaku.nims.go.jp/~masao/fuwatto/cinii.rb

# 年末年始に、紅白歌合戦を観ながら作成したサービスです。

以下は簡単な説明です:

(ツールの概要)
「ふわっとCiNii関連検索」サービスは、テキストやウェブページの内容
を元に特徴的なキーワードを抽出し、そのキーワードでCiNii検索を行う
ツールです。

そのテキスト内容のなかからできるだけ特徴的な語を抽出する手法を実装
しているため、そのテキストに内容的に近い検索結果が得られることを意
図しています。

このようなツールを使うことにより、CiNii内に蓄積させた数千万件の論
文情報を埋もれさせることなく、論文との新たな出会いが生まれ、情報を
欲しているひとに届けることができれば本望です。

ぜひ、ご利用ください。

(背景と目的)
CiNiiは国内の学協会雑誌を中心とした数千万件の論文を網羅する、国内
有数の論文検索サービスです。

通常、検索サービスで欲しい情報を見つけるためには、その要求に沿った、
適切なキーワードを検索システムに渡す必要があります。しかしながら、
このような「適切なキーワード」の選択は、その対象とする分野・領域知
識が十分でない場合には、大変難しく、試行錯誤を繰り返すことになりま
すし、試行錯誤を繰り返しても結局ほしかった情報が得られない、という
場合さえあります。
余談ですが、Google等のWebサーチエンジンが優れているのは、こういっ
た状況を避けるために、適切なキーワードとなりうる候補を提示したり、
キーワードのスペルミスをチェックして正しい綴りで検索しなおしたり、
同義語を自動的に展開したりといったことをして、より適切なWebサイト
に導く努力をしています。

CiNiiは、昨年のリニューアルで安定した動作と、なによりAPI対応により、
新しいサービスに向けた基盤として有用性を高めつつあります。

「ふわっとCiNii関連検索」サービスは、このような検索の手間を減らし、
CiNiiの有用性をWeb APIを経由して活かすためのツールです。

(謝辞)
本ツールの作成には、下記のサービス、ツール群を利用させていただいて
おります。ここに記して感謝申し上げます。

論文検索サービスCiNii:
CiNii APIを全面的に利用させていただいております。

形態素解析エンジンMeCab:
特徴語の抽出のために利用させていただいております。

Webページからの本文抽出モジュールextractcontent.rb:
Webページからのテキスト抽出のために利用させていただいております。

また、下記サービスは、本サービスの着想にあたって拝見し、ヒントとさ
せていただきました。記して謝意を示したいと存じます。(順不同)

論文ったー, Webcat Plus
Referrer (Inside): [2010-03-14-1] [2010-01-19-1]

* sakuraメールサーバのユーザ名

sakuraのメールサーバを転送用に使っているのだけど、ついに2GBの容量
制限の98%まで達していたので、メール削除しようと思ったのだけど、こ
このメールサーバはアカウント名自体が、以下のようになっていて:

masao@example.sakura.ne.jp

非常にまぎらわしい…。

ようは、[2006-05-23-2]にあるとおり、IMAPを手打ちしてメール削除した
かっただけなのだけど、login faied. と言われて、うまく動かなかった。
これは、ログインリクエストを「1 LOGIN masao XXXXXX」の形式で打ち込
んでいただけ、というミスらしい…。

1 LOGIN masao@example.sakura.ne.jp XXXXXX

の形式でリクエストを送ったら、無事にログイン処理でき、削除も完了。
(2009-09のメールまで消し、37%まで減らした。)
Referrer (Inside): [2010-12-30-1]

2010-01-10 Sun

2010-01-09 Sat

* URL memo

- 道具眼製ツール: delicious users
ユーザビリティ評価を効率良く実施するための支援ツール

2010-01-08 Fri

* BOAI signee

氏名欄からみた場合、日系人と思われる名前を持つのは下記の14名か?

かみたに ゆきやす :: Kamitani Yukiyasu
かわもと たかゆき :: Kawamoto Takayuki
こはやかわ よしはる :: Kohayakawa Yoshiharu
くりやま まさみつ :: Kuriyama Masamitsu
もぎ けん :: Mogi Ken
むらせ かずゆき :: Murase Kazuyuki
おじろ こいち :: Ojiro Koichi
おむら だん :: Omura Dan
さいお たけお :: Saio Takeo
さと たいすけ :: Sato Taisuke
さと しょ :: Sato Sho
とのさき まさあき :: Tonosaki Masaaki
うちじま ひでき :: Uchijima Hideki
うえだ かずのり :: Ueda Kazunori

(注意: 所属情報はまったく確認していません)

機械抽出のためのスクリプトは以下のとおり:
#!/usr/local/bin/ruby
# -*- coding: euc-jp -*-

$KCODE = 'e'

require 'romkan'
require "open-uri"

JP_REGEXP = /^[\sぁ-ん]+$/
NON_JP_REGEXP = /\b[ぁぃぅぇぉゃゅょぱぴぷぺぽ]/

open( "http://www.soros.org/openaccess/browse.cfm?st=A&fn=Z" ) do |io|
   io.each do |line|
      next if not line =~ /^<TD><b>(.*?)<\/b>/
      name = $1.gsub( /,&nbsp;/, " " ).strip
      #name.gsub!( /&nbsp;/, " " )
      next if name.length <= 3
      yomi = name.downcase.to_kana
      if yomi =~ JP_REGEXP && yomi !~ NON_JP_REGEXP then
         puts "#{yomi} :: #{name}"
      else
         #puts yomi + " not"
      end
   end
end
[2003-06-30-2]をもとにした。
Referrer (Inside): [2010-12-30-1]

2010-01-07 Thu

2010-01-06 Wed

2010-01-05 Tue

* xpdf textcopy permission

うーむ。。。
PDFファイルのコピー禁止や印刷禁止といったセキュリティ設定が紳士協
定とは知らなかった。

以下はxpdfのパーミッション設定を回避する機能を独自パッチで付与して
いるDebianバグ:
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=145558

ただし、xpdfの開発者自身はこのようなDRM回避的な利用法を非難し、PDF
文書作成者の意向を尊重するよう呼び掛けている:
http://www.foolabs.com/xpdf/cracking.html

xpdf開発者による論点は以下の2点:
1)Adobeが提供しているPDF仕様に沿っていない。
2)オープンソース文化が著作権の尊重にもとづいているにも関わらずPDF
作成者の権利をないがしろにする利用法は自己欺瞞的である。

* Stopword list

http://www.nii.ac.jp/CAT-ILL/INFO/newcat/jissou_siyo/stopword.html
NII NACSIS-CATでのストップワード。(121 words)

http://thomas.loc.gov/home/stopwords.html
Library of Congress THOMASシステムでのストップワード。 (274 words)
(LuceneのPatternAnalyzer.EXTENDED_ENGLISH_STOP_WORDSが採用)
Referrer (Inside): [2010-12-30-1]

2010-01-04 Mon

2010-01-03 Sun

サイクリング走行距離メーター
2001 : 01 02 03 04 05 06 07 08 09 10 11 12
2002 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12