リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2010-01-12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2010-01-12 Tue

* ふわっとCiNii関連検索 [website]

すでにTwitter上で数日前に公開宣言したものだが、このChangeLogメモを
置いているサーバへの接続が不安定だったので、本サイトでの連絡が遅く
なったしまったことをお詫びします。

下記サービスを公開しました:

「ふわっとCiNii関連検索」
http://kagaku.nims.go.jp/~masao/fuwatto/cinii.rb

# 年末年始に、紅白歌合戦を観ながら作成したサービスです。

以下は簡単な説明です:

(ツールの概要)
「ふわっとCiNii関連検索」サービスは、テキストやウェブページの内容
を元に特徴的なキーワードを抽出し、そのキーワードでCiNii検索を行う
ツールです。

そのテキスト内容のなかからできるだけ特徴的な語を抽出する手法を実装
しているため、そのテキストに内容的に近い検索結果が得られることを意
図しています。

このようなツールを使うことにより、CiNii内に蓄積させた数千万件の論
文情報を埋もれさせることなく、論文との新たな出会いが生まれ、情報を
欲しているひとに届けることができれば本望です。

ぜひ、ご利用ください。

(背景と目的)
CiNiiは国内の学協会雑誌を中心とした数千万件の論文を網羅する、国内
有数の論文検索サービスです。

通常、検索サービスで欲しい情報を見つけるためには、その要求に沿った、
適切なキーワードを検索システムに渡す必要があります。しかしながら、
このような「適切なキーワード」の選択は、その対象とする分野・領域知
識が十分でない場合には、大変難しく、試行錯誤を繰り返すことになりま
すし、試行錯誤を繰り返しても結局ほしかった情報が得られない、という
場合さえあります。
余談ですが、Google等のWebサーチエンジンが優れているのは、こういっ
た状況を避けるために、適切なキーワードとなりうる候補を提示したり、
キーワードのスペルミスをチェックして正しい綴りで検索しなおしたり、
同義語を自動的に展開したりといったことをして、より適切なWebサイト
に導く努力をしています。

CiNiiは、昨年のリニューアルで安定した動作と、なによりAPI対応により、
新しいサービスに向けた基盤として有用性を高めつつあります。

「ふわっとCiNii関連検索」サービスは、このような検索の手間を減らし、
CiNiiの有用性をWeb APIを経由して活かすためのツールです。

(謝辞)
本ツールの作成には、下記のサービス、ツール群を利用させていただいて
おります。ここに記して感謝申し上げます。

論文検索サービスCiNii:
CiNii APIを全面的に利用させていただいております。

形態素解析エンジンMeCab:
特徴語の抽出のために利用させていただいております。

Webページからの本文抽出モジュールextractcontent.rb:
Webページからのテキスト抽出のために利用させていただいております。

また、下記サービスは、本サービスの着想にあたって拝見し、ヒントとさ
せていただきました。記して謝意を示したいと存じます。(順不同)

論文ったー, Webcat Plus
Referrer (Inside): [2010-03-14-1] [2010-01-19-1]

* sakuraメールサーバのユーザ名

sakuraのメールサーバを転送用に使っているのだけど、ついに2GBの容量
制限の98%まで達していたので、メール削除しようと思ったのだけど、こ
このメールサーバはアカウント名自体が、以下のようになっていて:

masao@example.sakura.ne.jp

非常にまぎらわしい…。

ようは、[2006-05-23-2]にあるとおり、IMAPを手打ちしてメール削除した
かっただけなのだけど、login faied. と言われて、うまく動かなかった。
これは、ログインリクエストを「1 LOGIN masao XXXXXX」の形式で打ち込
んでいただけ、というミスらしい…。

1 LOGIN masao@example.sakura.ne.jp XXXXXX

の形式でリクエストを送ったら、無事にログイン処理でき、削除も完了。
(2009-09のメールまで消し、37%まで減らした。)
Referrer (Inside): [2010-12-30-1]