リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

website - まさおのChangeLogメモ

2011-01-17 Mon

* PDFチェックツールを公開 [website]

PDFファイルの中身を一括チェックするツールを公開しました。
../software/pdf-checker/

詳細は上記ページの説明をご覧ください。

もともと、図書資料の電子化をやっていたときに数千件単位の納品ファイ
ルの山をランダムサンプルして手動でチェックするのも面倒だったので、
一括でバッチモードでチェックできたらよいな、、、と思っていたものの、
Adobe Acrobatなどには画像の解像度を取得するメニューが付いておらず、
テキストの情報などもふくめ、ひとつずつファイル保存してからチェック
しなければいけないなど、とても面倒だったので作ってみました。

昨年のDRF軽井沢技術ワークショップにて、テーマのひとつとして取り組
んだものの時間切れになってしまって、積み残していた仕事だった。
# Javaを触りたくなくてiTextを試してみなかったのが敗因。。。

というわけで、ご意見・感想・質問などあれば、ご連絡いただけばと思い
ます。他にも似たようなことをしてくれるツールが既にあるよ、という報
告もお待ちしています。

2010-03-14 Sun

* 「ふわっと関連検索」バージョン1.0 をリリース [website]

今年の1月に公開した、「ふわっと関連検索」について、先週にDLワーク
ショップで発表を行いました。 cf. [2010-01-12-2]

この発表に合わせ、NDL PORTAも検索対象に加え、これで CiNii, NDL
PORTA
, WorldCat の3つのデータベースをそれぞれ検索できるようになり
ました。
http://fuwat.to/cinii
http://fuwat.to/ndl
http://fuwat.to/worldcat

また、JSON形式でのデータ取得APIを通じて、ブログパーツとして外部サ
イト上からも使えるようにしました。
http://fuwat.to/widget-helper.html

そこで、これを記念して、fuwat.to ドメインで提供しているサービスを
正式版とし、初期公開の際に使用していたサイトからリダイレクトで自動
的に移動するように設定しました。

まだまだ動作が遅く、不具合も一部残ってはいますが、ヘルプも追加しま
したので、これを期に「ふわっと関連検索」バージョン1.0としてリリー
スします。

詳細につきましては、更新履歴およびヘルプをご覧のうえ、どうぞご利用
いただければ幸いです。

2010-01-12 Tue

* ふわっとCiNii関連検索 [website]

すでにTwitter上で数日前に公開宣言したものだが、このChangeLogメモを
置いているサーバへの接続が不安定だったので、本サイトでの連絡が遅く
なったしまったことをお詫びします。

下記サービスを公開しました:

「ふわっとCiNii関連検索」
http://kagaku.nims.go.jp/~masao/fuwatto/cinii.rb

# 年末年始に、紅白歌合戦を観ながら作成したサービスです。

以下は簡単な説明です:

(ツールの概要)
「ふわっとCiNii関連検索」サービスは、テキストやウェブページの内容
を元に特徴的なキーワードを抽出し、そのキーワードでCiNii検索を行う
ツールです。

そのテキスト内容のなかからできるだけ特徴的な語を抽出する手法を実装
しているため、そのテキストに内容的に近い検索結果が得られることを意
図しています。

このようなツールを使うことにより、CiNii内に蓄積させた数千万件の論
文情報を埋もれさせることなく、論文との新たな出会いが生まれ、情報を
欲しているひとに届けることができれば本望です。

ぜひ、ご利用ください。

(背景と目的)
CiNiiは国内の学協会雑誌を中心とした数千万件の論文を網羅する、国内
有数の論文検索サービスです。

通常、検索サービスで欲しい情報を見つけるためには、その要求に沿った、
適切なキーワードを検索システムに渡す必要があります。しかしながら、
このような「適切なキーワード」の選択は、その対象とする分野・領域知
識が十分でない場合には、大変難しく、試行錯誤を繰り返すことになりま
すし、試行錯誤を繰り返しても結局ほしかった情報が得られない、という
場合さえあります。
余談ですが、Google等のWebサーチエンジンが優れているのは、こういっ
た状況を避けるために、適切なキーワードとなりうる候補を提示したり、
キーワードのスペルミスをチェックして正しい綴りで検索しなおしたり、
同義語を自動的に展開したりといったことをして、より適切なWebサイト
に導く努力をしています。

CiNiiは、昨年のリニューアルで安定した動作と、なによりAPI対応により、
新しいサービスに向けた基盤として有用性を高めつつあります。

「ふわっとCiNii関連検索」サービスは、このような検索の手間を減らし、
CiNiiの有用性をWeb APIを経由して活かすためのツールです。

(謝辞)
本ツールの作成には、下記のサービス、ツール群を利用させていただいて
おります。ここに記して感謝申し上げます。

論文検索サービスCiNii:
CiNii APIを全面的に利用させていただいております。

形態素解析エンジンMeCab:
特徴語の抽出のために利用させていただいております。

Webページからの本文抽出モジュールextractcontent.rb:
Webページからのテキスト抽出のために利用させていただいております。

また、下記サービスは、本サービスの着想にあたって拝見し、ヒントとさ
せていただきました。記して謝意を示したいと存じます。(順不同)

論文ったー, Webcat Plus
Referrer (Inside): [2010-03-14-1] [2010-01-19-1]

2009-05-17 Sun

* yim_archive-0.3公開 [website]

Yahoo!メッセンジャーのアーカイブファイルを閲覧するツールの新バージョ
ン yim_archive-0.3 をリリースしました。

初期公開から2年半にわたって残っていた、初期画面からのリンク遷移が
404 Not Foundエラーになってしまう初歩的なバグを修正してあります。

../software/yim/

※一部のメッセージアーカイブファイルで文字化けが発生するというバグ
報告も頂いていますが、文字化けが発生する原因が分からず、手元で再現
できずに未対応のままになっています。対応できるかは不明ですが、もし
そのような現象を見かけた方は、該当ファイルを添えてご連絡頂ければ助
かります。

2009-05-13 Wed

* Webページrsync用マシン変更 (arno->kaede) [website]

GW中の5月5日あたりから、本Webサイトを更新するのに普段使っているマ
シンから sakura への ssh が効かなくなった…。

他のポートは生きているし、別マシンからは届くので、sakura 側の問題
というよりは、ローカル側のファイアウォールあたりでネットワークポリ
シー的にポートを閉じてしまっている雰囲気。。。ちょっと交渉してみよ
うかと思ったけれど、かなり頻繁に rsync を ssh 経由で動作させていた
りしていて、今の環境だとちょっと交渉も難しいというハマリ具合。。。

一週間ほど更新できない状態が続いたけど、即時更新ができないとかなり
厳しいので、とりあえずは別ネットワークを経由するように変更する。

kaede 側から定期的に pull して、sakura 側に push するように設定し、
スクリプトをあちこち変更しておく。

おもいきって全部を移行しようかと思ったけど、mhonarcを使ったメール
アーカイブの自動更新あたりの環境移行がかなり面倒なので、とりあえず
はWeb環境だけにとどめておくことにする。

2009-02-11 Wed

* 『情報知識学会誌』BibTeX文献引用スタイルファイル [website]

情報知識学会誌での参照文献形式に則った書式で出力するスタイルファイ
ルを作成し、公開しました。

../software/jsik_bst.html

ちょうど年次大会の発表申込が来月3月6日までとなっていますので、年次
大会原稿で使うのにちょうどよいのではないかと思います。

TeXnicianの皆さま、どうぞご利用ください。

2009-02-08 Sun

* PukiWiki関連ツールを公開 [website]

手元のPukiWikiで使用し(た|ている)ツールをまとめて置いておきます。

../software/pukiwiki.html
内容はcalc/tracker_mylistプラグインとcsv2tracker.rbスクリプトだけ
ですが。

他にも別に運用しているHiki用のものがあったりするので、そちらもあと
で公開する予定。。。

2008-12-14 Sun

* 郵便番号検索のデータを更新 [website]

年賀状の季節が近付いたので、郵便番号データを2008年11月28日版に更新
しました:

../etc/zipcode.cgi

2008-11-20 Thu

* プロフィール写真 [website]

ふと思い立ってプロフィールのページに自分の写真を載せてみた。

../profile.html

この間のINFOPRO2008のときに未来館で撮ったもの。

歳がばれるので、だいぶ縮小しつつ、若干の加工を加えつつ。。。

2008-11-15 Sat

* 文献情報ページにCOinSを埋め込んだ [website]

昨日のインフォプロ2008にて農水の林さんの発表を聞いてインスパイアさ
れたので、とりあえず自分のページだけでもCOinSのメタデータ情報を付与
してみることにする。

発表論文、講演資料など

通常のブラウザで見る分には変わりはないけれど、OpenURL Referrer
Zoteroなどの拡張機能を入れておけば、リンクリゾルバに飛んで全文を
チェックしたりできる。

たとえばOpenURL Referrerの場合、以下のようにリンクリゾルバへのリン
クが表示され、リンクリゾルバ経由でCiNii内の全文フルテキストが入手で
きることが分かる。





情報知識学会誌の2005年以前のものはJ-STAGEに掲載されていないため、
DOIも付与されておらず、CiNiiへの直接リンクもすこし躊躇していたけれど、
これでひとまずは代替することにする。

2008-08-30 Sat

* メールアドレス変更 [website]

本サイト上のメールアドレス表記を tmasao@acm.org に変更しました。

一部に変更できていないものもまだ残っていることと思いますが、以後、
連絡は上記アドレスまでお願いします。

2008-04-30 Wed

* さくらインターネット内でお引っ越し [website]

以前[2008-01-25]にも書いたとおり、さくらインターネットのスタンダー
ドサービスの 1GB では容量が足りなくなってきていて、写真などのデー
タを整理して公開しようとするたびに手が止まってしまうので、しかたな
く、プレミアムサービス 3GB にお引っ越し。

さくらインターネットではプラン変更という形では不可能なようなので、
別契約を追加しつつ、手で移動していくことにする。

cf. 「さくらのレンタルサーバ」でプラン変更はできますか?
http://faq.sakura.ad.jp/faq/1032/app/servlet/qadoc?000040-1

1. プレミアムサービスの追加登録を申し込む。

しばらく待つと、「さくらインターネット仮登録完了のお知らせ」という
メールで、サーバパスワードと支払情報などが届く。
(今回は申込から15分ほどしてから、届いた)

まずは、ログインできることを確認する。

DNSの伝播がされていないので、コントロールパネルから「サーバ情報の
表示」〜「サーバに関する情報」を見て、www1462.sakura.ne.jp などの
ホスト名にアクセスする)

2. パスワード変更

コントロールパネルからパスワードを変更できるので、初期の仮パスワー
ドを念のため変更しておく。

3. SSH公開鍵

ログインしたら、 ~/.ssh/authorized_keys に普段の開発用マシンの公開
鍵を設置して、公開鍵認証できるようにする。

4. rsync

手元のマシンの public_html を新サーバの ~/www に rsync する。

5. ドメイン設定

コントロールパネルから「ドメインの設定」〜「ドメイン名の追加」を選
択し、テスト用にドメインを追加してみる。

masaotest.jpn.org

さらに続けて、このドメインをエイリアス設定として使用して、/masao
を使うよう設定。

転送したページが表示されることを確認する。
(DNS伝播が間に合わないようなら、telnet + Hostヘッダ指定で確認可能)

5. 動的ページの動作確認

公開の前に各種の動的なプログラムなどが正常に動作していることを確認
する。

たとえば、以下のページ群:

*../photo/ → △ (p-album2,image_size.rb をインストール、
                        パス設定等を修正)
                        ※thumbsを作りなおす
*../etc/zipcode.cgi → △ (Sqlite3,Ruby-SQLite3をインストール、
                                zipcode_cgi を展開、設定)
                                ※zipcode.dbを作りなおす。
*../d/ → ○
*../d/bbs/ → ○
*../d/clsearch.cgi → ○
*../pub/ → ○
*../etc/test-ttf.php → ○
*../software/imgs2html/imgs2html-man.html → ○
*../software/imgs2html/ps2imgs-man.html → ○

6. 旧プランのドメイン設定削除 + masao.jpn.orgを新プランへ移管

旧プランのコントロールパネルからドメイン設定を削除して、直後に新プ
ラン上でドメイン追加する。

あとは、数時間から数日のDNS反映を待つだけ...。


サイト内でおかしな表示になっている箇所などありましたら、ご連絡いた
だけると助かります。

とりあえず、「846.71MB / 1024.00MB (82.69%) 」という状態だったのが、
「551.99MB / 3.00GB (17.97%)」という状態になって、一息つけるように
なりました。
そのうち、たまっている写真の整理などやっておこうかと思います。。。

2008-04-07 Mon

* yim_archive-0.2 [website]

Yahoo!メッセンジャーのメッセージアーカイブを閲覧・検索するツール
yim_archive の新バージョン yim_archive-0.2 を公開しました。

../software/yim/

カンファレンス機能を使った、複数人での会話アーカイブが文字化けする
問題に対応しました。

2008-03-26 Wed

* jmarcfilter [website]

JAPAN/MARCレコードデータを扱いやすいプレインテキスト形式に変換する
プログラムを(再)公開します。

../software/jmarcfilter/

このツールは、1997年頃に図書館情報大学総合情報処理センターにて購入
していたデータを対象に情報検索サーバの試作を行った際に開発したもの
です。2004年頃までは図書館情報大学電子図書館プロジェクトのサーバに
て公開していましたが、大学院修了や大学閉学等に伴って、公開が停止し
ていたため、個人サイトにて公開することにしました。

無償・無保証・著作権放棄として公開しますので、自由にお使いください。

2008-03-13 Thu

* bbsのスパム除け [website]

本サイト上の掲示板機能として使っているくっつきBBSに、ここ一週間程、
スパムが連続して来ていたので、たいした手間でも無いのだけど、フィル
タとして簡単な単語を選んで、これらが含まれる投稿はスパムと判断して
エラーになるように変更した。

対象となるのは、以下のような単純なフレーズのみ:
good site
nice site
cool site
funny site
best site
great site

要は、英単語を使ってサイトを褒めるようなことは言わないでくださいと
スパム業者にお願いしているだけ。なんでこんなフレーズを使いたがるの
か不思議なのだけど、まあ、そこはそれ…。

../d/bbs/

2008-01-30 Wed

* 翻訳記事 [website]

Tim Oreilyによる「Wikipedia: A community of editors or a community
of authors?」と題するブログ記事の日本語訳を公開しました。

../trans/2008/wikipedia_community_publishing.html

同時に、はてな人力検索にて翻訳文の添削を受け付けています:
http://q.hatena.ne.jp/1201698451

コメント等ありましたら、お気軽にどうぞ。

2008-01-30 Wed

* Google AdSense停止 [website]

昨年[2007-02-20]に導入していた、本サイト上でのGoogle AdSense広告は、
自身でもながめる機会がないし、クリックされることもほとんど無いよう
だし、無駄なトラフィックとなるだけのようなので、外すことにします。

なお、約1年間でのクリック回数は「48回」、収益額は「US$12.24」…。

2007-12-14 Fri

* 郵便番号検索のデータを更新 [website]

2007年11月30日版に郵便番号データを更新しました:
../etc/zipcode.cgi

年賀状の季節が近付いたので…。

2007-12-14 Fri

* google-cache.pl [website]

だいぶ昔に書いたコードの説明ページ冒頭に更新しない旨の表記を加えた。
../software/google-cache.pl

別件でGoogle検索していたときにヒットしたので…。

2007-10-11 Thu

* IPAフォント追加 [website]

TrueTypeフォントの表示テストツールにIPAフォントを追加しました。