初版公開日: 2001年06月11日
最終更新日: 2008年08月30日

google-cache.pl

注意: 本ソフトウェアは参考のために残してあるもので、更新を停止しています。

Yahoo Web Search APIGoogle Web APIなど、キャッシュにアクセスできるようなAPIが提供されています。 現在では、本スクリプトは無用のものとなっているとおもいますので、APIを利用するなどするようにしてください。

目次

概要

2001年5月に、マシンのトラブルによって 自分のつくっていたWebページのデータがすべて消えてしまいました。 一から書き直すのは、ちょっと悲しかったので、 Googleのキャッシュから再帰的にデータを取ってくるスクリプトを書いてみました。

動作には、 Perl5, URI.pm(Perlモジュール), GNU wgetが必要になります。 (動作確認は手元のSolaris7でしか行っていません。)

perl google-r.pl -l 5 http://cosmo.ulis.ac.jp/~masao/

上記のように動かすと、 http://cosmo.ulis.ac.jp/~masao/のURLからたどれる Googleのキャッシュを5レベルまで再帰的に取得します。 -l NUMオプションを省略すると、 指定したURLの一ファイルだけを取ってきます。

取得したファイルは、カレントディレクトリにそのまま 保存されていくので注意が必要かもしれません。 (-O DIR オプションを指定すれば、 出力するディレクトリを指定できます)

ダウンロード

GPL2に従ったフリー・ソフトウェアとして公開します。

履歴

2001-09-22
インターバル毎に 1 秒間 sleep するよう変更。
2001-06-11
初期公開版。

注意事項

大量のコンテンツを持つURLを出発点にして再帰的に取得することは、ネットワークに大きな負荷をかけますので、十分に注意して実行してください。

当然のことながら、画像、スタイルシートなどを含め、 Googleでキャッシュされていないファイルは取得できません。

また、かなりアドホックなことをやってるので、 Googleの出力するHTMLが変更されたら、 うまくいかなくなります。当面は動くと思うけど…。

問題点!? (TODO)

application/pdf
テキストバージョンしか残っていない…。
text/plain
プレインテキストに対しては先頭と末尾に<html><body> ... </body></html>が挿入されている。また、URLと推定できる文字列については、<a href="...">...</a>という感じでハイパーリンクが張られるようなタグも付加されている。
最大長
102,400 バイト以上のキャッシュはファイルの末尾が削られたものしか取得できない。

不具合などありましたら、 tmasao@acm.org まで お気軽にお知らせ下さい。

類似品

類似のソフトウェアなどあれば、教えてください。


高久雅生 (Masao Takaku)
http://masao.jpn.org/, tmasao@acm.org