google-cache.pl

注意: 本ソフトウェアは参考のために残してあるもので、更新を停止しています。

Yahoo Web Search APIやGoogle Web APIなど、キャッシュにアクセスできるようなAPIが提供されています。現在では、本スクリプトは無用のものとなっているとおもいますので、APIを利用するなどするようにしてください。

概要

2001年5月に、マシンのトラブルによって自分のつくっていたWebページのデータがすべて消えてしまいました。一から書き直すのは、ちょっと悲しかったので、 Googleのキャッシュから再帰的にデータを取ってくるスクリプトを書いてみました。

動作には、 Perl5, URI.pm（Perlモジュール）, GNU wgetが必要になります。（動作確認は手元のSolaris7でしか行っていません。）

perl google-r.pl -l 5 http://cosmo.ulis.ac.jp/~masao/

上記のように動かすと、 http://cosmo.ulis.ac.jp/~masao/のURLからたどれる Googleのキャッシュを5レベルまで再帰的に取得します。 -l NUMオプションを省略すると、指定したURLの一ファイルだけを取ってきます。

取得したファイルは、カレントディレクトリにそのまま保存されていくので注意が必要かもしれません。（-O DIR オプションを指定すれば、出力するディレクトリを指定できます）

GPL2に従ったフリー・ソフトウェアとして公開します。

大量のコンテンツを持つURLを出発点にして再帰的に取得することは、ネットワークに大きな負荷をかけますので、十分に注意して実行してください。

当然のことながら、画像、スタイルシートなどを含め、 Googleでキャッシュされていないファイルは取得できません。

また、かなりアドホックなことをやってるので、 Googleの出力するHTMLが変更されたら、うまくいかなくなります。当面は動くと思うけど…。

application/pdf: テキストバージョンしか残っていない…。
text/plain: プレインテキストに対しては先頭と末尾に<html><body> ... </body></html>が挿入されている。また、URLと推定できる文字列については、<a href="...">...</a>という感じでハイパーリンクが張られるようなタグも付加されている。
最大長: 102,400 バイト以上のキャッシュはファイルの末尾が削られたものしか取得できない。

不具合などありましたら、 tmasao@acm.org までお気軽にお知らせ下さい。

類似のソフトウェアなどあれば、教えてください。