注意: 本ソフトウェアは参考のために残してあるもので、更新を停止しています。
Yahoo Web Search APIやGoogle Web APIなど、キャッシュにアクセスできるようなAPIが提供されています。 現在では、本スクリプトは無用のものとなっているとおもいますので、APIを利用するなどするようにしてください。
2001年5月に、マシンのトラブルによって 自分のつくっていたWebページのデータがすべて消えてしまいました。 一から書き直すのは、ちょっと悲しかったので、 Googleのキャッシュから再帰的にデータを取ってくるスクリプトを書いてみました。
動作には、 Perl5, URI.pm(Perlモジュール), GNU wgetが必要になります。 (動作確認は手元のSolaris7でしか行っていません。)
perl google-r.pl -l 5 http://cosmo.ulis.ac.jp/~masao/
上記のように動かすと、
http://cosmo.ulis.ac.jp/~masao/
のURLからたどれる
Googleのキャッシュを5レベルまで再帰的に取得します。
-l NUM
オプションを省略すると、
指定したURLの一ファイルだけを取ってきます。
取得したファイルは、カレントディレクトリにそのまま
保存されていくので注意が必要かもしれません。
(-O DIR
オプションを指定すれば、
出力するディレクトリを指定できます)
GPL2に従ったフリー・ソフトウェアとして公開します。
大量のコンテンツを持つURLを出発点にして再帰的に取得することは、ネットワークに大きな負荷をかけますので、十分に注意して実行してください。
当然のことながら、画像、スタイルシートなどを含め、 Googleでキャッシュされていないファイルは取得できません。
また、かなりアドホックなことをやってるので、 Googleの出力するHTMLが変更されたら、 うまくいかなくなります。当面は動くと思うけど…。
<html><body> ... </body></html>
が挿入されている。また、URLと推定できる文字列については、<a href="...">...</a>
という感じでハイパーリンクが張られるようなタグも付加されている。
不具合などありましたら、 tmasao@acm.org まで お気軽にお知らせ下さい。
類似のソフトウェアなどあれば、教えてください。