以下のプログラムは、国立国会図書館から頒布されているJAPAN/MARCレコードデータを読み取り、プレインテキストに変換する簡単なプログラムです。 無償・無保証・著作権放棄として公開しますので、ご自由にお使いください。 不明な点等ありましたら、mailto:tmasao@acm.org までご連絡ください。
Japan/MARCのレコード構造を読み取り、 文字コードがASCII・ISO-2022-JPからなるプレインテキストに変換します。 スクリプト言語であるPerlで実装したものです。 改造などに適しています。
上記のファイルをダウンロードし、解凍・展開してください。
展開してできたファイルjmarcfilter.pl
が、
Japan/MARC形式のデータをプレインテキストに変換するプログラムです。
例えば、以下のようにMARCファイルを引数として指定して実行します。
% gzip -cd jmarc-Perl.XXXXXXXX.tar.gz | tar xvf - % ./jmarcfilter.pl 200201
また、jmarc.pl
はJapan/MARCレコードを解析するためのライブラリです。
簡単なマニュアルも一応あります...。
上記のjmarcfilter.pl
の機能をC言語で実装したものです。
上記のファイルをダウンロードし、解凍・展開してください。
展開してできたファイルjmarcfilter.c
が、
Japan/MARC形式のデータをプレインテキストに変換するプログラムです。
例えば、以下のようにします。
% gzip -cd jmarc-C.XXXXXXXX.tar.gz | tar xvf - % cc -o jmarcfilter jmarcfilter.c % ./jmarcfilter /ap/MARC/JP/200201 ..
JAPAN/MARC特有の外字は、既存文字コード体系とのマッピング等は基本的に行わず、空白文字に変換してしまっています(詳細は以下参照)。
なお、JAPAN/MARC で独自に定義されている外字については、適宜変換を行なった1。
1 ÂÎÛÊÔなどは、A, I, U, E, Oに、その他の追加文字は空白文字に変換した。また、JAPAN/MARC では長音(ー)の文字がマイナス(−)記号になっているので、カタカナ・平仮名の直後に現れるマイナス記号は長音に変換した。
(高久雅生. Z39.50に基づく書誌データ検索システムの構築. 図書館情報大学, つくば, 修士論文, 2000, p.14 より引用)
国立国会図書館が全国書誌データ領布用に開発したMARCで、1981年4月に領布サービスが開始された。そのフォーマットは、外形式についてはISO 2709 Format for Bibliographic Information Interchange on Magnetic Tape を採用し、内形式はUNIMARCに準拠したものとしているが、日本語の特徴である漢字データとその読み(片かなおよびローマ字表記)とのリンク、あるいは書誌記述中のタイトル、責任表示とタイトル標目、著者名標目とのリンクなど、独自の拡張を施している。また、「日本目録規則新版予備版」を基盤としており(1996年現在)、「同1987年版改訂版」への移行が急務とされている。現在、図書および逐次刊行物のMARCが提供、領布されているが、典拠データの領布も計画されている。
(日本図書館学会用語辞典編集委員会編. 図書館情報学用語辞典. p.84「JAPAN MARC」より引用)