リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2006-08-15

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2006-08-15 Tue

* A DOM Tree Alignment Model for Mining Parallel Data from the Web

DOMツリーモデルによるWebからの対訳対テキストの抽出。(MSR-Asia)

・書誌情報:
Lei Shi, Cheng Niu, Ming Zhou, Jianfeng Gao:
A DOM Tree Alignment Model for Mining Parallel Data from the Web.
Proceedings of the 21st International Conference on Computational
Linguistics and 44th Annual Meeting of the ACL, Sydney,
pp.489-496, July 2006.

・概要:
対訳コーパスとして利用するために、多言語により提供されているWebサ
イト内の構造をDOMレベルで対応付けする手法を提案。

既存のWebサイトから中英の対訳コーパスを抽出する実験を行う。
ベースライン手法としてはURLベースによるものを使用。

文書レベルでは、3000文書対をかけたところ、93.5%→97.2%の精度向上が
見られた。
文レベルでは、150文書対(約3000センテンス)で実験したところ、精度
で86.9%→93.4%、再現率で79.4%→86.6%の向上(約7%)が見られた。

・感想:
DOMツリーの純粋な木構造モデルを、処理性能のためにやや変形させて
(内容モデルを上部ノードに混ぜ込む?)使っているのだが、その変形手
順がよく分からなかった。