DOMツリーモデルによるWebからの対訳対テキストの抽出。(MSR-Asia)
・書誌情報:
Lei Shi, Cheng Niu, Ming Zhou, Jianfeng Gao:
A DOM Tree Alignment Model for Mining Parallel Data from the Web.
Proceedings of the 21st International Conference on Computational
Linguistics and 44th Annual Meeting of the ACL, Sydney,
pp.489-496, July 2006.
・概要:
対訳コーパスとして利用するために、多言語により提供されているWebサ
イト内の構造をDOMレベルで対応付けする手法を提案。
既存のWebサイトから中英の対訳コーパスを抽出する実験を行う。
ベースライン手法としてはURLベースによるものを使用。
文書レベルでは、3000文書対をかけたところ、93.5%→97.2%の精度向上が
見られた。
文レベルでは、150文書対(約3000センテンス)で実験したところ、精度
で86.9%→93.4%、再現率で79.4%→86.6%の向上(約7%)が見られた。
・感想:
DOMツリーの純粋な木構造モデルを、処理性能のためにやや変形させて
(内容モデルを上部ノードに混ぜ込む?)使っているのだが、その変形手
順がよく分からなかった。