リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2010-01-08

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2010-01-08 Fri

* BOAI signee

氏名欄からみた場合、日系人と思われる名前を持つのは下記の14名か?

かみたに ゆきやす :: Kamitani Yukiyasu
かわもと たかゆき :: Kawamoto Takayuki
こはやかわ よしはる :: Kohayakawa Yoshiharu
くりやま まさみつ :: Kuriyama Masamitsu
もぎ けん :: Mogi Ken
むらせ かずゆき :: Murase Kazuyuki
おじろ こいち :: Ojiro Koichi
おむら だん :: Omura Dan
さいお たけお :: Saio Takeo
さと たいすけ :: Sato Taisuke
さと しょ :: Sato Sho
とのさき まさあき :: Tonosaki Masaaki
うちじま ひでき :: Uchijima Hideki
うえだ かずのり :: Ueda Kazunori

(注意: 所属情報はまったく確認していません)

機械抽出のためのスクリプトは以下のとおり:
#!/usr/local/bin/ruby
# -*- coding: euc-jp -*-

$KCODE = 'e'

require 'romkan'
require "open-uri"

JP_REGEXP = /^[\sぁ-ん]+$/
NON_JP_REGEXP = /\b[ぁぃぅぇぉゃゅょぱぴぷぺぽ]/

open( "http://www.soros.org/openaccess/browse.cfm?st=A&fn=Z" ) do |io|
   io.each do |line|
      next if not line =~ /^<TD><b>(.*?)<\/b>/
      name = $1.gsub( /,&nbsp;/, " " ).strip
      #name.gsub!( /&nbsp;/, " " )
      next if name.length <= 3
      yomi = name.downcase.to_kana
      if yomi =~ JP_REGEXP && yomi !~ NON_JP_REGEXP then
         puts "#{yomi} :: #{name}"
      else
         #puts yomi + " not"
      end
   end
end
[2003-06-30-2]をもとにした。
Referrer (Inside): [2010-12-30-1]