国際発音記号ゲトー
どうにもこうにも,単語から国際発音記号(International Phonetic Alphabet , IPA)を手に入れる必要があったりして,Ladefoged先生のところとかIPA homeをうろちょろしても実効力のあるところはわからなかったりする.
1000語以上あるので手作業で調べると間違いなく死ねるのでなんとかスクリプトを書くことにする.sdicとかLookup周りの辞書を調べると発音記号は古いので最新のIPAには対応してなさげ.ALCもいまいち.goo辞書がいい感じに最新ぽい.しかも返ってくるHTMLコードを見ると発音記号は画像なんだけど「発音記号系列⇒発音記号画像系列」となっているので,画像のファイル名からIPAお勧めのASCII表現に直せるげ.
ここにqueryごとリクエストして返ってくるソースから画像ファイル名を自然言語処理でぶっこ抜くことに決める.
Perlでとりあえずのスクリプトを書いてみる.世の中的には,
use LWP::Simple;
my $url = "http://hogehoge";
get($url);
がデフォルトみたいなんでそうするけど,とれず.どうもproxy周りがごちゃってる.でproxy周りをいぢるには
use LWP::UserAgent;
my $ua = LWP::UserAgent->new();
$ua->proxy('http', 'http://proxy.fugafuga:8080');
my $request = HTTP::Request->new('GET', $url);
$request->header('Referer', $url);
my $response = $ua->($request, $file);
ってやって返事をもらうらしい.
でも,なぜか
500 Cannot write to '': No such file or directory
が返ってくる.
いけてた.返事はfileに入ってくると思ってたけど,そういうわけではなさげで,普通に$response->contentに入ってやがった.というわけでクリア.
今後はこうすればよいのでメモメモ.