定番の仏和辞典「ロワイヤル仏和中辞典」にはWindows用CD-ROMと題したものがついているのですが、この中身は実は膨大な数のHTML文書です。
CD-ROMの内容は,インターネットで利用されているHTML形式ですので,お使いのInternet Explorerで表示することができます.なお,JavaScriptなどの違いのため,Internet Explorer以外のブラウザとMacintoshではご利用いただけません.
とCD-ROMの中のヘルプには書いてあるのですが、JavaScriptの互換性を頑張るよりは、FreePWINGを使ってEPWING互換辞書に変換することにしました。題して「royal-fpw」です。
元のHTMLは、アクサンなどの文字がすべてHTMLの実体参照になっているので、変換した辞書はletmesee経由でブラウザのみで使うとわりきって、外字にはせずにあえてそのままテキストとして埋め込みました。 また、検索語の入力の都合上、letmeseeもUTF-8化して、電子辞書のライブラリとのやりとりの時だけEUC-JPにするようにしました。
もちろん、アクサンなどの文字の検索語は、アクサンを除いた文字で検索語を登録してありますので、アクサンつきでもアクサンなしでも検索できますから、アクサン付きでコピーペーストしても検索できますし、アクサンを打てない環境や正確に覚えていない時にも検索できます。 例えば、ここにあげたスクリーンショットは、「réalité」でも「realite」でもどちらで検索してもこのように検索できます。 先日紹介したbookmarkletと組み合わせれば、ウェブ上のフランス語文書を読むのが超快適です〜。
とりあえずは、本文のHTMLのタグをすべて捨ててただのテキストとして変換しただけなので、項目間のリンクなどはないのですが、これでも十分に使いものになります。 成句検索とか本文のレイアウトとか図版とか頑張ろうと思えばまだまだやることはありますが、そのへんはぼちぼちと。
そういえば、変換中に元のCD-ROMの不備を発見しました。 Royal/Contents/fr/itemPages/R/R-02615.htmがなくて、そこにくるべき本文がRoyal/Contents/fr/itemPages/R/R-02616.htmにまざっている、というもので、とりあえずは手で修正したのですが、パッチを配布するわけにもいかないし、どうするのがいいかなぁ。
なお、letmeseeをUTF-8化すると、以前おくじさんからもらった「ispellのiso-8859-1出力をASCIIにする」パッチが不要になって、そのかわりUTF-8に変換して画面に表示させるようにしました。 ASCIIへの変換は、上述のように検索時に行うので大丈夫です。
letmeseeのUTF-8化とあわせて、そのうちコミットします。 お楽しみに。