昨日の続きで、今日はまず発音記号の対応をしました。
元のCD-ROMでは、発音記号用のフォントが同梱してあって、本文には<span class="hatuon">/2s2bl/</span>のように記述してあり、そのフォントで描画することで発音記号が表示される、という仕組みになっていました。 そこで、まずFontForgeでどんな文字にどのグリフが割り当てられているかを眺めて、unicode.orgの文字表で文字コードを調べて、ユニコードの実体参照に書き換えるようにしました。 例えば、ensembleの発音記号だと、
/ɑ̃sɑ̃bl/
という感じです。 私の環境だと、ユニコードの合成文字を使った鼻母音の発音記号もちゃんと表示されていて、とてもいい感じ。
つづいて、元のHTMLには訳語の部分が<span class="yakugo">...</span>のように指定されていたので、それを抽出して、簡易和仏機能を付けました。 日本語からの検索を意図して整理されたデータではないので、前方一致検索などでアバウトに検索したほうがよさそうですが、それでもなかなか便利そうです。
あともう一つ、元の辞書に成句検索のための情報があったので、それをEPWINGの条件検索(キーワード検索のこと)として実装しました。 よく考えたらletmeseeがキーワード検索に対応していなかったので、そっちもついでにやりました。
そんなわけで、動詞の活用表と図版をのぞけば、辞書本文に関してはほぼ再現できました。 動詞の活用表は、その名のとおり「表」なので、どうやって整形するかを悩んでいるのですが、実体参照を本文に埋め込んでブラウザで表示させているのなら、同様にHTMLのテーブルをそのままつっこんでしまうという乱暴な手もありかなぁ。
まだtarballはリリースしていませんが、電子辞書オープンラボのCVSのedict-devel/royal-fpw/から取得できますので、興味のある方はどうぞ。