最近はウェブ・ブラウザで英語を読むことが多いので、ブラウザ上で選択した単語を letmesee で検索する簡単な bookmarklet を作ってみました。 といっても、Location が「javascript:window.location='http://localhost/~kazuhiko/letmesee/?query='+window.getSelection()+'&mode=search&dict=0&dict=1&dict=2&dict=3&dict=4';」みたいなブックマークを作っただけです。
ただ、現状の letmesee だと、検索対象の辞書の ID をすべてクエリーに含めないといけないのがちょっとダサいので、検索対象の辞書が省略されたら全辞書が対象とか、検索方法が省略されたら完全一致検索とか、ちょっと letmesee 側をいじったほうがよさそうです。
[追記] 省略できるように変更して cvs にコミットしました(二年半ぶり!)。 これで、「javascript:window.location='http://localhost/~kazuhiko/letmesee/?query='+window.getSelection()」みたいなスクリプトで動作するようになりました。
そんなわけで、日記に日本語もフランス語も書きたいというニーズが出てきた(というかそのうち出てくる)ので、たださんが前からやるぞやるぞと言っていた UTF8 化を私も進めていきます。(参考 → http://sho.tdiary.net/20050509.html#p03)
たださんに IRC で相談したところ、「入力時のコード変換はしないのがいいのではないかというのが今の感触」と言っていたので、既存のデータや tDiary 本体のファイル群をかたっぱしから UTF8 にして、tdiary/lang/ja.rb らへんを多少いじると、とりあえずはそれっぽく動きました。
とはいっても、細かい点ではやるべきことはたくさんありそうです。
あとは、シェルが使えない環境でも既存データの UTF8 化が簡単にできるような仕組みも作らないといけないですね。
なお、Hiki の UTF8 化は、エンコードされた日本語ページの URI が、EUC-JP と UTF8 とで変わってしまうのをどうしよう? という問題があるので、ちょっと先送りかなぁ。
わーい、第二が久しぶりにトンガリそうで嬉しいです。フランス語勉強過程、楽しみにしています。
やっぱり昨日の記事はこの伏線でしたかー :)<br><br>出力の時にだけコード変換する、という立場からすると、既存データは今までのまま出力だけUTF8にするというのが良いと思うのですがそうもいかないのかな。出力はすべて、HTMLエスケープするだけじゃなくてコード変換器にもかける。UTF8で書き始めた月の.td2はEUC-JPの日とUTF8の日が混ざって記録されることになりますが。
+1 >既存データは今までのまま<br><br>重すぎるなら、アクセスがあった分だけ変換してしまうとか。
そう言えば、昔送った「フランス語無理矢理ASCII化パッチ」はpendingのままなんでしたっけ? >letmesee<br>あれがないと、仏和辞書では致命的なんですけど。<br><br>ちなみにですが、手元のwebrick版ではもうちょっと機能拡張して、辞書のグループ化をできるようにして、デフォルトで使う辞書、全辞書などを手軽に選べるようにしてます。コードが汚いにも程があるので、晒すのは勘弁させてください。
既存も含めてデータまるごとUTF8になっている、っていう方が tDiary 側の実装が楽というか、プログラム側での自動変換という不確実なことをしなくてすむので、そっちの方がいいかなぁと考えています。<br>でもまあ、シェルを使えない環境の人むけに、アクセスがあった分を UTF8 に変換していく、というのは必要な気もします。
> okuji さん<br>すみません、そのパッチなくしちゃったみたいなので再送してもらえますか?<br>でも今から EPWING の仏語辞典を入手することが難しそうです。Windows 上で「ロワイヤル付属の CD-ROM を EPWING 化する」が唯一の選択肢かも。<br>http://homepage2.nifty.com/tpitwv/royalfj.htm
完売しちゃったんですねえ。残念。じゃあコピーを送りますってわけにはいかないですし、これだから不自由なのは(略)。<br>よく考えれば最近あんまり使ってないんで、私のところからは消してしまって、CDROMごと譲渡するというのはありかも。
EUC-JPのtDiaryでも、日記とかコメントの投稿の時には自動変換があります。既に問題になって http://zunda.freeshell.org/d/20041117.html#p03 いるので、出力側で自動変換するようにしても、不確実な自動変換という点ではそれほど違いはないと思いますがどうでしょう?
IRCでも話しましたが、例えばドイツ語(ISO-8859-1)のデータをEUC-JPだと思って変換しちゃうと悲しいことになりそうです。元のコードがわかっていない時にコードを変換するのは難しそうですね。