Oct 20, 2005
kakasiとchasen
全文検索システム「namazu」に使われる、kakasiのコマンドラインの例が『Debian辞典』に載っていて面白そうなのでやってみた。
検索するときのindex形式には、品詞分解や、ひらがら化が必須だと思う。
-JHは漢字をひらがなに、-fはルビをブラケットに入れて表示する。ルビは固有名詞などはうまくいかない場合もあるが、いろいろ利用できそうである。
shimirin@debian:~$ echo "日本語環境の設定" | kakasi -JH -w -f
日本語環境[にほんごかんきょう] の 設定[せってい]
chasenは品詞分解をする。
shimirin@debian:~$ echo "立体などがきれいに映る。" | chasen
立体 リッタイ 立体 名詞-一般
など ナド など 助詞-副助詞
が ガ が 助詞-格助詞-一般
きれい キレイ きれい 名詞-形容動詞語幹
に ニ に 助詞-副詞化
映る ウツル 映る 動詞-自立 五段・ラ行 基本形
。 。 。 記号-句点
Edit this entry...
wikieditish message: Ready to edit this entry.
A quick preview will be rendered here when you click "Preview" button.