今日の休日。

Farsi の stemmer がないとか昨日議論されていたが、規則ベースの Finite State Automaton で十分で、自分なら porter stemmer の規則を1週間ほどいじったらできるだろうと思って調べてみたら そのまんまの論文があった。
検索屋さんは Native の方々含めて、アラビア文字の言語はもう全部 stemming 抜きの文字 bigram の CJKAnalyzer でいいじゃんとか言っているグループがいるが、論文にまでなっている。冗談じゃなくて、本当にそれでいいと思っているらしい。この論文の中にも Farsi Stemmer があるけど、結局 stop word リストさえあればいいんだろう。ちなみにLucene/Solr におけるペルシャ語の取り扱い
さて、ハローワークであろうと入国管理局であろうとどこにでも行きますが、あと1週間でどうにかなるものだろうか。
プレミアム商品券が利用できる店一覧が出ている。家電でも買うかなぁ。