今日の仕事。

調べ物をしていて長尾→長尾(B)にたどり着いた。知りたいことはそれじゃない。
今週末で研究室を去る人とお話。自国ではなく第三国(トルコ)に行くらしい。自国に戻ったら迫害されるし、かといって今週中にビザが切れて日本に残る道もないので仕方がないのかも。「そもそもトルコ語がわかるの?」て聞いてみたら、ウイグル語とトルコ語は似ていて70%くらいわかるらしい。おー、テュルク諸語か。また、無知をさらけだしてしまった。
中谷さんの言語識別器がすばらしい。Apache Nutch の LanguageIdentifier プラグインがあまりにひどいのだが、ちゃんと問題点を解決している。何より profile に直接手を入れやすい。アラビア文字を使う言語を識別するのに必要な機能で「この文字が入っているからこの言語ではない」みたいなパラメータも突っ込めるのかな(負の値を入れるとして)。