今日の仕事。

単語分かち書きに品詞情報がいるかどうかですが、β単位や M 単位由来の

現代語において意味を持つ最小の単位二つ*1が,文節の範囲内で1 回結合したもの

という原則があり、BCCWJ の短単位はこの最小単位を連結する際に品詞を拠り所にしていて、かつ UniDic が上の原則を適用した語をも登録しているという点について NLPer が苦しんでいるのではないでしょうか。
ボス的には、

  • D くんを説得する
  • 辞書を整理して multi-layer の sequence labeling を持ち込む

の2つの方法のうち、前者を考えているようです。
品詞なし単語分かち書きは、部分的アノテーションでもモデルを作ることができる持橋モデルがよいと思います。あれの長さに対するポワソン分布のところに、上の原則のようなものが入ればよいんでしょうけど、だからといって perplexity が下がるかどうかというのは、また別問題です。多分下がらないと思います。
私個人は、この原則が認知的に社会的にどのくらい妥当なのかに興味があります。

  • 一般人にいくつかの基準で単語分かち書きを4分アキで提示して fMRI に放り込む
  • 一般人複数人で単語分かち書きについて議論させて、どのような合意が形成されているかを調査する

とかすればいいんでしょうか。
今日読んだ論文*2には、Wang 2006 *3 が、後処理で以下のことを行うことを提案していて、PKU データで +0.2% F-Score と書いてある。他の言語も単位認定はそんなもんなのか。

if a bigram A_B was not observed in the training data, but the merged one AB was, then A_B will be simply merged into AB;
on the other hand, if AB was not observed but A_B appeared, then it will be split into A_B.

*1:三つ連続だとこの原則を適用しない

*2:X. Sun+, A Discriminative Latent Variable Chinese Segmenter with Hybrid Word/Character Information, HLT-NAACL-2009

*3:X. Wang+, Chinese Word Segmentation with Maximum Entropy and n-gram Language Model, SIGHAN, 2006