今日の仕事。
単語分かち書きに品詞情報がいるかどうかですが、β単位や M 単位由来の
現代語において意味を持つ最小の単位二つ*1が,文節の範囲内で1 回結合したもの
という原則があり、BCCWJ の短単位はこの最小単位を連結する際に品詞を拠り所にしていて、かつ UniDic が上の原則を適用した語をも登録しているという点について NLPer が苦しんでいるのではないでしょうか。
ボス的には、
- D くんを説得する
- 辞書を整理して multi-layer の sequence labeling を持ち込む
の2つの方法のうち、前者を考えているようです。
品詞なし単語分かち書きは、部分的アノテーションでもモデルを作ることができる持橋モデルがよいと思います。あれの長さに対するポワソン分布のところに、上の原則のようなものが入ればよいんでしょうけど、だからといって perplexity が下がるかどうかというのは、また別問題です。多分下がらないと思います。
私個人は、この原則が認知的に社会的にどのくらい妥当なのかに興味があります。
とかすればいいんでしょうか。
今日読んだ論文*2には、Wang 2006 *3 が、後処理で以下のことを行うことを提案していて、PKU データで +0.2% F-Score と書いてある。他の言語も単位認定はそんなもんなのか。
if a bigram A_B was not observed in the training data, but the merged one AB was, then A_B will be simply merged into AB;
on the other hand, if AB was not observed but A_B appeared, then it will be split into A_B.