今日の仕事。

拡張 CaboCha フォーマットについて一言:
拡張 CaboCha フォーマットは日本語コーパスのツール班会議で散々議論した結果のもので、述語項構造をタグ付けするために作成したものです。コーパスに対するアノテーションを SEGMENT (範囲) と LINK (有向辺)と GROUP (無向辺)の3つに抽象化して、文を超えるか超えないかでそれぞれ2種類のタグを設定しています。係り受けアノテーションを行う ChaKi と、述語項構造などのアノテーションを行う SLATE がこのデータフォーマットを入出力できるようになっており、それぞれがツール班の主な成果物です。
多くの自然言語処理の応用において、前処理として MeCab/CaboCha により形態素解析/文節区切り/係り受け解析を行うこととして前提としており、それに対する自然な拡張としてフォーマットが定義されています。(僕が定義したわけではないですが)