シノニム

ここ数日.大量の語彙をいかにしてハンドルするかをずっと考えている.局所表現をとれば統計的にノイズと差がなくなるし,分散表現をとれば理論的に予測不可能.アーキテクチャの大幅変更もなかなかしずらい.さぁてどうすっか.
 昨晩の帰宅時にふと思ったんだけど「ある文脈において,どちらかを選ぶことができない(等確率)で生じる語彙集合(シノニム)の要素数」というのはどれくらいなものなのでしょうか?
 よくよく考えれば知覚的意味情報がない,言語内情報だけでもカテゴリの識別ができる程度には単語の用法は異なっているのではないかと.もしそうなら,局所表現で1,000語彙を学習するときに「名詞500語」「どうし500語」なんていうわけのわからない数になるのではなく,「名詞-動物性-人間性-男性10語」くらいまで少数語彙のサブカテゴリまではコーパス解析からも落とせるんじゃないだろうか?
 とりあえず,CHILDES周りを調べてみるか.
 と完全にメモメモ