しゃべりかける親

忘れないようにメモメモ

いかにしてニューラルネットにリアルな言語データを食わせて気持ちいい結果を得るか.

  • 語彙数
  • 規則数
    • 文法
    • 規則性(慣習,意味的拘束)含む

CHILDES嬲られ嬲り

  • 材料
    • Brownさんデータ
      • 今考えなければならないのは構造で,コミュニケーション時間は関係ないが,提示回数を考えるときには必須なので,ひとまずこれでやる.
    • 疑問文,命令文はどう扱うか.
      • 考え出したらきりが無いのでひとまず肯定文でやりたいところだけれど,Adam坊や(27-62ヶ月)の親が提示した発話数は「非疑問文(肯定文,命令文,名詞句)11165文,疑問文8892文」やばい.半々だ...やっぱ考慮しないといけない気がする.
    • 文トークン:20057文,文タイプ:めんどい・・・
  • 下処理
    • 不明語(CHILDESには記述ゆれが結構ある)の削除.
      • @,#,xxx,yyy,yupとか.
    • 不明タグの処理
      • (fil,bab,neo,chiこれらは,親の発話のゆれとか,子供の模倣とか,オノマトペとかが含まれる.ただし,名詞とか動詞とかのくくりの上でくくられているから処理が面倒,というか実質手作業以外では片付けられないので不可能)
    • 推定の処理
      • bahbah[=bottle].幼児の模倣と思われる.親が子供に「ブーブ」って言うようなものか.きちんと話せ!
    • 複合名詞
      • black+boardはblackboardとすべきかblackとboardを単に「繋がった単語列」と扱うか...
    • 短縮形の処理
      • you'reとかdidn'tとか
    • 親の誤り
      • whyn't実はwhy don'tとか.母国語くらいきちんと話せ!
    • 句読点の扱い(クォート含む)
      • Redington(1993)はFinch & Chaterにのってるし,削除ぽいので削除.ただ,文末というタグだけは扱いたいんだよなぁ・・・
  • 事前解析
    • Redington同様に近傍(前後2単語.文をまたぐかどうかは不明)を張って,文脈語(n語)をセットしてn語×4のベクトルを使って階層クラスタ→学習すべきカテゴリを決定
    • 単語の間引き(1000語彙程度)
      • 解析で各クラスタの低頻出単語を同じ割合で削ればいいかな.
    • 規則(クラスタ)の間引き
      • 同じく枝葉のクラスタを間引くことにする.

以上でやってみますか.