しゃべりかける親
忘れないようにメモメモ
いかにしてニューラルネットにリアルな言語データを食わせて気持ちいい結果を得るか.
- 語彙数
- 規則数
- 文法
- 規則性(慣習,意味的拘束)含む
CHILDES
嬲られ嬲り
- 材料
- Brownさんデータ
- 今考えなければならないのは構造で,コミュニケーション時間は関係ないが,提示回数を考えるときには必須なので,ひとまずこれでやる.
- 疑問文,命令文はどう扱うか.
- 考え出したらきりが無いのでひとまず肯定文でやりたいところだけれど,Adam坊や(27-62ヶ月)の親が提示した発話数は「非疑問文(肯定文,命令文,名詞句)11165文,疑問文8892文」やばい.半々だ...やっぱ考慮しないといけない気がする.
- 文トークン:20057文,文タイプ:めんどい・・・
- Brownさんデータ
- 下処理
- 不明語(CHILDESには記述ゆれが結構ある)の削除.
- @,#,xxx,yyy,yupとか.
- 不明タグの処理
- (fil,bab,neo,chiこれらは,親の発話のゆれとか,子供の模倣とか,オノマトペとかが含まれる.ただし,名詞とか動詞とかのくくりの上でくくられているから処理が面倒,というか実質手作業以外では片付けられないので不可能)
- 推定の処理
- bahbah[=bottle].幼児の模倣と思われる.親が子供に「ブーブ」って言うようなものか.
きちんと話せ!
- bahbah[=bottle].幼児の模倣と思われる.親が子供に「ブーブ」って言うようなものか.
- 複合名詞
- black+boardはblackboardとすべきかblackとboardを単に「繋がった単語列」と扱うか...
- 短縮形の処理
- you'reとかdidn'tとか
- 親の誤り
- whyn't実はwhy don'tとか.
母国語くらいきちんと話せ!
- whyn't実はwhy don'tとか.
- 句読点の扱い(クォート含む)
- Redington(1993)はFinch & Chaterにのってるし,削除ぽいので削除.ただ,文末というタグだけは扱いたいんだよなぁ・・・
- 不明語(CHILDESには記述ゆれが結構ある)の削除.
- 事前解析
以上でやってみますか.