CLAN

CHILDESのデータを嬲るためのツールとしてCLANというのが無償で配布されているのですが,こいつが結構やっかいなツールで相当使いづらいのです.だから,メモ.といっても,たいしてよくわかっているわけではない.以下,興味のある人間だけが見ればよろし.

 ちなみに,一貫してsyntaxは

 

です.この最後の「@」が実行のために必要なのです.これが一番意味がわからん!!
タイプとは,話者やコメント,形態素情報などの識別詞のことです.具体的には幼児の発話は「*CHI」で母親の発話は「*MOT」になります.また形態素情報は「%mor」です.

よく使うコマンド

  • kwal:-sでキーワードを引っ掛ける.

kwal +s @

  • freq:-sでキーワードまたは-tでタイプを引っ掛けて頻度を調べる.

freq +s @ または freq +t<*type>

  • mlu:平均発話長を求める.

mol @

オプション

  • [+t]:タイプを選択する.
  • [+z]:範囲を選択する.特定の発話の範囲に制限したりする

mlu +t*CHI +z25u-125u @ (25発話から125発話までの間の幼児の平均発話長を求める).「25u」の「u」は発話(utterance)を意味しており,ここを「w(単語 word)」や「t(ターン turn))」としてもよろし.

  • [-s]:特定のポストコードを含む発話を除外する.
  • [+s]:特定の単語を含む発話だけを解析する.

freq +s"koko" @

  • [+o]:通常freqは,アルファベット順で表示されるが,このオプションをつけると頻度順に表示.
  • [+u]:複数ファイルを分析対象とした場合,結果をまとめて表示する.
  • [+d]:出現位置(発話行番号)の表示.
  • [+c]:大文字で始まる固有名詞のみの単語の一覧,出現頻度の表示.

また,特定の単語を解析から排除するには分析したいファイルが入っているフォルダに「exclude.cut」というファイルを作り,一行一単語で記述.そんでもって -s@exclude.cutというオプションをつけて実行するとよろし.
 なんて,くそダルい,発話データ解析!俺には向いてない!昨晩一人で作業してたら,なぜか笑いがこみ上げると同時に涙があふれ出たもの!
◆参考文献

今日から使える発話データベースCHILDES入門

今日から使える発話データベースCHILDES入門