こりこり

javascriptで「似非形態素分類」

var str = "予想通りまじめそうで,優しそうな人で,若輩者で不勉強なくせにえらそうな僕の話を怒りもせずに聞いてくれました.とても素敵なソフトウェア土産までいただいて,ありがとうございました.";
var query = str.match(/[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+|[a-zA-Z0-9]/g);
alert(query.join(","));

で,似非ですが,なんとなく単語切り出しができます.当然,動詞の活用やひらがなが続くようなところ,送り仮名の処理はできていませんが,サーバサイドで処理したくない&&クライアントサイドに大量の辞書データを送りつけられない,というときには重宝します.
 ちなみにphpでは

とやればできます.あくまでおもちゃ的な挙動なのですがね...

toton
phpspot