PolyPeaceLight

TeamLabのレコメンデーション勉強会に参戦してきた！

プログラム

http://www.ustream.tv/channel/team-lab

オープニング

チームラボの主な実績

クリエイティブ
- メディアアート
SI&テクノロジー
- サントリー、グルナビ、ガリバーとかのSIとして受託

リコメンデーションコンテスト
サグールテレビのサーバは１００台オーバー全部　九十九電機の自作パーツと鉄工所で作ってもらったフレームで組んでます

履歴ベースのレコメンデーションエンジン

入力
- ユーザ行動データ
  - アクセスログ
  - 購買履歴DB　など
処理
- 特殊な協調フィルタを用いてユーザ行動をもとにアイテムーアイテムの類似性を求める
- メジャーエンジン
- マニアエンジン
- 超マニアエンジン

コンテンツベースのレコメンデーションエンジン

入力
- 複数のテキストデータ
処理
- tfidfとかを使って関連度を求めてレコメンド

レコメンデーションエンジンの性質

協調フィルタリング
- ユーザが閲覧されないとなにもできない
コンテンツベース
- 新しい発見が少ない

使いどころ

ものとものを探す・進める
- ユーザは人気の2割以下しかみない
- ここに残りの8割を進める
直感的に探す
- アイテム間の距離を二次元的にマッピングして表示することができる

ランダムでいくつかの選択肢を出すこと

選択させてプロフィールを収集して、それにマッチするアイテムをレコメンドする

これからのレコメンデーションエンジン

マーケットで求められているもの
- 導入コストを安く
- 導入期間を短く
- ランニングコストを安く
- 反映速度を速く
- カスタマイズ性を高める
- 効果を知りたい
- 精度を高める

レコメンデーションの将来

レコメンデーションエンジンは市場に相当数出回っており、市場価値は急落している

どんなサイトにも一瞬で導入できるレコメンド製品
インタフェイスとの組み合わせ
表現の場の拡大
圧倒的な効果を持つ新エンジン
対象を広げる(動画、画像、音楽)

そこでTeamLabはどういうのを考えているのか？

レコメンドのパフォーマンス

穴井ゆうき @rin1024
千葉工業大学

相互情報量
潜在的意味分析
- 主成分分析の名前をかえてあるだけ

楽して計算するには？

集合知はだいたいあってるがキーワード
手を抜く例
- 類語検索
- 複合語抽出

類語検索

計算したくない
Googleを利用する論文の紹介
- seal (Set Expander for Any Language) Richard C Wang and William W. Cohen
- http://boowa.com/

複合語評価

Wikipediaやはてなキーワードの辞書を利用する
- 定期的に辞書更新しとけばいいんじゃね？

レコメンデーションシステムで人間が死ぬ

id:gnarl
@toodesking

Real World Recommendator

- 現実世界の推薦システムにおける、精度と速度、以外のhなし
精度評価の典型的な例
- 穴埋め問題で精度を測る

ユーザ満足度=精度ではない
- この数値が高ければよい推薦であるという指標は存在しない
推薦という言葉はおおざっぱすぎる
- 推薦が解決することを期待されているユーザニーズ
  - ワンピースの色違い
  - ジーンズに似合う靴とか

推薦システム、もう一人の登場人物

推薦システムに対して、「どのような結果を出してほしい」と決定する人間が必要=サイトオーナー
- 推薦結果が気に入らない場合に、どのような結果が出てほしいかを説明できる人物

説明能力重要

古典的協調フィルタリングのロバストネス
- とにかくシンプル
アルゴリズムのリーダビリティは重要
- おすすめの理由を説明された方が納得できる

調整能力重要

結果が悪いときにどうすればよいか
- 評価関数の重み付けをかえる
- そこらじゅうのパラメタに重みを
- シンプルな方法の方が調整しやすい
- 素朴でアドホックな手法が役立つ

Controlled World Recommender

データセットの偏り
- レーティングベースばかり
- 穴埋め問題は解くのも評価するのも簡単
- 現実のデータセットはだいたいインプリシットでノイズまみれで
評価方法の偏り
- RMSE!
- カスタマイズしやすい、は評価されにくい
- 仕事だと「この結果なんとなくいいね」が通ってしまう

おわりに

「よい」をていぎすることが大変で、重要

LT: ネットワークのIDSのメタファ

ベイジアン
グレイリスト
スロットリング
ポリシー学習