Hive in NHN Japan (NHN Japan 田籠 聡 @tagomoris)

  • インデックスは興味なくて、パーティション内を全部舐めて、useragentとかPCなのかモバイルなのかを調べてる
  • リアルタイムにログがfluentで来て、hoopを使って半リアルタイムでデータHDFSに上がって、Hiveで回してる
  • Shib, ShibUIをHiveのWeb Applicationを作って、使っている
Why Hive
  • RDBに慣らされたエンジニアの修正は恐ろしい
    • 処理を書き捨てる勇気 そう、Hiveならね!
Client Tools?
  • Hue?
  • カジュアルにDropとかAlterとかされたら困る
  • 他のToolから使えないと困る
  • 周期的に登録して、グラフでみたい
Policy
  • Copy & Paste Based Query Management
  • Not referred Result must DIE
Shib
  • SELECTしかない
  • 結果を保存してくれる
  • HTTP API
ShibUI
  • 定期的に叩いたりをする
  • グラフを叩いてみせる
  • Query Builder
    • ディレクターさんに自分で作ってもらいたい
    • 複雑なのは相談してください、という運用
  • 参照されなけど回ってる結果を晒す
Next
  • Huahin ManagerでMapReduceの制御したい
  • node.js 0.6にしたいなぁ
QA
  • 大規模なデータを制限はしていない
    • 大規模なやつをまじめに制限するのは大変
    • クラスタがまだ小さいので占有するJobがあれば気づける
  • 出力同士のJoinがしたいばあいは?
    • エクセルでやりましょう

ピザとビール登場

Hive Source Code Reading

Optimizerはterribleだ
  • patch welcom!
Hive Optimizer
  • Rule Base
    • Optimizerはいくつかある
Hive Performance
  • hive.map.aggr :default true
    • map side aggregation (in-mapper combining)
  • hive.auto.convert.join :default false
  • hive.exec.parallel
impression
  • hiveでは入り口と出口が大事かなぁ

Introduce to Hive undocumented feature (@tamtam180)

  • 退職エントリ書くと2chに晒される
Hive Cli
  • dfsコマンドが使える
  • list jarsでjar見られる
  • sourceコマンドが使える
  • !コマンドが使える
Hook
  • 0.8とか0.9の話がメインです
  • ClientStatsPublisher
    • ※これでAPIが幸せになる???のかな???
  • ※Hookの使いどころが想像つかない
PDK (plugin development kit) Hive-0.8~
  • UDF関数の追加を楽にするためのSDK
  • document化されていないのはそれなりに理由がある

http://togetter.com/li/312443

NTTデータの @hamaken さんはじめスタッフの皆様ありがとうございました!