■
Hive in NHN Japan (NHN Japan 田籠 聡 @tagomoris)
- インデックスは興味なくて、パーティション内を全部舐めて、useragentとかPCなのかモバイルなのかを調べてる
- リアルタイムにログがfluentで来て、hoopを使って半リアルタイムでデータHDFSに上がって、Hiveで回してる
- Shib, ShibUIをHiveのWeb Applicationを作って、使っている
Why Hive
- RDBに慣らされたエンジニアの修正は恐ろしい
- 処理を書き捨てる勇気 そう、Hiveならね!
Client Tools?
- Hue?
- カジュアルにDropとかAlterとかされたら困る
- 他のToolから使えないと困る
- 周期的に登録して、グラフでみたい
Policy
- Copy & Paste Based Query Management
- Not referred Result must DIE
Shib
- SELECTしかない
- 結果を保存してくれる
- HTTP API
ShibUI
- 定期的に叩いたりをする
- グラフを叩いてみせる
- Query Builder
- ディレクターさんに自分で作ってもらいたい
- 複雑なのは相談してください、という運用
- 参照されなけど回ってる結果を晒す
Next
- Huahin ManagerでMapReduceの制御したい
- node.js 0.6にしたいなぁ
QA
- 大規模なデータを制限はしていない
- 大規模なやつをまじめに制限するのは大変
- クラスタがまだ小さいので占有するJobがあれば気づける
- 出力同士のJoinがしたいばあいは?
- エクセルでやりましょう
ピザとビール登場
Hive Source Code Reading
Optimizerはterribleだ
- patch welcom!
Hive Optimizer
- Rule Base
- Optimizerはいくつかある
Hive Performance
- hive.map.aggr :default true
- map side aggregation (in-mapper combining)
- hive.auto.convert.join :default false
- hive.exec.parallel
impression
- hiveでは入り口と出口が大事かなぁ
Introduce to Hive undocumented feature (@tamtam180)
- 退職エントリ書くと2chに晒される
Hive Cli
- dfsコマンドが使える
- list jarsでjar見られる
- sourceコマンドが使える
- !コマンドが使える
Hook
- 0.8とか0.9の話がメインです
- ClientStatsPublisher
- ※これでAPIが幸せになる???のかな???
- ※Hookの使いどころが想像つかない