Hadoop Conference Japan 2014に参加しました

最近あまり触ってなかったのですが、また案件で利用するニーズが出てきたので最新情報の収集目的です。

今日の収穫としてはこんな感じ

Apache Spark
- 一週間の活動量がすごい
  - 500 patch updates / w
  - 200 updates / w
  - 140 thread / w
  - 80 merged patches / w
Facebook Presto
- プラガブルよさ気
- Facebookの中で使われてるリポジトリ←すごい
- 各種DBマージして使える
- DBに投げるときにすでにクエリを入れてフィルタリングしてから取り出すこともできる←mongohadoopでも実装してたの懐かしい
BigQuery
- 公開してるBigQueryと中で使われてるのは同じ(リソース競合あり)
- お高いお金を払えば専有できるリソースもあるって
- DataFlowパイプライン処理のダッシュボード、流量とかソースからのLAGとか出てて素晴らしい。リアルタイムを謳うなら「どの程度」リアルタイムなのか出さないとな、と思った
- millwheelの論文読みたい
- flumeJava
HBaseは死火山←これはあんまり信じてない
YARN使いたかったらHadoop 2.4系使わないとスケジューラで困る(CDH5はHadoop2.3 + patchだから大丈夫)
YARNの初期設定はCDHかHDPのVMから設定ファイルも初期ディレクトリ構成もパクればいい。Ambariでもいいけど、直接設定見て書き換えられる方がrecipeにも書きやすい
hivemallアルゴリズムすごく多くてすごいAROWとかCSWとか
- Apache Incubatorになるかもとか
DATABRICKS CLOUDのダッシュボード便利そう

一番大きい部屋の最前列で会場中に響き渡る音で黄色い象を殴打した @naoya_itoさん
ハドゥープさん撫でようとしてまちがって殴ってしまった URL
2014-07-08 14:41:49 via Twitter for iPhone
質疑応答で質問がないときの @hamaken さんの投げかけた言葉がひどい
パブリックに流すのに司会に人間性を問われてる登壇者 @ryu_kobayashi #HCJ2014
2014-07-08 17:07:32 via Twitter for iPhone