■ - PolyPeaceLight

ムロドー富田氏
- twitter: railute
- blog: http://intheforest.jp/blog
- mail: tomitakazutaka@gmail.com
全回アジェンダ
- Cassandraを複数で立ち上げる
- コンシステンシーレベルとは ← ｲﾏｺｺ
- ゴシッププロトコル？
- 複数ノードで事なrう設定
- 巨大なデータを入れてみる
- ノードのスプリットブレイン

storage-conf.xmlのPartitionのデフォルト (RandomPartitionoer)
- CassandraはキーをMD5でhash値化して、ノードが持つレンジに割り当てる
- Columnのキーは数字でなくてもいい、むしろ数字じゃなくてもいい
  - シリアルキーを入手するためだけにRDBMSを叩いたりしているので、一意になることが保証される方法を使う方がいい

storage-conf.xmlのReplicaPlacementStrategyで指定(RackUnwareStrategy)
- ラックをまたがないとかデータセンターをまたがないとかの設定に使う
- ring上で隣り合う、n-1分、右のノードまで書き込む
- N = ReplicationFactor

複数ノードを立ち上げたときに実際データはいつ書き込まれるのか？
ConsistencyLevelZERO
Localの場合は、CommitLogに書き込まれた後Flushで書き込まれる
Localでない場合は、hintsをつけて、CommitLogに追加する
- データの書き込み先に依頼する
  - ZEROの場合は依頼して結果を待たなくて終了する(書き込みの確認をしない)
- Message Sent (ここ微妙？)

returnの戻るタイミングがConsistencyLevelで異なる
OSに対してwrite命令をだした時点で返却されるので、Consistencyは保持されない
- 途中でOSが落ちたり、bufferの時点で書き込まれていない可能性はある
StrongなConsistencyLevelのものはCassandraは使わない方がいいんじゃないかな
- 金融系はやめたほうがいい

ConsistencyLevelZeroで書き込んで、Localの場合は、CommitLogに書き込む
ReadRepairは別スレッドで常に動いている(Oneのとき？QUORUMの場合はReadRepairしてから最新をreturn？)
読み込みでQUORUMとかALLの場合は、データの値も取得、比較をする(？)のでデータがでかい場合はパフォーマンスは落ちる
ノードが死んでいると、スキップしてさらに隣には行かない
- decommitionを打たない限りIPは消えずに残る
- loadbalanceをうつとレンジが変わるが、落ちたサバはそのままにレンジに残る
- loadbalance自体がdecommitionを含めてやってくれたはず(？)
- decommitionは自分自身が抜ける
- removetokenすると指定したノードがringから抜ける
- decommitionして、データを綺麗にして再追加しようとして同じIPだと入らなかった
ノードが死ぬと自動でringから切り離されないけど、自動的には切り離されない
- なんとかならないの？ノードがダウンするのは多くの場合、一時的なものだから勝手にrebalancingするのはおかしいからあえてしない！(というfacebookの論文があった)

各種WebAPIサービスから茨城の情報を集めよう
まずは飲食店の検索ができるサイト
- ぐるなびWebサービス
- ホットペッパーWebサービス
  - 茨城県を指定すると返ってこないwww
- 食べログAPI