ビッグデータのリアルタイム処理プラットフォーム−Storm

デブサミ２０１４に行ってきた！シリーズ

２月１３日のE5セッション

Stormで実現するビッグデータのリアルタイム処理プラットフォーム
〜ストリームデータ処理から機械学習まで〜

をメモメモ

■自己紹介
@takanorig

■今日のストーリー
・ビッグデータとリアルタイム
・Storm
・アーキテクチャ

■ビッグデータXリアルタイム
・６０秒間
　　Twitter
　　Facebook
　　Skype
・なぜ、リアルタイムが必要なのか
　　Internet Of Things：モノのインターネット

・ビッグデータ関連プロダクトのパラダイム
２００３　
２００４　MapReduce
２００５　BigTable
２０１０　BigQuery

オープンソース
２００７　Hadoop
２００８　Hbase
２０１１　Twitter Storm
２０１３　Drill
→リアルタイム性が求められている

・これまでのビッグデータ処理
　　ログ解析
　　レコメンドエンジン
　→主にバッチで処理する機能

・今もとめれれる
　　不正利用
　　センサーデータ
　　災害時
　　ユーザー直近行動のレコメンド
　→リアルタイム処理

ビッグデータ処理の３つのタイプ（レイテンシー順）
　　・バッチ
　　・クエリー
　　・ストリーム

→要件に応じて単体Or組み合わせ

プロダクト
・バッチ：Hadoop
・インタラクティブクエリー：Drill,Impala。Stinger、Presto
・ストリームデータ処理：Storm、Spark Stream

ストリームデータ処理とは
　連続的に発生し続けるデータ（ストリームデータ）をリアルタイムに
解析分析などの処理をおこないつづける

＜＜適用モデル＞＞
・大量データの事前処理（正確性）
・リアルタイムデータ集計
・センサーデータの集計／分析
・セキュリティ

■ストリームデータ処理を実現するStorm
Stormとは
　分散し、耐障害性の高いリアルタイム処理
・Twitterがオープンソースとして公開した分散リアルタイム処理フレームワーク
・ストリームデータ処理を実現するための代表的なOSS
　　→コアエンジンはClojure、コンポーネントはJava,Scala,Rubyなど
・導入事例
　　ぐるーぽん、ありばば、

７つの特徴
１．簡単な統合（Integrates)
２．シンプルなAPI（SimpleAPI)
３．スケーラブル
４．耐障害性（フォルト・トレランス）
５．欠損のないデータ処理（Guarantees data processing）
６．複数の開発言語サポート（Use With any language）
７．簡単なデプロイ、運用（Easy to deploy and oparate)

Stormのクラスタ
nimbus Node→ZooKeeper→Supervisor→worker
パフォーマンスをあげるには、Workerを増やす

Storm　トポロジー（全体）
・SpoutとBoltをつなぐ
　ながれがStream
タプル：処理されるメッセージ

キーフィーチャー
１．ストリームグルーピング
２．Distributed RPC
３．トランザクション的
４．Trident：複数まとめて、CEPのような処理
５．メトリクス：内部情報とれる

パフォーマンス
０．８のとき、１秒間で３０００００タプル
１６４万（Twiotterで）

■ストリームデータ処理のアーキテクチャ

ポイント
１．大量データの収集方法
２．増減するストリームデータの対応
３．分散処理
４．中間データ

データ発生元
　　→データ受信部
　　　　→メッセージキューにためる
　　　　　　→データ処理部：
　　　　　　　　　→RDBとかにいれる

※注意：標準偏差は分散できない
　中間データはキャッシュとして保存

事例：
　Infochimps社のリアルタイム分析サービス
　Loggly社のログマネジメントサービス
　　　データの振り分け、など
　クラウド上でセンサーデータをリアルタイム処理
　　　かさんどらでためて、データ集計
　Something+Storm
　　　YARN＋Storm：Storm　on YARN
　　　amazon kinesis with storm
　　　　→kinesisは収集が中心
　Stormでオンライン機械学習 Stream - ML
　　　AcroMUSASHI Stream　１月３０日リリース
　　　　→インメモリDBに格納
　　モチベーション
　　（１）イベント処理→CEP→機械学習
　　　　　on ストリームデータ処理
　　（２）スケーラブル＋高信頼性
　　特徴
　　　スケーラビリティ
　　　データ処理全体のリアルタイム処理
　　　クラスタリング
　　　はずれ値
　　　変化店

バッチとリアルタイムのハイブリッド
　ラムダアーキテクチャ
　　　　Batch Layer+Speed Layer→serving Layer
　　　　Hadoop+Storm→いんぱらとか

■まとめ
Stormはストリームデータ処理を簡単に実現するフレームワーク
AcroMUSASHI Stream使ってみてください

ビッグデータのリアルタイム処理プラットフォーム−Storm

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？