DB Tech Showcase 東京2014つづき、11/12の
ヤフーはいかにしてHadoopを活用しているのか
をきいてきたので、めもめも
・Yahoo is 課題解決エンジン
100種類を超えるサービス
マルチビッグデータカンパニー
・ビッグデータ!
月間アクティブユーザーID:2800万人
月間ページビュー590億
年間ユニーク検索75億
取扱商品 1億点以上・・・今、もう少しで楽天おいぬく
年間 「ORACLE エラー」検索数 約5万6千
一番検索されているコート ORA-12154
TNS-サービス名を解決できませんでした
→TNSを真っ先に解決すべきと判断できる
・Volume,Velocity,Variety→value
ビッグデータレポート
景気と検索ワード
議席率:的中率高い
インフルエンザ感染状況
大相撲の人気がジャニーズを超えたのか?
YAHOOで検索してね!
YAHOO DMP
データマネジメントプラットフォーム
やふってください
サービス展開:
検索ワード入力補助
レコメンデーション
音声アシスト
感情分析
A/Bテスト
どのようなシステムでデータを処理しているか
・データの流れ
ログ(DataHighway)
↓
Hadoop
一時加工データ
Storm RDB
Hadoop中心
5700台:1日1.5台のペースで故障(故障率0.8%)
400超のユーザーを超えるマルチテナンシー
ヤフーのHadoop基盤の歩み
~2010 数台
2011~2012 全社クラスタ化
2013年 マルチビックデータ(3千数百)
2014 更なるスケーラビリティ:データの蓄積先
ニーズに応じてスケール
現在のHadoopに対する要求
・でーたから新たな価値を生み出したい
1.新機能の開発に注力したい
2.長期データを活用したい
とりまく状況
・データ増加
・データ集約
・システム集約
もうひとつ
・Oracle,MySQLも利用
apache:ファイルに落とされる
→1ヶ月69P圧縮して14P
・コンテンツごとの利用状況を把握したい
・都道府県→分析
select count(*)
Oracle exadata,Teradata→さらに高い
→非構造化:Hadoop:DBに置き換わるものでない
→スーパーコンピューターに置き換わる
まとめ
・HadoopはRDBと違った領域
より構造化されていない大量データ
CDH:無料でダウンロードできる
→新人研修で構築
OpenStackの次期バージョンに載ってくる?
ディスク障害が多い
ヤフーはいかにしてHadoopを活用しているのか
をきいてきたので、めもめも
・Yahoo is 課題解決エンジン
100種類を超えるサービス
マルチビッグデータカンパニー
・ビッグデータ!
月間アクティブユーザーID:2800万人
月間ページビュー590億
年間ユニーク検索75億
取扱商品 1億点以上・・・今、もう少しで楽天おいぬく
年間 「ORACLE エラー」検索数 約5万6千
一番検索されているコート ORA-12154
TNS-サービス名を解決できませんでした
→TNSを真っ先に解決すべきと判断できる
・Volume,Velocity,Variety→value
ビッグデータレポート
景気と検索ワード
議席率:的中率高い
インフルエンザ感染状況
大相撲の人気がジャニーズを超えたのか?
YAHOOで検索してね!
YAHOO DMP
データマネジメントプラットフォーム
やふってください
サービス展開:
検索ワード入力補助
レコメンデーション
音声アシスト
感情分析
A/Bテスト
どのようなシステムでデータを処理しているか
・データの流れ
ログ(DataHighway)
↓
Hadoop
一時加工データ
Storm RDB
Hadoop中心
5700台:1日1.5台のペースで故障(故障率0.8%)
400超のユーザーを超えるマルチテナンシー
ヤフーのHadoop基盤の歩み
~2010 数台
2011~2012 全社クラスタ化
2013年 マルチビックデータ(3千数百)
2014 更なるスケーラビリティ:データの蓄積先
ニーズに応じてスケール
現在のHadoopに対する要求
・でーたから新たな価値を生み出したい
1.新機能の開発に注力したい
2.長期データを活用したい
とりまく状況
・データ増加
・データ集約
・システム集約
もうひとつ
・Oracle,MySQLも利用
apache:ファイルに落とされる
→1ヶ月69P圧縮して14P
・コンテンツごとの利用状況を把握したい
・都道府県→分析
select count(*)
Oracle exadata,Teradata→さらに高い
→非構造化:Hadoop:DBに置き換わるものでない
→スーパーコンピューターに置き換わる
まとめ
・HadoopはRDBと違った領域
より構造化されていない大量データ
CDH:無料でダウンロードできる
→新人研修で構築
OpenStackの次期バージョンに載ってくる?
ディスク障害が多い