Quantcast
Channel: ウィリアムのいたずらの、まちあるき、たべあるき
Viewing all articles
Browse latest Browse all 7269

「ヤフーはいかにしてHadoopを活用しているのか」を聞いてきた!

$
0
0
DB Tech Showcase 東京2014つづき、11/12の

ヤフーはいかにしてHadoopを活用しているのか

をきいてきたので、めもめも



・Yahoo is 課題解決エンジン
 100種類を超えるサービス
 マルチビッグデータカンパニー

・ビッグデータ!
 月間アクティブユーザーID:2800万人
 月間ページビュー590億
 年間ユニーク検索75億
 取扱商品 1億点以上・・・今、もう少しで楽天おいぬく

 年間 「ORACLE エラー」検索数 約5万6千
 一番検索されているコート ORA-12154
 TNS-サービス名を解決できませんでした
 →TNSを真っ先に解決すべきと判断できる

・Volume,Velocity,Variety→value
 ビッグデータレポート
  景気と検索ワード
  議席率:的中率高い
  インフルエンザ感染状況
  大相撲の人気がジャニーズを超えたのか?
  YAHOOで検索してね!
 YAHOO DMP
  データマネジメントプラットフォーム
  やふってください
 サービス展開:
  検索ワード入力補助
  レコメンデーション
  音声アシスト
  感情分析
 A/Bテスト


どのようなシステムでデータを処理しているか
・データの流れ
    ログ(DataHighway)
       ↓
      Hadoop
一時加工データ
 Storm      RDB
Hadoop中心

5700台:1日1.5台のペースで故障(故障率0.8%)
400超のユーザーを超えるマルチテナンシー

ヤフーのHadoop基盤の歩み
~2010 数台
2011~2012 全社クラスタ化
2013年 マルチビックデータ(3千数百)
2014  更なるスケーラビリティ:データの蓄積先
ニーズに応じてスケール

現在のHadoopに対する要求
・でーたから新たな価値を生み出したい
1.新機能の開発に注力したい
2.長期データを活用したい

とりまく状況
・データ増加
・データ集約
・システム集約

もうひとつ
・Oracle,MySQLも利用
 apache:ファイルに落とされる
→1ヶ月69P圧縮して14P

・コンテンツごとの利用状況を把握したい
・都道府県→分析
  select count(*)
   Oracle exadata,Teradata→さらに高い
   →非構造化:Hadoop:DBに置き換わるものでない
   →スーパーコンピューターに置き換わる

まとめ
・HadoopはRDBと違った領域
 より構造化されていない大量データ
 CDH:無料でダウンロードできる
  →新人研修で構築
 OpenStackの次期バージョンに載ってくる?

ディスク障害が多い

Viewing all articles
Browse latest Browse all 7269

Trending Articles