Quantcast
Channel: ウィリアムのいたずらの、まちあるき、たべあるき
Viewing all articles
Browse latest Browse all 7270

データサイエンティストサミット2014に行って来た!−その5 talend

$
0
0
6月27日、「データサイエンティストサミット2014に行って来た!

次は、

ビッグデータの収集、整備、統合、活用のティップス
talend 正金(まさがね)さん

の内容をメモメモ



データ分析の阻害要因

歴史のある典型的なDWHシステム
 顧客情報分析、リスク分析、売り上げ傾向分析、
 ディメンジョンに合わせて
 最適化が必要

ビジネスが新たなデータを要求する時代に
 オンプレミスがソースデータ

想定していなかった情報が業務を取り巻いてきています
 データ量、データの種類、ソース数
 データ量、データの鮮度

ビッグデータでトレンドな分析対象
構造、半構造、多構造、非構造データ
・顧客インタラクションデータ
・非構造コンテンツ
・センサデータ
・業種、業界特化データ

困難な点
・データの種類が多岐に渡る
・データ量があまりに膨大
・情報の鮮度に対する要求の高度化
・データの意味を理解しなければならない

困難な点:ソースデータの複雑さ
 ・アクセスログ
 ・画像データ

例:twitter

分析作業の負荷軽減と精度向上、定着化のためのでーた
の整理整頓が必要

データ分析とビッグデータイノベーション

データ分析におけるプロセスと役割
仮説構築→データ収集→整備変換→視覚化→データ分析→データ活用

昨今のデータ分析システムが保持すべき3つの機能
  インテグレーション
  BI
  ビッグデータストア

・ビッグデータストア
  Hadoop(次世代YARN)
  NoSQL Neo4J:グラフ
  Spark:インメモリ

・BI
  データ収集
  データ整理
  視覚化
  分析

・データインテグレーション
  データ収集の自動化
  コンバージョン
  クレンジング・フィルタリング
  属性の付与・結合
  データストアに投入

もの(道具と基盤)は投資獲得とともに順次拡張
BIツール
・QlikView,tableau,Actuate
インテグレーション
・talend
ビッグデータ
・Hadoop,Amazon

DWH化
ビッグデータインテグレーションのポイント
・目的と手段を取り違えない
スパイラルアプローチ
・仮説、検証、データ分析PDCA
三位一体
・データサイエンティスト、インテグレーション、基盤担当

ビッグデータ統合のTalend

Talendの製品紹介
 製品開発→OSSを取り入れた

ESBも

Talend Open Studio for Big Data

複雑なMap Reduce処理をGUIで開発(商用版機能)

・500以上のコンポーネント
・Hadoopネイティブ
・ビジネスモデル

世界4000社+。日本200+


Viewing all articles
Browse latest Browse all 7270

Trending Articles