6月27日、「データサイエンティストサミット2014に行って来た!
次は、
ビッグデータの収集、整備、統合、活用のティップス
talend 正金(まさがね)さん
の内容をメモメモ
データ分析の阻害要因
歴史のある典型的なDWHシステム
顧客情報分析、リスク分析、売り上げ傾向分析、
ディメンジョンに合わせて
最適化が必要
ビジネスが新たなデータを要求する時代に
オンプレミスがソースデータ
想定していなかった情報が業務を取り巻いてきています
データ量、データの種類、ソース数
データ量、データの鮮度
ビッグデータでトレンドな分析対象
構造、半構造、多構造、非構造データ
・顧客インタラクションデータ
・非構造コンテンツ
・センサデータ
・業種、業界特化データ
困難な点
・データの種類が多岐に渡る
・データ量があまりに膨大
・情報の鮮度に対する要求の高度化
・データの意味を理解しなければならない
困難な点:ソースデータの複雑さ
・アクセスログ
・画像データ
例:twitter
分析作業の負荷軽減と精度向上、定着化のためのでーた
の整理整頓が必要
データ分析とビッグデータイノベーション
データ分析におけるプロセスと役割
仮説構築→データ収集→整備変換→視覚化→データ分析→データ活用
昨今のデータ分析システムが保持すべき3つの機能
インテグレーション
BI
ビッグデータストア
・ビッグデータストア
Hadoop(次世代YARN)
NoSQL Neo4J:グラフ
Spark:インメモリ
・BI
データ収集
データ整理
視覚化
分析
・データインテグレーション
データ収集の自動化
コンバージョン
クレンジング・フィルタリング
属性の付与・結合
データストアに投入
もの(道具と基盤)は投資獲得とともに順次拡張
BIツール
・QlikView,tableau,Actuate
インテグレーション
・talend
ビッグデータ
・Hadoop,Amazon
DWH化
ビッグデータインテグレーションのポイント
・目的と手段を取り違えない
スパイラルアプローチ
・仮説、検証、データ分析PDCA
三位一体
・データサイエンティスト、インテグレーション、基盤担当
ビッグデータ統合のTalend
Talendの製品紹介
製品開発→OSSを取り入れた
ESBも
Talend Open Studio for Big Data
複雑なMap Reduce処理をGUIで開発(商用版機能)
・500以上のコンポーネント
・Hadoopネイティブ
・ビジネスモデル
世界4000社+。日本200+
次は、
ビッグデータの収集、整備、統合、活用のティップス
talend 正金(まさがね)さん
の内容をメモメモ
データ分析の阻害要因
歴史のある典型的なDWHシステム
顧客情報分析、リスク分析、売り上げ傾向分析、
ディメンジョンに合わせて
最適化が必要
ビジネスが新たなデータを要求する時代に
オンプレミスがソースデータ
想定していなかった情報が業務を取り巻いてきています
データ量、データの種類、ソース数
データ量、データの鮮度
ビッグデータでトレンドな分析対象
構造、半構造、多構造、非構造データ
・顧客インタラクションデータ
・非構造コンテンツ
・センサデータ
・業種、業界特化データ
困難な点
・データの種類が多岐に渡る
・データ量があまりに膨大
・情報の鮮度に対する要求の高度化
・データの意味を理解しなければならない
困難な点:ソースデータの複雑さ
・アクセスログ
・画像データ
例:twitter
分析作業の負荷軽減と精度向上、定着化のためのでーた
の整理整頓が必要
データ分析とビッグデータイノベーション
データ分析におけるプロセスと役割
仮説構築→データ収集→整備変換→視覚化→データ分析→データ活用
昨今のデータ分析システムが保持すべき3つの機能
インテグレーション
BI
ビッグデータストア
・ビッグデータストア
Hadoop(次世代YARN)
NoSQL Neo4J:グラフ
Spark:インメモリ
・BI
データ収集
データ整理
視覚化
分析
・データインテグレーション
データ収集の自動化
コンバージョン
クレンジング・フィルタリング
属性の付与・結合
データストアに投入
もの(道具と基盤)は投資獲得とともに順次拡張
BIツール
・QlikView,tableau,Actuate
インテグレーション
・talend
ビッグデータ
・Hadoop,Amazon
DWH化
ビッグデータインテグレーションのポイント
・目的と手段を取り違えない
スパイラルアプローチ
・仮説、検証、データ分析PDCA
三位一体
・データサイエンティスト、インテグレーション、基盤担当
ビッグデータ統合のTalend
Talendの製品紹介
製品開発→OSSを取り入れた
ESBも
Talend Open Studio for Big Data
複雑なMap Reduce処理をGUIで開発(商用版機能)
・500以上のコンポーネント
・Hadoopネイティブ
・ビジネスモデル
世界4000社+。日本200+