Quantcast
Channel: ウィリアムのいたずらの、まちあるき、たべあるき
Viewing all articles
Browse latest Browse all 7271

人工知能「ワトソン」をクラウドで、APIも公開!などの話を聞いてきた→これが主題ではないが・・

$
0
0

表題の件は、1年以上前に

米IBM、「ワトソン」をクラウド経由で提供
http://www.nikkei.com/article/DGXNASGM1500K_V11C13A1EB2000/



IBM:人工知能「Watson」のAPIを一般公開へ
http://www.businessnewsline.com/biztech/201311141641570000.html

で出ていますが、そのような話も含めて、


データサイエンティストサミット2014autumn
ビジネスデータ分析をアクションにつなげる
http://event.shoeisha.jp/dss/20141120


で、聞いてきたので、その内容をメモメモ

(そのまえに、ちなみに、ワトソンのAPIなどは

http://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/

に載っている)



■ごあいさつ
・今回で3回目
・テクノロジの話からスタート
・実際のビジネスへの事例
・全体6セッション



■基調講演 ビジネスパーソンのためのデータサイエンス思考
~いかにして問題を解くか

・二十数年前、データサイエンティストみたいなことを
  →視聴率予測プログラム
    二項分布、ディレクレ
  →つらくなってきた。楽なほうに
   今日は、らくな話

・今日のテーマは「データサイエンス思考」です

・それは柔軟な抽象性
  抽象性→その意味は「つかみ出す」
  なにを→本質を「つかみだす」

・データサイエンス思考の対極にあるもの
  掛け算の順序
  りんごの3個入りが4パック
 英語の教科書
  4 times 3
 どちらでもいい
  線形代数は変えちゃいけないけど

・データサイエンス思考
  相対性理論とGPS
 時間に早さを書ける=距離
  1日間、相対性理論の効果を無視すると、
  11キロもずれてしまう

・データサイエンス思考2
 引っ越せる最大のソファー
   正方形
   長方形
   三角形
   ハマースレー型
   ガーバー型

・データサイエンス思考3
 選択を変えるべきか否か
 ・モンティフォール問題

 3でなく100だったら?
 98個あける

・2回転させると紐は0回転と同じ
  →スピノール 2回転で戻る
  ベクトルの親戚1回転でもどる



■一般実務家に求められるデータ分析スキルとは
~分析専門家との違いはここだ!

分析専門家とビジネス実務家の視点
 一般的な実務家と、データサイエンティストの領域は違う

 一般的な実務家
  汎用的な情報・企業・必要とされる頻度高い

 データサイエンティスト
  専門的・個人情報に近い情報・大きな判断=頻度低い

分析スキル

データ分析の成功要因
・課題解決の下地、課題の設定
・適切なデータの準備
・分析手法の知識・技術
・適切なコミュニケーション

高度な統計分析が必ずしも使われない6つの理由
・専門知識や専門アプリが必要
・必要な精度に対してコスト大
・相手に納得してもらいにくい
・必要なスピードとのギャップ
・統計への心理的ハードル
・高度であるほど汎用性が下がる

わからないものに、答えだけ持ってこられても

「データ整理」から「データ分析」へ
どんなのやってる?
・平均とってみました
・時系列で並べてみました
・成長率を計算しました
→データ整理ではありますが、データ分析ではない

データ整理
 このデータはどういう特徴か?
 限定的
 1種類
 平均中央値
データ分析
 過去のデータから、どのような一般性が導き出せるか
 汎用的
 2種類以上
 相関、回帰など

データ整理     データ分析
  おおまかな  課題ポイント   要因や一般則を
  状況把握    の見極め     見つける

データ分析に移るには
 「目的」と「仮説」がぬけている

仮説の構築
・目的確認
・仮説づくり
・分析
・ストーリーライン

仮説アプローチのコツ
・MECE
・制約にしばられない
・アクショナルドライバーを意識する
・構造を意識する
・複数の仮説を考えてみる
・最初から100点を狙わない

優先順位のつけ方
・結果へのインパクト
・実行容易性

方策をゴールとするときは要注意!

仕事の中で分析結果がゴールではない
・分析にのめりこんで、周りが見えなくなる
  分析者が見せるプレゼン:分析者視点→ひどい
・受けての心理的ハードル
・よけいな突っ込み
・シンプルにすること大切
データ&ストーリー



■データサイエンティストの活動を支えるプラットフォームとは
 分析→社会貢献
・ビッグデータは、今日のデジタル化された市場から生まれた
 これまで課題とされなかった特性を持ち合わせています
 ・4つのV(3つのV+正確性)

・IBM ビッグデータプラットフォーム

・レファレンスアーキテクチャ

・ユースケースのご紹介:資料配れません
 まず、分析の話わすれてください。
 ビジネスモデル、ビジネスシナリオに興味ない人は
  データサイエンティストとして、成功しません。

 分析に必要なデータを考える

・企業が求めるマーケティングデータとは?

自社製品・サービスの評判動向について、ソーシャルネットではどうなっているのか?
  →企業がほしいのは「どこのレイヤの人か?」
(やばいはなし)C-plain→だれが→特性全部見え

売上データ
・個人情報に紐づいている

プロモーションを代行
→おきゃくさま情報のプロファイル化
 生き方そのものをプロモート

ライフログによるマーケティング

で、このチャートなんです???
・半分の人はわかるらしい???
(→いや、わたしはアーキテクチャをみてわかるが、
  いまの説明からは、あんまりわかんなかった)

Insight 2014
IBM Insight 2014でに発表概要
~ベールを脱いだ、IBMアナリティクス戦略!

・ワトソン
 →ニッチな技術と思われていた
 →一般の人にも、クラウド(SoftLayer)で使えるように
・APIを用意している
  シェフワトソン
・構造化データ
・IBMは、なんでもクラウドでできるといっていない
  たとえば、何ペタバイトのデータをクラウドにおける?
・Twitterとの提携
・IBMのクラウドにくれば、ほしいOpenDataすべて取れるようにしたい



■成功事例に学ぶデータ活用成功のポイントとは
・IBMデータ分析プラットフォーム
 PureData For Analytics+SPSS

 ・InーDBアナリティクス活用事例
 ・分析システム基盤
 ・In-DBアナリティクス概要
 ・In-DBアナリティクスSPSS Modeler連携&でも

・InーDBアナリティクス活用事例
 課金アイテムについて:徹底的に分析
   クラウド→スピード:バッチ→5分に1回
 広告
   数分前に発生したデータも分析対象
   おもりしている時間はない
 EC
   セントラルから利用の切り出し

IBMが提唱する情報基盤
 Watson Foundation

INーDBアナリティクス
 ねてぃーざ
  あ、はやいやつね
  →簡易性:徹底的に簡単

 SQLでは不十分

アーキテクチャ概要
3つの特徴
・超並列
・FPGA
・ゾーンマップ

検索1 10時間37分→2.4秒(15000倍以上)
 ノンチューニング

・分析:データの理解からルールの理解
・データマイニング、最適化→必要な技術が変わる

高度な分析の適用
 ・パターン発見
 ・予測
 ・クラスタリング
→Rに流す:無駄なデータが流れる
 SQL以上の処理をDBの中でやろうとしている→:In-DB
 インターフェースの問題が残る

ネティーザ
 機能数300くらい実装
Kmeans 16時間→3分12秒

SPSSとの連携:C++できる

新モデル:4Uラックにいれた!2千万ちょい

----講師入れ替わり

・ちょっとこの1年間で、データサイエンティストに見直し
  流行のアルゴリズム、テクノロジでない
  データサイエンティスト:業務、分析、IT
   →1人でできるか?

・業務間のギャップとITのギャップ
  1.課題を解決するシナリオ策定能力
  2.コミュニケーション能力

 ビジネスユニット

 ITの側:NTTぷらら
   Rと安いデータハウス→SPSSとねてぃーざで上手くいった

業務課題
 「あとらくと、りていん、ぐろー」「りすく、不正検知」
 一番初めに買ったSKUでわかる
 クラスター分析→教師なし型

ActionとCapture

IBM SPSS Modeler
IBM SPSS Collaboration and Development Service

データサイエンティストとしてITの支援を前提としないユーザー分析ツール
Watson Analytics

成功を目指すに当たり最も優先されるポイント
・pridict act capture
 顧客を理解→ロードマップ



■Big Dataを活用する組織のありかた

データ資産が有効活用できないトップ5
・データのオーナーシップに関する政治的あつれき
・情報管理と情報技術管理の混同
・経営管理とデータフローの伏せ一号
・プライバシーに関する確立した手法・法規・慣例の欠如
・データ標準

ディスカッションのトピック
・データ分析とビジネス
・データサイエンティストをどう育てるか
・データ分析組織

くれめんたいんのキャンペーン?

YAHOO
・検索の入力補助:0.数パーセント

分析の3つのポイント
1.ゲーム理論
2.アベレージヒッタ
3.ありもののデータでどうにかするのが一流

マーケティングROI
  リッチデータ
  プアデータ
→どんなデータでも価値を出す

・一流の分析者
・三流の分析者がいっぱい

・結局8割はクロス集計だよね!
(あとは、お話なので省略)

Viewing all articles
Browse latest Browse all 7271

Trending Articles