Sparkによる機械学習と、ディープラーニングのしくみについて聞いてきた！

10月19日、「データサイエンティスト実践セミナー　Sparkによる機械学習とディープラーニング」を聞いてきた！
その内容をメモメモ！

■Spark活用による機械学習入門
本日の内容
　・MLLibによる機械学習プログラミング
　・分析を支援するビジュアライゼーションAPI
　・新しい分析基盤Data Science Experience

・Spark MLLibによる機械学習プログラミング
　http://bit.ly/2ecYpWK
　与えられたデータ（コイン１００枚）を教師
　クラス分類（教師あり学習）問題です

・今回出てくる言葉
　Spark MLLib
　統合エンジンSpark
　　複数言語に対応していて、どの言語でも利用可能
　　YARNとの連携が出来る
　MLLib
　　Sparkで機械学習：MLLibとRが利用可能
　データの持ち方
　　RDD：分散処理のデータセット
　　DataFrame：テーブルのようなデータ構造を持った分散処理
　処理
　　Spark mllib:RDDベース
　　spark.ml：DataFrameベース　今後○
　mllibで
　　分類と回帰
　　　モデル（SVM,ロジスティック回帰、線形回帰）
　　　ナイーブベイズ
　　　決定木
　　　アンサンブルツリー
　　　単調回帰
　　協調フィルタリング
　　　ALS
　SVM
　　各データ間のマージン最大化となる超平面で分類
　　　マージン最大化＝はんか能力
　　サポートベクターによって超平面を構成
　　顧客の離反分析

プログラミングツール
　Jupyter Notebook
　　２００１年にリリース　IPythonをベース

DashDB
　BlueMixのDB

デモ
　http://ibm.biz/bdu1018a

・ビジュアライゼーション
　Brunelで可視化
　　ほぼ１行でかける（きれいなグラフが）　たぶろーとおなじかんじ

・IBM Data Science Experience
　　コミュニティ
　　オープンソース
　　付加価値
　これらの環境が５分で使えるようになります

・１１月１６日　セミナーやります

■（仮）Sparkで試してみるディープ・ラーニング
・お詫び
　Numpyを使って実装
　→Sparkでは未実装：独自で実装→ながくなるので、今日は一部

・自己紹介

・DeepLearningとは
　機械学習のひとつ　ニューラルネットワーク→層を重ねる
　例：VGG16
　　畳こみから入ると、こける→べつのニューラルネットで説明予定
　今日のゴール：fully-connectedを作成
　　　アフィン変換
　　　ReLU
　　　ソフトマックス関数

　今日説明しないこと
　　CNN　たたみこみ
　　RNN　再帰
　　GAN　教師なし学習（画像を作り出す）
　　DQN　強化学習
　すうしきやらない
　各関数の詳細　微分の話：ふれない

　Batch Norm　分布調整
　Dropout

・背景
　人間の脳の構造を模してやれば、上手く識別できるのでは？
　　例：単純パーセプトロン　ニューロン情報処理モデル
　　　　単純パーセプトロンの基本のき
　　→非線形できない
　層を増やしてやれば、上手く識別できるのでは？
　　例：FF-NN

・今日のサンプル（色の識別　３つに分類）
　何色ですか
　　赤
　　緑
　　青

　フリーコネクティッド
　　入力層
　　隠れそう
　　　アフィン変換
　　　ReLU
　　出力層
　　レイヤ　０層　入力層
　　　　　　アフィン変換と活性化関数であわせて１層
　　　　　　　　ReLU：活性化関数
　　　　　　ソフトマックス：出力関数
　　アフィン変換のところがフリーコネクテッド

　　フォワード処理
　　バックワード処理：バックプロパゲーション

　アフィン変換
　　R,G,Bの重み、バイアス（発火しやすさ）の４つの値
　　　アウトプット＝インプット＊重み＋バイアス
　
　Relu：活性化させるかどうか
　　　活性化関数：シグモイド関数など
　　　　０以下なら　０
　　　　＋なら　値を伝える

　いくつもつなげる

　ソフトマックス関数：最終値を扱いやすい形に変換
　　→確率を出す：足すと１

　バックプロパゲーション
　　バイアスを自動で設定していく：教師ラベル

　　初期値設定
　　フォワード：出力がでてくる
　　損失関数：誤差伝播
　　　交差エントロピー誤差
　　　本来は勾配という微分計算を全パラメータに対して行う
　　　誤差逆伝播法だと単純計算でOK

　バックワード
　　出力レイヤ（ソフトマックス＋交差エントロピー誤差）
　　アフィン変換の重み、バイアス（詳細は省略）

ハイパーパラメータ
　層の数とノードの数：いくつの層を重ねると
　ネットワーク全体の学習率

今日のサンプルプログラム
　２４０個教育、２０件のデータ判定
　最後の出力は分類したい数

■ご連絡
・次回は１１月１１日
・１１月９日にDataLakeのセミナー
・（再度）１１月１６日にテクニカルセミナー

Sparkによる機械学習と、ディープラーニングのしくみについて聞いてきた！

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？