ビッグメディアの探索と活用で言われているように、ビッグデータの利用方法には2種類ある
1つは、分析、学習などにビッグデータを利用する方法。
分析をすると、統計を利用することになるので、
一般的には、平均値が得られる。
学習の場合も、基本的に、まれにしか起こらないものは学習されない。
なので、結果
夏にはサンダルが売れ、冬には、ブーツが売れる
という結果になる。
もう一つは、蓄積して、探索する方法
異常値があったとき、同じ事例を探す。
たとえば、
夏にはサンダルが売れ、冬には、ブーツが売れる
けど、
夏にブーツが売れるケース、冬にサンダルが売れるケースは?
と検索し、その特殊ケースの特徴を探る。
前者の「分析・学習」に、データサイエンティストを利用するわけだが、
もともと、統計学を利用するなら、データを多量にあつめなくても、
全数調査しなくてもいいわけだ。
学習も、当たり前のことなら、わかっているので、ロジックで組んだほうが早い
一方、「蓄積して、探索する」場合は、例外的なことを探すので、
大量にデータを集めないと、例外が集まらない。
なので、データを多量に集めることには意義がある。
データサイエンティストを雇って・・・というのは
「分析・学習」をさせる方法であり、
「蓄積して、探索する」ほうを使っていない
(「蓄積して、探索する」方法は、例外事象を検索するだけだから、
検索知識さえあれば、BIでできる)
そして、「分析・学習」では、ビッグデータを集めても、
そこまでしなくても得られる統計上の知識しか得られない。
→特殊な事例こそ、お金になりやすいので、あまり役立たない。
例:「夏にはサンダルが売れ、冬には、ブーツが売れる」
という情報より、夏にブーツが売れるわけのほうが重要
ということは、
データサイエンティストを雇っても、ビッグデータの半分
(分析・学習)しか活用していないことになる。
1つは、分析、学習などにビッグデータを利用する方法。
分析をすると、統計を利用することになるので、
一般的には、平均値が得られる。
学習の場合も、基本的に、まれにしか起こらないものは学習されない。
なので、結果
夏にはサンダルが売れ、冬には、ブーツが売れる
という結果になる。
もう一つは、蓄積して、探索する方法
異常値があったとき、同じ事例を探す。
たとえば、
夏にはサンダルが売れ、冬には、ブーツが売れる
けど、
夏にブーツが売れるケース、冬にサンダルが売れるケースは?
と検索し、その特殊ケースの特徴を探る。
前者の「分析・学習」に、データサイエンティストを利用するわけだが、
もともと、統計学を利用するなら、データを多量にあつめなくても、
全数調査しなくてもいいわけだ。
学習も、当たり前のことなら、わかっているので、ロジックで組んだほうが早い
一方、「蓄積して、探索する」場合は、例外的なことを探すので、
大量にデータを集めないと、例外が集まらない。
なので、データを多量に集めることには意義がある。
データサイエンティストを雇って・・・というのは
「分析・学習」をさせる方法であり、
「蓄積して、探索する」ほうを使っていない
(「蓄積して、探索する」方法は、例外事象を検索するだけだから、
検索知識さえあれば、BIでできる)
そして、「分析・学習」では、ビッグデータを集めても、
そこまでしなくても得られる統計上の知識しか得られない。
→特殊な事例こそ、お金になりやすいので、あまり役立たない。
例:「夏にはサンダルが売れ、冬には、ブーツが売れる」
という情報より、夏にブーツが売れるわけのほうが重要
ということは、
データサイエンティストを雇っても、ビッグデータの半分
(分析・学習)しか活用していないことになる。