ビッグデータとは
- Volume(データ量)
- Velocity(データの生成頻度)
- Variety(多様性、構造化できないという意味も含む)
のいずれか、またはそれらの組み合わせ。
構造化できない大量のデータがリアルタイムにどんどん生成されていくような状況だと、RDBに収めにくいし、処理するのにも新しい技術や手法が求められるということ。
本書では上に書いてあるビッグデータは狭いと考えていて、データ処理技術、ヒトを含めた組織まで含めてビッグデータとして捉えているが、そっちの話は分析力を駆使する企業のがずっと詳しいし、分析という観点から書いてある。
分析が先なのか、データが先なのかという話に関していえば、優秀なデータサイエンティストを有していればデータを与えれば意味のある分析結果がドンドン精製されてくるが、分析するヒトがいなければデータ生成はムダなコストにしかならないので、分析(者)ファーストだろうなと。
「Data is the new oil」とは良い例えだと思う。結局精製技術次第だし。あとは原油にあたるようなデータの入り口付近にいる業者も有利なんだろうな。
CROSS 2013でデータサイエンティストのセッションがあったみたいですね。