『ビッグデータ』という言葉が一般的に用いられるようになって久しいですが、その特徴として、データ量のみが注目されているように感じられます。しかし、本書によると、3 つの V、または 4 つの V によって定義されることが多いようです。Volume (ボリューム)、Variety (多様性)、Velocity (速度) で 3 つ、そこに Veracity (真実性) が加えられて 4 つになることが多いようです。
多様性については、構造化データ、半構造化データ (スプレッドシートデータなど)、非構造化データ (SNS などのテキストデータ) が混在していることを指しています。速度については、自動運転車に搭載された各種センサーによって生成されるデータを例に、無線によって中央制御システムに即時に送られ、瞬時に分析されて自動車に送り返されなければならないとしています。真実性は、SNS などの不正確、不確実なデータから、信頼性のあるデータを得ることを求めています。
そう考えると、巷に溢れるデータのうち、ビッグデータの 3 番目と 4 番目の定義を満たすものは限定され、ビッグデータについてはまだまだこれから理解が進む部分も多いように見受けられました。そのなかでも本書に取りあげられた失敗例、Google Flu Trends は、ビッグデータを解析する難しさが如実にあわわれていると思います。
Google Flu Trends は、ことばの通り、Google の検索ワードから、インフルエンザの拡大傾向を把握しようとする試みで、2011 年から 2015 年まで実施されましたが、期待する結果を残すことはできませんでした。(少なくとも 50% 過大予測してしまうという結果でした。)
これから、ビッグデータへの期待はさらに膨らむことと思いますが、Google Flu Trends のような試行錯誤は絶え間なく続くように思えます。仕事にも関係する分野なので、引き続き注目したいと思います。

