2020年04月20日

「ビッグデータ超入門」

20200420「ビッグデータ超入門」.png

『ビッグデータ』という言葉が一般的に用いられるようになって久しいですが、その特徴として、データ量のみが注目されているように感じられます。しかし、本書によると、3 つの V、または 4 つの V によって定義されることが多いようです。Volume (ボリューム)、Variety (多様性)、Velocity (速度) で 3 つ、そこに Veracity (真実性) が加えられて 4 つになることが多いようです。

 多様性については、構造化データ、半構造化データ (スプレッドシートデータなど)、非構造化データ (SNS などのテキストデータ) が混在していることを指しています。速度については、自動運転車に搭載された各種センサーによって生成されるデータを例に、無線によって中央制御システムに即時に送られ、瞬時に分析されて自動車に送り返されなければならないとしています。真実性は、SNS などの不正確、不確実なデータから、信頼性のあるデータを得ることを求めています。

 そう考えると、巷に溢れるデータのうち、ビッグデータの 3 番目と 4 番目の定義を満たすものは限定され、ビッグデータについてはまだまだこれから理解が進む部分も多いように見受けられました。そのなかでも本書に取りあげられた失敗例、Google Flu Trends は、ビッグデータを解析する難しさが如実にあわわれていると思います。

 Google Flu Trends は、ことばの通り、Google の検索ワードから、インフルエンザの拡大傾向を把握しようとする試みで、2011 年から 2015 年まで実施されましたが、期待する結果を残すことはできませんでした。(少なくとも 50% 過大予測してしまうという結果でした。)

 これから、ビッグデータへの期待はさらに膨らむことと思いますが、Google Flu Trends のような試行錯誤は絶え間なく続くように思えます。仕事にも関係する分野なので、引き続き注目したいと思います。
posted by 作楽 at 21:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2018年09月11日

「数式を使わないデータマイニング入門」

20180911「数式を使わないデータマイニング入門」.png

岡嶋 裕史 著
光文社 出版

 データマイニングを日常的に使っていることばだけで説明している点と手法だけでなく活用場面等を含め広く浅く説明している点で参考になりました。

 たとえばクラスター分析ひとつとっても、『重点』ということばすら使っていません。しかも、k-平均法 (k-means method) だけを、4 つのクラスタにわける例を次のような図で説明しています。

 まず、モビルスーツの分布があります。(モビルスーツが何かはわからなくても問題ありません。)
20180911「数式を使わないデータマイニング入門」図6-6.png

 4 つのクラスタそれぞれの中心点を設定します。
20180911「数式を使わないデータマイニング入門」図6-7.png

 次に、プロットされた情報をそれぞれ一番近い中心点に割り振ります。
20180911「数式を使わないデータマイニング入門」図6-8.png

 その結果、それぞれの情報が属するクラスタが仮に決まります。
20180911「数式を使わないデータマイニング入門」図6-9.png

 仮のクラスタそれぞれの中心点がどこにあるか再計算します。
20180911「数式を使わないデータマイニング入門」図6-10.png

 中心点が移動したクラスタがあった場合、もう一度、それぞれの情報を一番近い中心点に割り振り、どのクラスタに含まれるのか判断しなおします。この手順を中心点が移動しなくなるまで繰り返します。
20180911「数式を使わないデータマイニング入門」図6-11.png

 最終的には、中心点が移動しない安定した形が得られます。
20180911「数式を使わないデータマイニング入門」図6-12.png

 k-平均法のクラスター数をどう設定していくかという話を飛ばして、クラスター数は 4 となっています。

 わたしのように何となくわかった気になっているだけだと、ここまでバッサリと情報を落としていけないので、見習いたいと思いました。
posted by 作楽 at 05:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2011年04月04日

「本当は嘘つきな統計数字」

20110404「本当は嘘つきな統計数字」.jpg

門倉 貴史 著
幻冬舎 出版

 統計と聞くと無条件に信頼してしまう方々がありますが、そういう方はこの本を一読されるといいでしょう。数字というものには、曖昧さが排除されているイメージがあり、それに騙されたくなるのも無理はないのですが、実際は違います。

 そのひとつの数字に辿り着くまでに、大量の数字が<選ばれて>いて、その数字に偏りがあれば、当然結果も偏ります。

 加えて、その数字をどう解釈するかも恣意的に<選ばれた>何かが存在するのがふつうです。

 具体的な個々の例が挙げられているので、抽象的な理論を相手にするような難しさはありません。たとえば身近な数字、メタボかどうかを判断する基準や雇用統計などをとりあげ、どういった点を考慮してそれらの数字を見なければならないかが説明されています。

 ただ、わかりやすい説明ではありますが、統計に見られがちな偏向に関する本をすでに読まれた経験のある方なら、あらためてこの本を読むほどのこともありません。そういう一番基礎的な考え方を紹介している本です。
posted by 作楽 at 00:57| Comment(0) | TrackBack(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする