2020年07月30日

「数字に騙されないための 10 の視点 統計的な?」

20200730「統計的な?」.png

アンソニー・ルーベン (Anthony Reuben) 著
田畑 あや子 訳
すばる舎 出版

 わたしが数字を見るときに気をつけていることが、この本の終わりのほうに書かれてありました。アンケート調査や経済モデルを見るときに『最初にすべきことは、その調査を実施したのは誰で、それに金を払っているのは誰かを確かめることだ。それによって正当化されるキャンペーンをしているグループが発注している場合は、その結論を少し疑うべきだが、独立したグループであっても、かたよったグループと同じように間違う場合がある』。

 しかし、それよりもっと端的なヒントが最初に記されていました。『これは真実だとしたら理にかなっているだろうか』。その数字が本当だったら理屈に合わないと思ったら、疑うべきだということです。

 そう言われても、理にかなっているか何をどのように評価すればいいか、なかなかわからないものです。だから著者は、こういうときは特に注意すべきという具体例を 10 点あげています。

 たとえば、実数がなくパーセントだけ表示されているときは、注意が必要だと警告しています。『毎日ソーセージを 1 本かベーコンを 3 切れ食べていれば、膵臓がんの発症リスクが 20 パーセント上昇する。』とあった場合、わたしなどは反射的にソーセージやベーコンを食べるのが怖くなります。しかし、実数を見ると、違う印象を受けることもあります。具体的には、1 日にソーセージを 1 本かベーコンを 3 切れを食べていなければ、400 人中 5 人が (生涯で) 発症し、それらを食べていれば、6 人に増えるという実数です。

 また、原価計算も危険だと注意を促しています。その理由は、 算出方法次第で、何かを安く、あるいは高く見せることが簡単だからです。まず、特定ケースの原価を見せる動機を考え、そのコストが特定ケース以外でも負担されるものか、あるいはその特定ケース限定の追加費用かを確認して、目の前の原価計算にどれだけの信頼がおけるか判断するよう勧めています。

 いつも、わたし自身がうまく説明できない単語『信頼水準』と『信頼区間』についても、ONS が出す失業者数を例に『失業者数の変化を表す数字は一般的には信頼水準 95 パーセントで約 7 万 5000 の信頼区間であるが、その意味は、失業者数の変化は ONS が出した数字のプラスマイナス 7 万 5000 の範囲であることに 95 パーセント確信をもっているということ』と、わかりやすく説明しています。

 数字に騙されないようにするためのコツがつかめるようになる良書だと思います。
posted by 作楽 at 22:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2020年04月20日

「ビッグデータ超入門」

20200420「ビッグデータ超入門」.png

『ビッグデータ』という言葉が一般的に用いられるようになって久しいですが、その特徴として、データ量のみが注目されているように感じられます。しかし、本書によると、3 つの V、または 4 つの V によって定義されることが多いようです。Volume (ボリューム)、Variety (多様性)、Velocity (速度) で 3 つ、そこに Veracity (真実性) が加えられて 4 つになることが多いようです。

 多様性については、構造化データ、半構造化データ (スプレッドシートデータなど)、非構造化データ (SNS などのテキストデータ) が混在していることを指しています。速度については、自動運転車に搭載された各種センサーによって生成されるデータを例に、無線によって中央制御システムに即時に送られ、瞬時に分析されて自動車に送り返されなければならないとしています。真実性は、SNS などの不正確、不確実なデータから、信頼性のあるデータを得ることを求めています。

 そう考えると、巷に溢れるデータのうち、ビッグデータの 3 番目と 4 番目の定義を満たすものは限定され、ビッグデータについてはまだまだこれから理解が進む部分も多いように見受けられました。そのなかでも本書に取りあげられた失敗例、Google Flu Trends は、ビッグデータを解析する難しさが如実にあわわれていると思います。

 Google Flu Trends は、ことばの通り、Google の検索ワードから、インフルエンザの拡大傾向を把握しようとする試みで、2011 年から 2015 年まで実施されましたが、期待する結果を残すことはできませんでした。(少なくとも 50% 過大予測してしまうという結果でした。)

 これから、ビッグデータへの期待はさらに膨らむことと思いますが、Google Flu Trends のような試行錯誤は絶え間なく続くように思えます。仕事にも関係する分野なので、引き続き注目したいと思います。
posted by 作楽 at 21:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2018年09月11日

「数式を使わないデータマイニング入門」

20180911「数式を使わないデータマイニング入門」.png

岡嶋 裕史 著
光文社 出版

 データマイニングを日常的に使っていることばだけで説明している点と手法だけでなく活用場面等を含め広く浅く説明している点で参考になりました。

 たとえばクラスター分析ひとつとっても、『重点』ということばすら使っていません。しかも、k-平均法 (k-means method) だけを、4 つのクラスタにわける例を次のような図で説明しています。

 まず、モビルスーツの分布があります。(モビルスーツが何かはわからなくても問題ありません。)
20180911「数式を使わないデータマイニング入門」図6-6.png

 4 つのクラスタそれぞれの中心点を設定します。
20180911「数式を使わないデータマイニング入門」図6-7.png

 次に、プロットされた情報をそれぞれ一番近い中心点に割り振ります。
20180911「数式を使わないデータマイニング入門」図6-8.png

 その結果、それぞれの情報が属するクラスタが仮に決まります。
20180911「数式を使わないデータマイニング入門」図6-9.png

 仮のクラスタそれぞれの中心点がどこにあるか再計算します。
20180911「数式を使わないデータマイニング入門」図6-10.png

 中心点が移動したクラスタがあった場合、もう一度、それぞれの情報を一番近い中心点に割り振り、どのクラスタに含まれるのか判断しなおします。この手順を中心点が移動しなくなるまで繰り返します。
20180911「数式を使わないデータマイニング入門」図6-11.png

 最終的には、中心点が移動しない安定した形が得られます。
20180911「数式を使わないデータマイニング入門」図6-12.png

 k-平均法のクラスター数をどう設定していくかという話を飛ばして、クラスター数は 4 となっています。

 わたしのように何となくわかった気になっているだけだと、ここまでバッサリと情報を落としていけないので、見習いたいと思いました。
posted by 作楽 at 05:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2011年04月04日

「本当は嘘つきな統計数字」

20110404「本当は嘘つきな統計数字」.jpg

門倉 貴史 著
幻冬舎 出版

 統計と聞くと無条件に信頼してしまう方々がありますが、そういう方はこの本を一読されるといいでしょう。数字というものには、曖昧さが排除されているイメージがあり、それに騙されたくなるのも無理はないのですが、実際は違います。

 そのひとつの数字に辿り着くまでに、大量の数字が<選ばれて>いて、その数字に偏りがあれば、当然結果も偏ります。

 加えて、その数字をどう解釈するかも恣意的に<選ばれた>何かが存在するのがふつうです。

 具体的な個々の例が挙げられているので、抽象的な理論を相手にするような難しさはありません。たとえば身近な数字、メタボかどうかを判断する基準や雇用統計などをとりあげ、どういった点を考慮してそれらの数字を見なければならないかが説明されています。

 ただ、わかりやすい説明ではありますが、統計に見られがちな偏向に関する本をすでに読まれた経験のある方なら、あらためてこの本を読むほどのこともありません。そういう一番基礎的な考え方を紹介している本です。
posted by 作楽 at 00:57| Comment(0) | TrackBack(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする