2020年09月23日

「医学統計の基礎のキソ 2」

20200923「医学統計の基礎のキソ 2」.jpg

浅井 隆 著
アトムス 出版

医学統計の基礎のキソ 1」に続いて、シリーズ 2 巻目も読んでみました。カバーされている内容は以下のとおりです。

−観察研究 (observational study) と介入研究 (interventional study)
−後ろ向き研究 (retrospective study) と前向き研究 (prospective study)
−ケース・コントロール研究 (case-control study) とコホート研究 (cohort study)
−対象者間比較 (inter-subjective comparison) と対象者内比較 (intra-subjective comparison)/クロスオーバー研究 (cross-over study)
−生存率曲線 (survival curve) /カプラン・マイヤー曲線 (Kaplan-Meier curve)
−相関係数 (correlation coefficient)/ピアソンの r (Peason's r)
−感度 (sensitivity) と特異度 (specificity)
−陽性的中率 (positive predictive value) と陰性的中率 (negativee predictive value)
−相対危険度 (relative risk:RR)/リスク比 (risk ration) とオッズ比 (odds ratio:OR)
−NNT (number needed to treat)

 シリーズ 1 巻目に比べて、統計を使う場面が医療中心に移ってきた印象を受けました。たとえば、感度や特異度は役に立たないとし、陽性的中率や陰性的中率が紹介されている点などです。医療の現場の視点で感度や特異度を見たことがなかったので、新鮮でした。

 少しネット検索してみたところ、わかりやすい図がありました。

20200923「医学統計の基礎のキソ 2」1.png

 同様に、NNT という用語も知らずにいたので、参考になりました。NNT は、治療効果を得るのに必要な人数のことで、値が小さいほど治療が有効な確率が高いと判断できる指標です。ふたつの薬をふたつのグループに対して投与し、その結果を比べるという場合、帰無仮説を利用し、有意差を確認後、平均、標準偏差、信頼区間などの差を見るのだと想像していましたが、たしかに NNT のほうがずっと実際的です。

 医学統計は、知識も経験もまったくないので、基礎のキソでも学ぶべきことが多くありました。

【出典】
つねぴーblog@内科専攻医
posted by 作楽 at 00:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2020年09月03日

「難しいことはわかりませんが、統計学について教えてください!」

20200903「統計学について教えてください!」.png

小島 寛之 著
SBクリエイティブ 出版

数字に騙されないための 10 の視点 統計的な?」を読んだのをきっかけに、統計でどんなことができるか、工夫次第でうまく伝えられるようになれるかも……と思うようになり、統計関係の本を少しずつ読んでいて、これもその 1 冊です。

 本書では、ストーリー仕立てで統計の手法が扱われているのですが、『標準化』の例は参考にしたいと思いました。某大学のミスキャンパス候補 (ファイナリスト) の体型データをもとに、ミスキャンパスに選ばれた者がプロポーション面で、どう抜きん出ているのか数値であらわしてみようという試みです。

 以下のサンプルデータを見ると、ファイナリストはみなスタイルがいいように見えます。

20200903「統計学について教えてください!」1.png

 これを標準化すると、次のようになります。

20200903「統計学について教えてください!」2.png

 これらの数値はすべて、ファイナリストの平均にどれくらい近いかをあらわしています。(0 に近いほど平均に近いことをあらわします。) 赤枠の数字が目を惹きます。

 Aは、身長も体重も平均を大きく下回り、このサンプルのなかではとても小柄なのが、一目瞭然です。また、Fは、体重やウエストはほぼ平均なのにバストもヒップも平均を大きく上回り、いわゆる『ボンッキュッボン』なのが、わかります。

 標準化は、身長と体重といった単位の違うものの比較を容易にするメリットがあり、次の式で簡単に計算できます。(サンプル数によっては、それこそ電卓でも充分です。)

 {(データ) − 平均値} ÷ 標準偏差

 標準偏差は、データの偏差 ({(データ) − 平均値}) を二乗してから合計し、データの数で割り、その平方根を求めるとわかります。

 二乗してからルートを取るなどと面倒なことをする理由がわからなくても、標準化するメリットについては、このデータを見るとよくわかるので、巧みな説明だと思いました。
posted by 作楽 at 20:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2020年09月02日

「医学統計の基礎のキソ 1」

20200902「医学統計の基礎のキソ 1」.jpg

浅井 隆 著
アトムス 出版

 タイトルに「基礎のキソ」とあるとおり、統計の基礎が説明されていますが、その説明手順が、目からウロコでした。

 たとえば、有意差について説明するとき、帰無仮説 (null hypothesis) にもとづいて仮説検定を行ない、P 値をもとに帰無仮説を棄却するか、対立仮説を採択するかが決まるという流れで説明されることが多いように思います。しかし、本書では、いろいろある仮説検定をすべて素っ飛ばし、有意差と P 値の関係をいきなり説明しています。

 しかも、95% 信頼区間を求め、ゼロが含まれていれば有意差がなく、逆にゼロが含まれなければ有意差があるという関係を示し、仮説検定なしに有意差を推定できると説明しています。

 つまり、正しい統計結果を出せるようになるより、まずは統計結果を正しく理解できるようになることを目指しているわけです。

 統計には挫折してばかりという方には、星五つ級にお勧めの書籍です。次のような内容がカバーされています。

−有意差 (significant difference)、P 値 (P values)、有意水準 (significant level)
−帰無仮説 (null hypothesis)、仮説検定 (hypothesis test)
−信頼区間 (confidence interval)
−平均値 (mean) = 算術平均値 (arithmetic mean) / 中央値 (median)
−標準偏差 (standard deviation、SD、S、σ)
−四分位範囲 (inter-quartile range)
−平均の信頼区間 (confidence intervals of the mean)
−3 の法則 (rule of 3)
posted by 作楽 at 21:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2020年07月30日

「数字に騙されないための 10 の視点 統計的な?」

20200730「統計的な?」.png

アンソニー・ルーベン (Anthony Reuben) 著
田畑 あや子 訳
すばる舎 出版

 わたしが数字を見るときに気をつけていることが、この本の終わりのほうに書かれてありました。アンケート調査や経済モデルを見るときに『最初にすべきことは、その調査を実施したのは誰で、それに金を払っているのは誰かを確かめることだ。それによって正当化されるキャンペーンをしているグループが発注している場合は、その結論を少し疑うべきだが、独立したグループであっても、かたよったグループと同じように間違う場合がある』。

 しかし、それよりもっと端的なヒントが最初に記されていました。『これは真実だとしたら理にかなっているだろうか』。その数字が本当だったら理屈に合わないと思ったら、疑うべきだということです。

 そう言われても、理にかなっているか何をどのように評価すればいいか、なかなかわからないものです。だから著者は、こういうときは特に注意すべきという具体例を 10 点あげています。

 たとえば、実数がなくパーセントだけ表示されているときは、注意が必要だと警告しています。『毎日ソーセージを 1 本かベーコンを 3 切れ食べていれば、膵臓がんの発症リスクが 20 パーセント上昇する。』とあった場合、わたしなどは反射的にソーセージやベーコンを食べるのが怖くなります。しかし、実数を見ると、違う印象を受けることもあります。具体的には、1 日にソーセージを 1 本かベーコンを 3 切れを食べていなければ、400 人中 5 人が (生涯で) 発症し、それらを食べていれば、6 人に増えるという実数です。

 また、原価計算も危険だと注意を促しています。その理由は、 算出方法次第で、何かを安く、あるいは高く見せることが簡単だからです。まず、特定ケースの原価を見せる動機を考え、そのコストが特定ケース以外でも負担されるものか、あるいはその特定ケース限定の追加費用かを確認して、目の前の原価計算にどれだけの信頼がおけるか判断するよう勧めています。

 いつも、わたし自身がうまく説明できない単語『信頼水準』と『信頼区間』についても、ONS が出す失業者数を例に『失業者数の変化を表す数字は一般的には信頼水準 95 パーセントで約 7 万 5000 の信頼区間であるが、その意味は、失業者数の変化は ONS が出した数字のプラスマイナス 7 万 5000 の範囲であることに 95 パーセント確信をもっているということ』と、わかりやすく説明しています。

 数字に騙されないようにするためのコツがつかめるようになる良書だと思います。
posted by 作楽 at 22:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする

2020年04月20日

「ビッグデータ超入門」

20200420「ビッグデータ超入門」.png

『ビッグデータ』という言葉が一般的に用いられるようになって久しいですが、その特徴として、データ量のみが注目されているように感じられます。しかし、本書によると、3 つの V、または 4 つの V によって定義されることが多いようです。Volume (ボリューム)、Variety (多様性)、Velocity (速度) で 3 つ、そこに Veracity (真実性) が加えられて 4 つになることが多いようです。

 多様性については、構造化データ、半構造化データ (スプレッドシートデータなど)、非構造化データ (SNS などのテキストデータ) が混在していることを指しています。速度については、自動運転車に搭載された各種センサーによって生成されるデータを例に、無線によって中央制御システムに即時に送られ、瞬時に分析されて自動車に送り返されなければならないとしています。真実性は、SNS などの不正確、不確実なデータから、信頼性のあるデータを得ることを求めています。

 そう考えると、巷に溢れるデータのうち、ビッグデータの 3 番目と 4 番目の定義を満たすものは限定され、ビッグデータについてはまだまだこれから理解が進む部分も多いように見受けられました。そのなかでも本書に取りあげられた失敗例、Google Flu Trends は、ビッグデータを解析する難しさが如実にあわわれていると思います。

 Google Flu Trends は、ことばの通り、Google の検索ワードから、インフルエンザの拡大傾向を把握しようとする試みで、2011 年から 2015 年まで実施されましたが、期待する結果を残すことはできませんでした。(少なくとも 50% 過大予測してしまうという結果でした。)

 これから、ビッグデータへの期待はさらに膨らむことと思いますが、Google Flu Trends のような試行錯誤は絶え間なく続くように思えます。仕事にも関係する分野なので、引き続き注目したいと思います。
posted by 作楽 at 21:00| Comment(0) | 和書(データ活用) | このブログの読者になる | 更新情報をチェックする