2018年09月11日

「数式を使わないデータマイニング入門」

20180911「数式を使わないデータマイニング入門」.png

岡嶋 裕史 著
光文社 出版

 データマイニングを日常的に使っていることばだけで説明している点と手法だけでなく活用場面等を含め広く浅く説明している点で参考になりました。

 たとえばクラスター分析ひとつとっても、『重点』ということばすら使っていません。しかも、k-平均法 (k-means method) だけを、4 つのクラスタにわける例を次のような図で説明しています。

 まず、モビルスーツの分布があります。(モビルスーツが何かはわからなくても問題ありません。)
20180911「数式を使わないデータマイニング入門」図6-6.png

 4 つのクラスタそれぞれの中心点を設定します。
20180911「数式を使わないデータマイニング入門」図6-7.png

 次に、プロットされた情報をそれぞれ一番近い中心点に割り振ります。
20180911「数式を使わないデータマイニング入門」図6-8.png

 その結果、それぞれの情報が属するクラスタが仮に決まります。
20180911「数式を使わないデータマイニング入門」図6-9.png

 仮のクラスタそれぞれの中心点がどこにあるか再計算します。
20180911「数式を使わないデータマイニング入門」図6-10.png

 中心点が移動したクラスタがあった場合、もう一度、それぞれの情報を一番近い中心点に割り振り、どのクラスタに含まれるのか判断しなおします。この手順を中心点が移動しなくなるまで繰り返します。
20180911「数式を使わないデータマイニング入門」図6-11.png

 最終的には、中心点が移動しない安定した形が得られます。
20180911「数式を使わないデータマイニング入門」図6-12.png

 k-平均法のクラスター数をどう設定していくかという話を飛ばして、クラスター数は 4 となっています。

 わたしのように何となくわかった気になっているだけだと、ここまでバッサリと情報を落としていけないので、見習いたいと思いました。
posted by 作楽 at 05:00| Comment(0) | 和書(その他) | このブログの読者になる | 更新情報をチェックする