こんにちは。株式会社 PHONE APPLI リサーチデベロップメント 森本と申します。
この記事では統計分析初学者の方に向けて、自分が勉強した分析手法を紹介していきます。 今回は非階層型クラスター分析を用いて、iris の特徴量からデータを分類します。
はじめに
まず分析に用いるデータや手法の説明から始めていきます。
・iris データ
iris データはアヤメという花の種類と特徴に関するデータで、
詳細な内容については以下の通りです。
種類: setosa , versicolor , virginica の3種類
特徴量:
・Sepal Lengt: がく片の長さ
・Sepal Width: がく片の幅
・Petal length: 花びらの長さ
・Petal Width: 花びらの幅
・非階層型クラスター分析
非階層型クラスター分析は 代表点からの距離を測り、データをまとめて、クラスターにしていく手法です。
様々な手法がありますが、今回は k-means 法についての説明を記述します。
1. 代表点の個数を決定する
データを幾つに分けたいかを主観的に決定します。
その後決めた個数、ランダムなサンプルを代表点とします。
2. クラスタを作る
代表点からユークリッド距離が近いもので、クラスタを作ります。
3. クラスタの重心を新たな代表点とする
- で分けたそれぞれのクラスタで重心点を求め、新たな代表点とします。
4. 終了するまで繰り返す
任意な数、2. , 3. を繰り返しクラスタリングを終了する。
実装
ここからは実際に Python で実装した結果を記載していきます。
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.cluster import KMeans
ライブラリをインポート
iris = load_iris() iris_np = np.array(iris.data)iris データを展開し、配列として iris_np に格納
rgb = np.array(['r','g','b']) plt.scatter(iris_np[:,0], iris_np[:,1], c= rgb[iris.target])がく片の長さ, 幅で散布図をプロット
図5. 散布図 ( sepal )
plt.scatter(iris_np[:,2], iris_np[:,3], c= rgb[iris.target])花びらの長さ, 幅で散布図をプロット
図6. 散布図 ( petal )
n_cluster = 3 max_iter = 300クラスタ数と実行回数を定義
data = iris_np[:,0:2] model = KMeans(n_clusters=n_cluster, max_iter=max_iter).fit(data) plt.scatter(data[:,0], data[:,1], color = rgb[model.labels]) plt.scatter(model.cluster_centers[:,0], model.cluster_centers_[:,1],s=100, marker='*') plt.show()がく片の長さ, 幅でクラスタリング
図7. クラスタリング結果 ( sepal )
data = iris_np[:,2:4] model = KMeans(n_clusters=n_cluster, max_iter=max_iter).fit(data) plt.scatter(data[:,0], data[:,1], c=rgb[model.labels]) plt.scatter(model.cluster_centers[:,0], model.cluster_centers_[:,1],s=100, marker='*') plt.show()花びらの長さ, 幅でクラスタリング
図8. クラスタリング結果 ( petal )
図9. sepal 分類結果 (上: 分類後の配列, 下: 正解データ)
図10. petal 分類結果
分類の精度向上や最適な実行回数などまだ考える余地はありそうです。
余談
今回の結果では、"がく" を用いるよりも "花びら" を用いたほうが精度が高く分類できました。
花は繁殖のために昆虫の興味をより惹きつけなければならないので、
花びらが目立つように進化しているためだと考えました。
実際に調べてみたところ、花びらには虫がとまれるように垂れ下がっていたり、
蜜の場所を知らせる "蜜標" という模様あり、非常に綺麗な花でした。
参考までに、自分が本記事をまとめるにあたって非常に有用だった URL を記載させていただきます。
https://www.albert2005.co.jp/knowledge/data_mining/cluster/non-hierarchical_clustering
https://qiita.com/g-k/items/0d5d22a12a4507ecbf11
さいごに
今回は iris データセットを用いて非階層型クラスター分析を実装してみました。
この手法は同じクラスタリングの手法である階層型クラスター分析に比べて、
大量のデータを扱うのに長けており、散布図を用いて描画できるため視覚的にわかりやすい結果を得られます。
非階層型クラスター分析の中でも k-means 法の他に X-means や k-means++ などの手法が存在し、
これは初期値依存やクラスタをいくつに分割するのかという問題に対して有用な手法です。
また階層型クラスター分析についても他の記事で解説しておりますので、
ご興味ございましたら是非ご一読ください。
https://phoneappli.hatenablog.com/entry/2022/05/20/181128
まだまだ奥が深いクラスタリングですが、
様々な応用や見せ方ができると思いますので、ぜひ触ってみてはいかがでしょうか。
本記事がアヤメの模様のように、少しでも統計学習についての標となれば幸いです。