華麗なるクラスタリングの世界
売上の分析ではデータを様々な角度で見ていく必要があり、
地域別、顧客別、商品別等の軸で分析することが多いです。
この「地域」や「商品」というのがカテゴリになっており、
カテゴリにより、売り上げの傾向分析を通常します。
さて、見方を変えて、逆のアプローチをしてみましょう。
売り上げの傾向でカテゴリ化して、なぜ、そのような傾向が生まれるのか確認します。
売り上げの傾向でカテゴリ化することを「クラスタリング」と言います。
Spotfireには「K平均法クラスタリング」と「階層型クラスタリング」の2種類の
クラスタリングが実装されていますので、今回は「K平均法クラスタリング」
を使用していきましょう。
クラスタリングの実行
まずは線グラフを使用して年月の売り上げにします。
このままでは全体のグラフになりますので、
「線の基準」をメーカー別にします。
メーカー別の線グラフになりました。
これでクラスタリングの準備は完了です。
簡単ですね。
「ツール」から「K平均法クラスタリング」を選択します。
少々の設定項目
設定項目は「距離の計測」と「クラスタの最大数」の2つです。
「距離の計測」は「コリレーションの類似性」と「ユークリッド距離」の2種類があります。
簡単に言うと「コリレーションの類似性」はグラフの形を元に似ているものをグルーピングします。
ユークリッド距離は平均値でグルーピングします。
平均値であれば、わざわざクラスタリングなどかけなくても棒グラフなどで、
分類したほうが早そうなので、「コリレーションの類似性」を選択しておいてください。
「クラスタの最大数」は、データを「いくつのグループに分けるか」です。
慣れると見当がつくようになりますが、とりあえず4つに分けています。
これが少なすぎると、異なる形のグラフが一つのグループに入ってしまったり、
逆に多すぎると、傾向が見えません。
納得いくまでやり直しましょう。
ここは辛抱です。
失敗例
結果はこのようになりました。
上手くグルーピングできませんでした。
多くのデータが2番に入ってしまっています。
メーカ数に対してX軸のカテゴリが多すぎるのが原因だと思います。
成功例
気を取り直して、X軸は四半期に設定して、線の基準も「機種」ベースでクラスタリングしてみます。
結果はこちらです。
上手く分かれました。
それぞれのクラスタに適度な数が入っており、傾向も出ています。
クラスタの傾向を見るための
「線の基準」の設定を削除してクラスタ平均を見ましょう。
0~9に従い、右肩下がりから右肩上がりへの傾向がありそうですね。
結果の考察
クラスタリングをかけただけでは、傾向別にグルーピングされるだけですので、
何も面白くありません。
ここからが人間の仕事です。
それでは、クラスタリングの結果と売り上げを比較しましょう。
右肩上がりのクラスタに属しているメーカーと、そうでないメーカの比較ができます。
このように、「売上のパターン」を分析の軸とすることができます。
軸のパターン評価
先ほどは時系列でのトレンドパターンを分類しました。
他にもパターンを分ける方法があります。
というよりこちらがメインです。
カラムの属性パターンによる分け方です。
WEBの商品評価などでレーダーチャートと呼ばれる5角形のグラフを見かけると思いますが、
イメージとしてはその5角形の形によるグループ分けです。
同じように線グラフを作成して、
X軸に(カラム名)を設定します。
Y軸には評価カラムを設定します。
軸を対象とするクラスタリング
これで全体の傾向が把握できましたので、
「線の基準」をグルーピングしたい条件に設定してください。
ちなみに「ロー番号」に設定すると、1行で1つの線になります。
はい。これでクラスタリングの準備が整いました。
それではK平均法クラスタリングを実行しましょう。
今回は9つに分けました。
「線の基準」を削除して平均化すると傾向の違いが見えますね。
7~9はフラットに近いですが、上の方は暴れています。
これも最終的な品質と比較しましょう。
1~3に入るとよろしくないようですね。
実際には1~3の製品に入る製品ができる原因分析を、
次の分析テーマにします。
K平均法クラスタリングは単純ですが、
原因究明に関してはかなり強力なツールですので、
使いこなせるようになると、分析の軸が一気に広がります。