データを類似度でグループ化

華麗なるクラスタリングの世界

売上の分析ではデータを様々な角度で見ていく必要があり、
地域別、顧客別、商品別等の軸で分析することが多いです。

この「地域」や「商品」というのがカテゴリになっており、
カテゴリにより、売り上げの傾向分析を通常します。

さて、見方を変えて、逆のアプローチをしてみましょう。
売り上げの傾向でカテゴリ化して、なぜ、そのような傾向が生まれるのか確認します。

売り上げの傾向でカテゴリ化することを「クラスタリング」と言います。

Spotfireには「K平均法クラスタリング」と「階層型クラスタリング」の2種類の
クラスタリングが実装されていますので、今回は「K平均法クラスタリング」
を使用していきましょう。

クラスタリングの実行

まずは線グラフを使用して年月の売り上げにします。

2

このままでは全体のグラフになりますので、
「線の基準」をメーカー別にします。

メーカー別の線グラフになりました。

3

 

これでクラスタリングの準備は完了です。
簡単ですね。

1

「ツール」から「K平均法クラスタリング」を選択します。

 

少々の設定項目

設定項目は「距離の計測」と「クラスタの最大数」の2つです。

4

「距離の計測」は「コリレーションの類似性」と「ユークリッド距離」の2種類があります。
簡単に言うと「コリレーションの類似性」はグラフの形を元に似ているものをグルーピングします。
ユークリッド距離は平均値でグルーピングします。

5

平均値であれば、わざわざクラスタリングなどかけなくても棒グラフなどで、
分類したほうが早そうなので、「コリレーションの類似性」を選択しておいてください。

「クラスタの最大数」は、データを「いくつのグループに分けるか」です。
慣れると見当がつくようになりますが、とりあえず4つに分けています。

これが少なすぎると、異なる形のグラフが一つのグループに入ってしまったり、
逆に多すぎると、傾向が見えません。

納得いくまでやり直しましょう。
ここは辛抱です。

失敗例

結果はこのようになりました。

6

上手くグルーピングできませんでした。

多くのデータが2番に入ってしまっています。
メーカ数に対してX軸のカテゴリが多すぎるのが原因だと思います。

成功例

気を取り直して、X軸は四半期に設定して、線の基準も「機種」ベースでクラスタリングしてみます。

7

結果はこちらです。
上手く分かれました。

8

それぞれのクラスタに適度な数が入っており、傾向も出ています。

クラスタの傾向を見るための
「線の基準」の設定を削除してクラスタ平均を見ましょう。

9

0~9に従い、右肩下がりから右肩上がりへの傾向がありそうですね。

結果の考察

クラスタリングをかけただけでは、傾向別にグルーピングされるだけですので、
何も面白くありません。

ここからが人間の仕事です。
それでは、クラスタリングの結果と売り上げを比較しましょう。

10

右肩上がりのクラスタに属しているメーカーと、そうでないメーカの比較ができます。

このように、「売上のパターン」を分析の軸とすることができます。

軸のパターン評価

先ほどは時系列でのトレンドパターンを分類しました。

他にもパターンを分ける方法があります。
というよりこちらがメインです。

カラムの属性パターンによる分け方です。
WEBの商品評価などでレーダーチャートと呼ばれる5角形のグラフを見かけると思いますが、
イメージとしてはその5角形の形によるグループ分けです。

同じように線グラフを作成して、
X軸に(カラム名)を設定します。
Y軸には評価カラムを設定します。

軸を対象とするクラスタリング

11これで全体の傾向が把握できましたので、
「線の基準」をグルーピングしたい条件に設定してください。
ちなみに「ロー番号」に設定すると、1行で1つの線になります。

12

はい。これでクラスタリングの準備が整いました。
それではK平均法クラスタリングを実行しましょう。

今回は9つに分けました。

13

「線の基準」を削除して平均化すると傾向の違いが見えますね。
7~9はフラットに近いですが、上の方は暴れています。

これも最終的な品質と比較しましょう。

1~3に入るとよろしくないようですね。
実際には1~3の製品に入る製品ができる原因分析を、
次の分析テーマにします。

14

K平均法クラスタリングは単純ですが、
原因究明に関してはかなり強力なツールですので、
使いこなせるようになると、分析の軸が一気に広がります。