カテゴリー別アーカイブ: 3.統計機能

データを類似度でグループ化

華麗なるクラスタリングの世界

売上の分析ではデータを様々な角度で見ていく必要があり、
地域別、顧客別、商品別等の軸で分析することが多いです。

この「地域」や「商品」というのがカテゴリになっており、
カテゴリにより、売り上げの傾向分析を通常します。

さて、見方を変えて、逆のアプローチをしてみましょう。
売り上げの傾向でカテゴリ化して、なぜ、そのような傾向が生まれるのか確認します。

売り上げの傾向でカテゴリ化することを「クラスタリング」と言います。

Spotfireには「K平均法クラスタリング」と「階層型クラスタリング」の2種類の
クラスタリングが実装されていますので、今回は「K平均法クラスタリング」
を使用していきましょう。

クラスタリングの実行

まずは線グラフを使用して年月の売り上げにします。

2

このままでは全体のグラフになりますので、
「線の基準」をメーカー別にします。

メーカー別の線グラフになりました。

3

 

これでクラスタリングの準備は完了です。
簡単ですね。

1

「ツール」から「K平均法クラスタリング」を選択します。

 

少々の設定項目

設定項目は「距離の計測」と「クラスタの最大数」の2つです。

4

「距離の計測」は「コリレーションの類似性」と「ユークリッド距離」の2種類があります。
簡単に言うと「コリレーションの類似性」はグラフの形を元に似ているものをグルーピングします。
ユークリッド距離は平均値でグルーピングします。

5

平均値であれば、わざわざクラスタリングなどかけなくても棒グラフなどで、
分類したほうが早そうなので、「コリレーションの類似性」を選択しておいてください。

「クラスタの最大数」は、データを「いくつのグループに分けるか」です。
慣れると見当がつくようになりますが、とりあえず4つに分けています。

これが少なすぎると、異なる形のグラフが一つのグループに入ってしまったり、
逆に多すぎると、傾向が見えません。

納得いくまでやり直しましょう。
ここは辛抱です。

失敗例

結果はこのようになりました。

6

上手くグルーピングできませんでした。

多くのデータが2番に入ってしまっています。
メーカ数に対してX軸のカテゴリが多すぎるのが原因だと思います。

成功例

気を取り直して、X軸は四半期に設定して、線の基準も「機種」ベースでクラスタリングしてみます。

7

結果はこちらです。
上手く分かれました。

8

それぞれのクラスタに適度な数が入っており、傾向も出ています。

クラスタの傾向を見るための
「線の基準」の設定を削除してクラスタ平均を見ましょう。

9

0~9に従い、右肩下がりから右肩上がりへの傾向がありそうですね。

結果の考察

クラスタリングをかけただけでは、傾向別にグルーピングされるだけですので、
何も面白くありません。

ここからが人間の仕事です。
それでは、クラスタリングの結果と売り上げを比較しましょう。

10

右肩上がりのクラスタに属しているメーカーと、そうでないメーカの比較ができます。

このように、「売上のパターン」を分析の軸とすることができます。

軸のパターン評価

先ほどは時系列でのトレンドパターンを分類しました。

他にもパターンを分ける方法があります。
というよりこちらがメインです。

カラムの属性パターンによる分け方です。
WEBの商品評価などでレーダーチャートと呼ばれる5角形のグラフを見かけると思いますが、
イメージとしてはその5角形の形によるグループ分けです。

同じように線グラフを作成して、
X軸に(カラム名)を設定します。
Y軸には評価カラムを設定します。

軸を対象とするクラスタリング

11これで全体の傾向が把握できましたので、
「線の基準」をグルーピングしたい条件に設定してください。
ちなみに「ロー番号」に設定すると、1行で1つの線になります。

12

はい。これでクラスタリングの準備が整いました。
それではK平均法クラスタリングを実行しましょう。

今回は9つに分けました。

13

「線の基準」を削除して平均化すると傾向の違いが見えますね。
7~9はフラットに近いですが、上の方は暴れています。

これも最終的な品質と比較しましょう。

1~3に入るとよろしくないようですね。
実際には1~3の製品に入る製品ができる原因分析を、
次の分析テーマにします。

14

K平均法クラスタリングは単純ですが、
原因究明に関してはかなり強力なツールですので、
使いこなせるようになると、分析の軸が一気に広がります。

データの相関を調べたい

カラムの相関を調べたい

カラムの相関性を調べたい場合は、Data Relationshipsを使用します。
この機能を使用して、様々なカラム間の相関性を見ることができます。

1
比較方法

Data Relationshipsでは比較方法とX軸Y軸の3つの設定項目があります。
X軸×Y軸のペアの総当たりで比較を行いますが、比較方法はデータの方式に応じて選択します。

データには数値データとカテゴリデータがありますので、
「数値x数値」「数値xカテゴリ」「カテゴリxカテゴリ」
の3パターン+2つで計5つのアルゴリズムが選択できます。

2

数値カラム同士を比較したければ、「線形回帰」か「スピアマンR」を使用します。
カテゴリデータと数値データを比較する場合は、
「Anova」か「クラスカル・ウォリス」を選択します。
カテゴリカラム同士を比較する場合は。
カイ 2 乗オプションを使用します。

3

スピアマンRとクラスカル・ウォリスはノンパラメトリック手法となっています。

悩んだ場合は「数値・数値」の場合は線形回帰
「数値・カテゴリ」の場合はクラスカル・ウォリスを選択しておけば無難です。

結果表示

実行すると、カラムペアについてそれぞれp-valueが計算されます。
これは、最初のカラムの値から 2 番目のカラムの値をどの程度予測できるかを示すものです。
p-value が低ければ、2つのカラムの相関性が強いと考えられます。
0に近いほど、関連性が高いので注意してください。

線形回帰の場合の結果表示

4

線形回帰の場合はp-valueだけでなくてRSqにも注目してもいいと思います。

カテゴリX数値比較の場合

5

 

比較方法で「Anova」か「クラスカル・ウォリス」を選択した場合は、
「選択したXカラム」にカテゴリデータを入れてください。

 

6

 

「数値・カテゴリ」の場合は分散分析になるので、
結果はボックスプロットになります。
慣れてない人には少しわかりづらいので、分布を表示すると分かりやすいです。

7

分布を表示するとヒストグラム(横)のような表示になります。

8

データ範囲の変更

現在表示しているデータで、カテゴリごとに大きな違いがあるような場合、個別に比較する必要が出てきます。
フィルターをかけるのが便利ですが、その際計算表は自動的には更新されません。

8.5
↑のように全体では相関がありそうでも、2つのカテゴリ間で
大きく分散が異なっている場合は別々に見ましょう。

9

 

フィルター後には結果表のタイトルに更新ボタンが表示されます。
こちらをクリックすると、現在のデータを元に再計算されます。