記号の共線 数量化1類における多重共線らしきものの考察 Part1

多重共線性(multi-colineality)、通称はマルチコと言うらしい。一般に多変量解析では非常に厄介な問題であるが、あまり具体的に説明されていないところがあります。特に数量化分析では少ないようです。多重共線性は多数の説明変数のなかで、ある特定の説明変数間に強い相関がある場合、解析結果が不安定になったり説明不能になる事です。例えば、競馬の場合、騎手と調教師の間に専属契約があり、調教師も騎手も複数の契約が出来ないとすると騎手と言う変数と調教師という変数が全く同一になってしまい、これら2つの変数を同時に設定することは無意味になります。こういう場合はどちらか一方を変数として使用しなければ良いわけですが、一般的なデータの場合は背景の理解が難しい事が多く曖昧です。ここで注意しなければならないのは専属契約と複数契約の禁止と言う二つの条件があるとして、この二つは数学的な処理では無いという事です。多変量解析における変数の設定は突き詰めれば非常に恣意的になっている事です。また、実際の競馬の場合、フリー契約や専属契約の縛りの方向などにより、騎手と調教師は二つの変数を取ることができ、さらに騎手x調教師と言うこれまた厄介な交互作用が存在します。

ところで、数量化では、実は多重共線は起こらないようです。逆行列が発散してしまう事は起こりますので、これを多重共線として扱えばそうでしょうが、発散が起こった場合の状況は一つしかありません。それはダミー変数が等価になった時生じます。ダミー変数が等価になるとは具体的に競馬ではどういう事かですが、父父馬と父馬が一致してしまう事です。さらに具体的に言いますとダンシングブレーブという有名な種牡馬がいます。この馬はマリー病と言う奇病に罹り、生産国イギリスでは種牡馬として見切られたが、JRAがリスクを被って購入し日本で種牡馬として供用され、産駒のコマンダーチーフやホワイトマズルなどが活躍して種牡馬として大成功を収め、生産国イギリスでは安易な日本への流出を問題視されたとか。現在、日本で活躍しているのはコマンダーチーフやホワイトマズルの産駒達で、ダンシングブレーヴから見れば孫馬になる訳です。今回、多重共線らしきもの現象の主役はこの3頭が務めます。

記号の数値  数値計算技法

scan001

プロ棋士の棋譜・手筋は宝の山の続きを書きますとしながら時間が空いていまい申し訳有りません。機械学習のルーツを探るべく一つの古本を読み返しています。本は昭和47年(1942年)オーム社から第一版第1刷が出版されている 「コンピュータ実践実務技法講座 監修 魚木五夫 戸川隼人 著 数値計算技法」がそれです。左上にに機械学習あるいは数量化理論に通暁する「極値問題」を中心に関連を纏めたものを本書からコピーしたものです。極値問題の解法は「評価関数を最大にする点の求め方」と「制約条件の処理」に分けられるようです。そして後者は多分に連立方程式的性格を持つ問題であるようです。古本としましたが、私が30年近く前に実際に購入したもので、最近になって古書として購入したものでは有りません。また、仕事に関連して購入した物ではなく、当時は趣味としての競馬予想理論を構築する為の参考書として購入したものです。さらに…..(続く)

ところで、数量化1,2の結果ですが、考えて見れば予想エクセルファイルで簡単に確認出来ますので、今後は申し訳ないのですが、割愛させて頂きます。

記号の数量  数量化1類の例題

今回は非常に基礎的な事ですが、数量化1類の実際の計算の例題を上げてみました。サイトを色々探して見ましたが、適当なものが見つかりませんでしたので、私の種本、応用多変量解析のp87~p91の選挙の投票率のデータを引用しました。参考になれば幸いです。なお、桁数は適当に切り揃えています。

ところで、以下の数字のの具体的な意味ですが、例を投票率から引いていますが、競馬に焼き直して解説したいと思います。競馬のタイムは芝2000mであれば2分掛かるようですので、これを分速に直すと1分間に1Km即ち、60分間で60Kmとなり、この前後が馬の時速となります。少し荒っぽいですが、投票率の絶対値が丁度時速に近いところにありますので、この例題を競馬の速度を求める事例に切り替えて説明します。61.7は馬の時速と考える訳です。

アイテム1は距離として、1600mと1800mと2000mの3つのカテゴリーがあり。

アイテム2にコースとして芝とダートの二つカテゴリーがあり

アイテム3には武豊騎手と岩田騎手と安勝騎手の3カテゴリーがあるとします。

***数量化1類***

標本数  15
アイテム数 3

アイテム 1 :距離     1600m(100)、1800m(010)、2000m(001)
アイテム 2 :コース    芝(10)、ダート(01)
アイテム 3 :騎手     武騎手(100)、岩田騎手(010)、安藤騎手(001)

***入力データ***

1   61.7   2   2   1
2   65.2   3   2   2
3   59.6   2   2   3
4   70.1   2   2   1
5   67.7   2   2   2
6   67.5   2   1   3
7   72.4   1   1   2
8   67.3   3   1   1
9   55.2   3   2   1
10   48   3   2   2
11   70   3   2   1
12   65.3   1   2   3
13   43.8   2   2   2
14   55.5   1   2   1
15   88.2   2   2   3

***入力データ(0/1)***

1   61.7   010 01 100
2   65.2   001 01 010
3   59.6   010 01 001
4   70.1   010 01 100
5   67.7   010 01 010
6   67.5   010 10 001
7   72.4   100 10 010
8   67.3   001 10 100
9   55.2   001 01 100
10   48    001 01 010
11   70    001 01 100
12   65.3  100 01 001
13   43.8  010 01 010
14   55.5  100 01 100
15   88.2  010 01 001

X ‘Xの正則行列  21:52:54

3   0   0   2   1   1
0   7   0   6   2   3
0   0   5   4   2   0
2   6   4   12   4   3
1   2   2   4   5   0
1   3   0   3   0   4

X ‘Xの逆行列    21:52:54

0.6974   0.4400   0.3290  -0.3129  -0.1967  -0.2696
0.4400   0.6800   0.4000  -0.4000  -0.2000  -0.3200
0.3290   0.4000   0.5483  -0.3548  -0.1612  -0.1161
-0.3129  -0.4000  -0.3548   0.4354   0.0161   0.0516
-0.1967  -0.2000  -0.1612   0.0161   0.3709   0.1870
-0.2696  -0.3200  -0.1161   0.0516   0.1870   0.5187

X’Y行列        21:52:54

193.2   458.6   305.7   750.3   297.1   280.6

カテゴリースコア

68.206   69.804   67.910  -6.349  -4.227   5.507

カテゴリースコア(カテゴリ-1を入れる)

アイテムとカテゴリー纏め

アイテム1距離    カテゴリー1-1600m   68.026km/hr

カテゴリー2-1800m   69.504km/hr

カテゴリー3-2000m   67.910km/hr

アイテム2コース   カテゴリー1-芝コース  0.000km/hr

カテゴリー3-ダート   -6.349km/hr

アイテム3騎手    カテゴリー1-武豊     0.000lm/hr

カテゴリー2-岩田     -4.227km/hr

カテゴリー3-案勝     5.507km/hr

ここで芝2000mの武豊騎手の速度を知りたい場合2000m速度 =67.91(2000m)+0.00(芝)+0.00(武豊)=67.91km/hr となります。