因子分析練習帳 1 Gorsuch(1983)変数サンプリング
堀 啓造(香川大学経済学部)
2003/12/ 1
counter: (2003/11/27からの累積)
最終更新日: ( 2003/11/27)
data | 処理 | 結果 (表1.因子数決定指標について | 固有値系の指標について | MAP | まとめ) | 高次因子がある場合 | 引用文献 |
Gorsuch(1983)の13章のなかの変数選択が因子構造に与える影響部分にある図式に基づき,人工データを作成し,因子の抽出の問題を考える。
Gorsuch の変数選択と因子の構造の関係図は次のようになっている。
data
標本数 300
次の相関行列になるように人工データを生成した。C10系のみ、データが生成できるように少し相関を変えている。ほかは、同じ系統は同じ相関になるようにしている。(乱数生成シンタックスspss
)
| A | B | C | C10 | C10 | D | E |
A | 0.7 | | | | | | |
B | 0.4 | 0.7 | | | | | |
C | 0.2 | 0.2 | 0.65 | | | | |
C10 | 0.2 | 0.2 | 0.65 | 0.83 | | | |
C10' | 0.2 | 0.2 | 0.65 | 0.85 | 0.8 | | |
D | 0.2 | 0.2 | 0.4 | 0.4 | 0.4 | 0.7 | |
E | 0.2 | 0.2 | 0.4 | 0.5 | 0.5 | 0.4 | 0.7 |
最低でも0.2の相関があり、一般因子があることがわかる。A,BとC,D,Eが2つの別の因子になるのも見えている。
同一系の項目間は0.7の相関があるようにしたが、C系のみC10系とを分離するために相関の大きさを変えている。
処理
服部(2003)の因子分析プログラム faccon.exe と堀の忍者ハットリ君を使用した。
結果
表1.因子数決定指標について
小さいフォントにすると一望できる。
| Gorsuch | set 1 | set 2 | set 3 | set 4 | set 4-2 | 正解数 | 適否 |
MAP-TEST | 5 | 3 | 1 | 1 | 2 | 5 | 3(2) |
RAW-EIGEN | 4 | 3 | 1 | 2 | 3 | 5 | 2 | x |
PA-EIG-M | 4 | 3 | 1 | 2 | 2 | 4 | 2 | x |
PA-EIG95 | 3 | 3 | 1 | 2 | 2 | 3 | 2 | x |
SMC-EIGEN | 7 | 3 | 2 | 2 | 6 | 8 | 4 | x |
PA-SMC-M | 5 | 3 | 2 | 2 | 6 | 6 | 6 | o |
PA-SMC-95 | 5 | 3 | 2 | 2 | 6 | 5 | 5 | o |
SE-SCREE | 5 | 3 | 1 | 1 | 5 | 5 | 3(2) | x |
| ml | uls | ml | uls | ml | uls | ml | uls | ml | uls | ml | uls | ml | uls | ml | uls |
SAS-PR | 4 | 4 | 2 | 3 | 2 | 2 | 1 | 1 | 4 | 4 | 5 | 5 | 2 | 3 | x | x |
CHI^2 | 5 | 4 | 3 | 3 | 2 | 2 | 2 | 2 | 6 | 4 | 6 | 4 | 6 | 3 | o | x |
AIC | 5 | 5 | 3 | 3 | 2 | 2 | 2 | 2 | 6 | 5 | 6 | 5 | 6 | 4 | o | o |
BIC | 5 | 4 | 3 | 3 | 2 | 2 | 2 | 2 | 6 | 3 | 5 | 4 | 5 | 3 | o | x |
CAIC | 5 | 4 | 3 | 3 | 2 | 2 | 2 | 1 | 5 | 2 | 5 | 4 | 4 | 3 | | x |
RMSEA | 5 | 4 | 3 | 3 | 2 | 2 | x | 2 | 6 | 4 | 5 | 4 | 4 | 3 | | x |
GFI | 5 | 2 | 3 | 1 | 2 | 1 | 1 | 1 | 5 | 1 | 5 | 2 | 4 | 1 | | x |
AGFI | 5 | 2 | 3 | 2 | 2 | 1 | 2 | 1 | 6 | 1 | 6 | 2 | 6 | 1 | o | x |
PGFI | 3 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 3 | 1 | 1 | 1 | x | x |
RGFI | 5 | 1 | 3 | 1 | 2 | 1 | 1 | 1 | 4 | 1 | 5 | 1 | 4 | 1 | | x |
RMSR | 4 | 4 | 3 | 3 | 2 | 2 | 2 | 2 | 4 | 3 | 4 | 4 | 3 | 3 | x | x |
NFI | 4 | 2 | 3 | 2 | 2 | 1 | 2 | 1 | 4 | 1 | 5 | 2 | 3 | 1 | x | x |
NNFI | 5 | 3 | 3 | 3 | 2 | 2 | x | 2 | 6 | 2 | 5 | 3 | 4 | 3 | | x |
CFI | 5 | 3 | 3 | 3 | 2 | 2 | 2 | 2 | 5 | 2 | 5 | 2 | 4 | 3 | | x |
|
想定因子数 | 5 | 3 | 2 | 1(2) | 6 | 6 | 正解数 |
因子分析結果等 忍者ハットリ君出力 xls ファイル
Gorsuchは set 3を1因子としているが、2因子が正しい。A,Bの因子およびC,D,Eの因子を設定していたのを忘れていたようである。集計表ではどちらも正解と数えている。
set 4-2 はGorsuch ではないすべての項目を使用したものであるが、set 4 の単純な拡張とは認識されないようである。set 4-2 は5因子解のほうが正解といえる。set 4,4-2 とも6因子解の因子パタンをみても5因子解でいいことがわかる。とりあえず、ここでは6因子解のほうを正解とカウントしている。項目数と因子の問題として興味深い問題を提起している。
6set とも正解をしているのは,PA-SMC-M である。set4-2 の正解を5とすると、PA-SMC-95である。対角SMCの平行分析の優秀さが示された。
ml とuls が別となる、適合度指標はuls において正解が少なくml の場合にのみ満足できる指標がある。意外なことにχ2とAIC、AGFIである。set4-2 を5因子解と認めるとBIC がいい。さらに、set4, 4-2 とも5因子とすると、CAICとGFI, CFI がいい。
uls は全般に悪いが、AICのみはset4, set4-2 を5因子解とすると6setとも正解となる。標本数300 はAICとBICともに有利と思われるが、AICのほうのみulsの結果が一番よい。とくに大元のデータにおいてAIC以外が外れている点が注目される。ulsについてはAIC以外は使えないといってよいだろう。きれいなデータでこのようになっていることは真剣に受け止める必要がある。
固有値系の指標について
カイザー規準(RAW-EIGEN)は,多くの指標において5と正しく指摘されているにもかかわらず,指摘できない。また,対角1の平行分析(PA-EIG-M,PA-EIG95)はいずれもよくない。PA-EIG95はここでも過度に小さな因子数となり,MAPの対抗版とはならないことが示された。PA-EIG95よりも大きめの因子数となるPA-EIG-Mでさえもこのデータでは少なめの因子数となる。
対角SMCの固有値0以上規準(SMC-EIGEN)はカイザー規準よりは当たりが多いが,はずれの場合の予想因子数が大きすぎる。ここでも使えるものでないことがわかる。
対角SMCの平行分析(PA-SMC-M, PA-SMC-95)はいずれも良好である。このデータのような,一般因子がある場合,項目が因子モデルに基づいてサンプリングされている場合において良好なのはいままでの結果とも対応する。
MAP
MAP は当たりをそのままだしていないところもあるが良好といえる。set 4, set 4-2 がそれぞれ2因子,5因子となっている点が注目される。因子当たりの項目数が必要な指標のようである。対角1の固有値系の指標を参考にするよりは因子数を絞ることができる。
SE-SCREE
このデータに関してはそこそこいい線をいっている。特に set 4, 4-2 をともに5因子としているところはいい。
以下はMLの予測
情報量系
情報量系(AIC, BIC, CAIC)はそれぞれ良好である。このサンプルサイズではCAICは不利かとも思われたかかなりいい。このように良好な構造とデータである場合には情報量系は使えるのかもしれない。
SAS
よくない。
χ2
300なのでもっと外れるかと思われたが,健闘している。
RMSEA
set 3において適合規準に達しなかった。0.08のレベルには達していたがこのように緩い因子ではうまく出ないのか?ほかは概ねうまくいっている。
その他の適合度規準
GFI, AGFI, CFIが健闘している。AGFI, CFIは堀(2003)において散々な結果であったが,このデータではいい。
NNFI(TLI)はRMSEAと同じくset 3 において適合度規準に達しなかった。本来の規準の0.90であるならば2因子となっている。このデータに関してNNFIは使えるものとなっている。
この他ではRGFIがそこそこ使える。
まとめ
正規乱数を使った人工データであるので,きれいなデータとなっている。因子に対応する項目がやや少ない嫌いがある。そのような限界があるものとして考える必要がある。
このデータに対してはAICなどの情報量系が非常によい。χ2もよい。GFI, AGFI, CFIもよい。RMSEA,NNFI(TLI)は甘い規準を使えば使える。
最小2乗法(uls)の場合、適合度指標はよくない。このデータではAICのみが使える。Steiger の指摘している問題もあり、最小2乗法の場合、適合度指標を使わない方がいい。対角SMCの平行分析とMAPで挟む手法を使うべきである。
最尤法、最小2乗法ともに、対角SMCの平行分析がきわめてよい。MAPと対角SMCの平行分析を使って挟み込む手法はここでも有効なことがわかった。
高次因子がある場合
Gorsuch因子構造元モデル
A,B,C,D,E->A,B,D,(C,E)->(A,B),(C,E),D->(A,B),(C,D,E)->((A,B),(C,D,E))
set 1
A,B,II->(A,B),II->((A,B),II)
set 2
(C,E),D->(C,D,E)
set 3
(A,B),(C,D,E)->(C,D,E)
set 4
A,B,(C,C10),C,D,E->A,B,(C,C10),D,E->(A,B),(C,C10),D,E->(A,B)(C,C10,D,E),A2->(A,B),(C,C10,D,E)->(C,C10,D,E)
set 4'
A,B,(C,C10),C,D,E->A,B,(C,C10),D,E->(A,B),(C,C10),D,E->(A,B)(C,C10,E),D->(A,B),(C,C10,D,E)->(C,C10,D,E)
引用文献
堀 啓造(2003).因子数決定法の検討- Holzinger and Swineford(1939)の知能データをもとにして. http://www.ec.kagawa-u.ac.jp/~hori/yomimono/pa2.html
Keizo Hori (home page)
Faculty of Economics
Kagawa University
e-mail hori@ec.kagawa-u.ac.jp