Parallel analysis


堀 啓造(香川大学経済学部)
2001/08/31

counter: (2001/08/31からの累積)
最終更新日: (初版:2001/08/31,追加版: 2003/02/28)
本稿はさらに分析を加えて、因子分析における因子数決定法──平行分析を中心にして── となり使命を終えている。しかし、因子数決定法について考えはじめたきっかけとなったので残している。
[評価][発展][引用文献]
(a)人工データによる実験 (対角1のPAが失敗する場合)
(b)人工データによる実験 (2因子の相関は高いが、対角1のPAが成功する場合 r=0.723)
(c)実際のデータにおいて対角1のPAが失敗する場合(Thurstone & Thurstone, 1941)
(d)一応のガイドライン


Parallel analysis:訳語があるのかな。パラレル・アナリシスとカタカナでいいか。それとも並行分析。

因子分析の因子数を決める手法の一つ。もちろん主成分分析の主成分数を決める方法として用いてもいい。

従来、Kaiser(1960) の固有値1以上の基準があった。これと同じことは Gutttman(1954)もいっている。しかし、Kaiser の基準はサンプリング誤差の問題を無視したもので、サンプル数が無限のときに正しい。

Horn(1965)はこの点を指摘し、同じ変数の数、同じサンプルの数の正規乱数行列の相関行列の固有値を推定し、対応する固有値を比較し、乱数データの相関行列の固有値のほうが大きくなる前の因子までをとることを提案した。

[評価]
Zwick and Velicer(1986)の広範なシミュレーションにおいて高い評価を得ていることで有名である。彼らによると、MAP とほぼ同等にいい因子数決定法である。スクリープロットや固有値1以上の基準に比べてはっきりいい。そのほかのシミュレーションの結果でもいい評価を得ている。Educational & Psychological Measurement誌のeditorial においてもその使用が薦められている(Thompson, 1996)。

[発展]
(1)Horn(1965)においてはいくつかのランダムデータ行列から平均値をとるものであった。

(2)Humphreys and Ilgen(1969)において、対角1のPAに加え、対角にSMC、最大相関を入れるPAと最尤法のχ2テストとの関係を調べている。最大相関のPAはよくない。対角SMCのPAの結果が最尤法のχ2の結果とよく一致することを示した。Humphreys and Montanelli(1975) では対角SMCのPA がMLのχ2よりも優れていることを示した。最尤法の基準だと、小サンプルで低共通性のときに必ず過小推定してしまう。サンプル数が増えるにつれ、過大推定をしてしまう。PA は共通性が広い範囲であっても、狭い範囲であっても正しく因子数を推定する。ただし、単一の心理データと単一のランダムデータから推定すると、過大、過小推定とも起こりうる。また、共通因子モデルがデータへの適合が貧弱な場合は、過大推定しやすい。

(3)その後、重回帰式において値を求める方法が提案されている。また、数表に形で与えられているものもある。これら2つの方法はHorn がやったようにその場でランダムデータ行列を作成し、固有値を求めることができない場合に対応するためである。重回帰式を使って求める方法はMontanelli and Humphreys(1976) が一番早いが、対角にSMCを入れるものであった。Allen and Hubbard(1986)が対角に1をいれた固有値の平均値を求める式を公表した。これにパラメータを一つ増やし精度を高めたものが、Lautenschlager, Lance, and Flaherty(1989)である。同時期にLongman et al.(1989)が別の重回帰式を公表している。以上の重回帰式は固有値番号ごとの重み係数が必要であった。

Keeling (2000)は固有値の順位、サンプル数、変数の数だけで推測する式を公表した。

(4)Longman et al.(1989)は固有値の平均値(つまり50%点)の式と併せて95%点の固有値を求める重回帰式を作成している。この理由は、Zwich and Velicer(1986)の結果において、parallel analysis が失敗するとき、因子数を過大に見積もることが多いからである。Cota, et al.(1993a)は95%点の表を公表している。95%点の使用を支持しているものに、Glorfeld(1995)がある。理論的には次のBuja and Eyuboglu(1992)が詳しい。

(5)Buja and Eyuboglu(1992)は、PAが第1固有値のみが統計的推論をしていることになるが、そのほかについては疑似推論であるとした。PAの比較する数値として、固有値の平均は50%点(Median)を使用するのと同じでありよくない。上側5%点などつまり、95%点などを使用するべきである。また、permutation p値も使っている。対角SMCを入れたPAは対角1のPAに比べliberalである(つまり因子数を多くとる)ことを論じている。また、負荷量についてもPAにより0と有意に離れる点を計算している。ここで、負荷量が有意なのは、変数の数、サンプル数、固有値の順位のそれぞれと関係することを示し、単独の有意な負荷量の推定が意味のないことを示した。変数の数が増えると目立って有意でない95%点が小さくなる。

(6)parallel analysis は正規乱数を使うが、Gorfeld(1995)は一様分布、歪みの大きい分布と比較し、どれでも同じ結果がでることを示した。

(7)各種PA の比較をCota et al.(1993b)が行っている。重回帰による平均値予測、表による平均値、3回の平均、40回の平均、重回帰95%点、表による95%点、40回の95点のいいて、28の実データの因子数の違いをみたがほとんど違いがないことを確かめている。違いがでる場合、3回の平均はほかと違うことがある。また、もともとの主旨と対応して、95%点のほうが因子数が少なくなることがある。その差が2因子のこともある。表と40試行とは食い違いはない。

(8)因子数を過小推定する場合についてSchweizer(1992)がまず論じ、ついでTurner(1998)が論じている。Turner(1998)具体的に実在データを組み合わせを5パタンつくり、1例において過小推定が起こった。具体的データを見てみると、2因子にそれぞれ5項目が負荷し、因子間相関が高い(r=0.8)場合である。r=0.8なので1因子としてとらえたほうがいいという考え方もある(John and Benet-Martinez, 2000)。わたしもどちらかというとその考えに賛成だ。ただ、どの程度の相関なら検知できるのかという問題もある。


そこで、まず人工データによって、因子間相関が0.8の相関行列を作る。

(a)人工データによる実験 (対角1のPAが失敗する場合)

表1.相関行列 人工データなので相関の値が単純
相関係数
Pearson の相関係数
V1V2V3V4V5V6V7V8V9
V11.000.650.650.650.650.500.500.500.500
V2.6501.000.650.650.650.500.500.500.500
V3.650.6501.000.650.650.500.500.500.500
V4.650.650.6501.000.650.500.500.500.500
V5.650.650.650.6501.000.500.500.500.500
V6.500.500.500.500.5001.000.600.600.600
V7.500.500.500.500.500.6001.000.600.600
V8.500.500.500.500.500.600.6001.000.600
V9.500.500.500.500.500.600.600.6001.000

表2 固有値など
説明された分散の合計
初期の固有値抽出後の負荷量平方和回転後の負荷量平方和
因子合計分散の%累積%合計分散の%累積%合計
15.4760.860.85.1056.756.74.79
20.9310.371.10.556.162.84.48
30.404.475.6
40.404.480.0
50.404.484.4
60.353.988.3
70.353.992.2
80.353.996.1
90.353.9100.0
因子抽出法:主因子法
a因子が相関する場合は、負荷量平方和を加算しても総分散を得ることはできません。

図1 対角1の固有値のスクリープロット このプロットならおそらく2因子をとるだろう

表3 回転前因子負荷量 第1因子への負荷が高い
因子行列(回転前)
因子
12
V10.778-0.211
V20.778-0.211
V30.778-0.211
V40.778-0.211
V50.778-0.211
V60.7200.285
V70.7200.285
V80.7200.285
V90.7200.285
因子抽出法:主因子法
a2個の因子が抽出されました。
 5回の反復が必要です。

表4 直接oblimin 回転(斜交回転)後パタン行列 きれいに2因子に分かれている。
パターン行列
因子
12
V10.8060.000
V20.8060.000
V30.8060.000
V40.8060.000
V50.8060.000
V60.0000.775
V70.0000.775
V80.0000.775
V90.0000.775
因子抽出法:主因子法
回転法:Kaiserの正規化を伴うオブリミン法
a6回の反復で回転が収束しました。

表5 斜交回転因子間の相関 因子間相関が 0.801 ときわめて高い
因子相関行列
因子12
11.0000.801
20.8011.000
因子抽出法:主因子法
回転法:Kaiserの正規化を伴うオブリミン法

表6 各種因子数判定法


Horn
1965
Longman et al.
1989
対角SMCの固有値Humphreys
& Ilgen
1969
Zoski & Jurs
1996
Velicer
1976
Kano
1990
対角1 PA対角SMC PASEScreeMAP
0pararrel analysis
平均
pararrel analysis 95%点 pararrel analysis
平均
pararrel analysis
95%点
se0.3163 S-Ψhat

固有値
15.47161.148* 1.1895.026 0.1540.1951.4360.0385 * 4.472
20.92841.0961.1230.470 0.105* 0.136* 0.161* 0.0359-0.072
30.40001.0631.086-0.067 0.0690.0940.0150.0846 -0.600
40.40001.0301.053-0.067 0.0370.0610.0160.1840 -0.600
50.40000.9981.022-0.067 0.0040.0240.0180.0455 -0.600
60.35000.9680.992-0.067 -0.026-0.00500.0889 -0.650
70.35000.9370.965-0.087 -0.053-0.03100.1602 -0.650
80.35000.9010.929-0.087 -0.089-0.0630.3059 -0.650
90.35000.8600.894-0.087 -0.129-0.102-0.650
比較の数値(SE=0.111)(D0=0.43)
因子数1 1 2 2 2 2 1
このデータでは多くの因子数判定法が成功する。しかし、固有値1以上および、対角1のPAおよびKano(1990)の方法が失敗する。
(b)人工データによる実験 (2因子の相関は高いが、対角1のPAが成功する場合 r=0.723)
なお、2因子のデータの因子間相関をさげていくと、0.723のときにparalle analysis においても2因子となる。第1固有値は5.702、第2固有値が1.158,第3固有値が0.324 となる。

図2 対角1のparallel analysis が成功したときのスクリープロット 因子間相関 r=0.723

表7 対角1のparallel analysis が成功したときの相関行列 
Pearson の相関係数
V1V2V3V4V5V6V7V8V9
V11.000 0.708 0.708 0.708 0.708 0.500 0.500 0.500 0.500
V20.708 1.000 0.708 0.708 0.708 0.500 0.500 0.500 0.500
V30.708 0.708 1.000 0.708 0.708 0.500 0.500 0.500 0.500
V40.708 0.708 0.708 1.000 0.708 0.500 0.500 0.500 0.500
V50.708 0.708 0.708 0.708 1.000 0.500 0.500 0.500 0.500
V60.500 0.500 0.500 0.500 0.500 1.000 0.676 0.676 0.676
V70.500 0.500 0.500 0.500 0.500 0.676 1.000 0.676 0.676
V80.500 0.500 0.500 0.500 0.500 0.676 0.676 1.000 0.676
V90.500 0.500 0.500 0.500 0.500 0.676 0.676 0.676 1.000

相関係数の大きさは第1固有値の大きさなどと関係するので、この相関係数なら必ずPAが成功するというものではない。一般に第1固有値が小さいと相関はより小さくないとPAはうまくいかない。

(c)実際のデータにおいて対角1のPAが失敗する場合(Thurstone & Thurstone, 1941)
ところで、この場合、多くの判定法が成功しているが、多くが失敗する例として、Thurstone & Thurstone(1941) の21変数のデータがある。8年生437人に基本能力検査を実施した。

図3 Thurstone & Thurstone(1941) の21変数のデータクリープロット

MAPの3因子, 固有値1基準が5, 対角1のPAが4, 対角smcの固有値0基準が9と多くが失敗するなか、SEScree と対角SMCのPAは正しく7因子とする。

表8 Thurstone & Thurstone(1941) の21変数の対角1の固有値
固有値分散の %累積 %
17.37 35.1 35.1
22.38 11.3 46.4
31.57 7.5 53.9
41.26 6.0 59.9
51.18 5.6 65.5
60.94 4.5 70.0
70.85 4.1 74.0
80.71 3.4 77.4
90.59 2.8 80.2
100.49 2.4 82.6
110.48 2.3 84.9
120.46 2.2 87.1
130.43 2.0 89.1
140.38 1.8 90.9
150.37 1.7 92.7
160.33 1.6 94.2
170.32 1.5 95.7
180.30 1.4 97.2
190.26 1.2 98.4
200.19 0.9 99.3
210.15 0.7 100.0

というわけで、評判のいいParallel analysis にも限界はあるし、MAPにも限界はある。常に正しい因子数判定法はないと思った方がいい。

(d)一応のガイドライン
(1)因子数最小の場合をMAPで求める。
(2)因子数最大を対角SMCの95%点PAで求める。
(3)第1固有値の突出度を見る。
(4)突出度が大きくなければ、対角1のPAもしくはKano(1990)などを使う。(1)と(4)の間。
(5)突出度が大きければ(4)から(2)(端をそれぞれ含む)間の数の因子を求め解釈可能性を考える。また、SEScree も参考にする。

いずれにしても対角1のPA(もちろん95%点)を基点に探っていくことになる。

この間、1因子に2項目しか負荷していない場合、識別不能のため共通性が1を超える不適解が生じるかもしれない。そのときは、Kano(1990)の非反復因子分析(近日excel vba を公開)を因子抽出法に使う手がある。


(9)最近のプログラム事情。インターネットにおいてPsycINFOを検索してみると,2000に2件のparallel analysisのプログラムが発表されている。Kaufman and Dunlap(2000)とO'Connor(2000)である。今までのプログラムはメインフレームやDOS版であったのがWindows版がでたということである。私(2001)もexcel版を作ってみた。すでにコンピュータのcpu速度も十分なので、コンパイルをしないexcelvbaにおいてもそこそこの時間で処理できる。57変数、240サンプルを50試行のparallel analysisにおいて10数分である。少ない変数なら1秒か2秒で処理する。O'Connor(2000)の、SPSS、SAS,MATLABプログラムはO'Connorのサイトにある。SPSSのマクロと私のexcelのプログラムの処理結果を見ると、SPSSのマクロのほうが圧倒的に速い。

pa, map, SE scree を処理するSPSSのスクリプトを作成した。
(10)利用例。Turner(1998)にもParallel analysisの利用例が挙げられている。PsychINFOを検索してもPAを使った研究が散見される。


追加
服部(2003)において,PA他の因子数決定用の指標を出力しかつ因子分析をする便利なプログラムが公表されている。サイトはhttp://www.human.tsukuba.ac.jp/~hattori/faccon/faccon.htmlである。これを利用し,出力をわかりやすくしたexcel マクロを堀が作っている。http://www.ec.kagawa-u.ac.jp/~hori/delphistat/hattori.htmlにある。

これを利用し検討したところ,AICは被験者数が300以上になるともう使えない指標である。だからといってそれより少ないときにいいとも言えない。BICは逆に被験者数が少ないと使えない指標である。200人以下のときは小さすぎる因子数を指す。

ある因子モデルに基づいて項目をきちんと集めた場合(上の例ではThurstone and Thrustone),SMCの95%点PAはいい指標となる。変数を因子に基づかずに集めた場合はSMC95%点 PAでは多すぎる因子数を指す。しかし,それでもこれより多い因子数は考えなくいいという指標にはなっている。

[引用文献]

Allen, S. J.& Hubbard, R.(1986). Regression equations for the latent roots of random data correlation matrices with unities on the diagonal. Multivariate Behavioral Research, 2, 393-398.

Buja, A. and Eyuboglu, N. (1992). Remarks on parallel analysis. Multivariate Behavioral Research, 27, 509-540.

Cota, A. A., Longman, R. S., Holden, R. R., and Fekken, C. G.(1993a).Interpolating 95th percentile eigenvalues from random data: An empirical example. Educational and Psychological Measurement. 53, 585-596.

Cota, A. A., Longman, R. S., Holden, R. R.,& Fekken, G. C. (1993b). Comparing different methods for implementing parallel analysis: A practical index of accuracy. Educational and Psychological Measurement, 53, 865-876.

Glorfeld, L. W.(1995). An improvement on Horn's parallel analysis methodology for selecting the correct number of factors to retain. Educational and Psychological Measurement, 55, 377-393.

Guttman, L. (1954). Some necessary conditions for common factor analysis. Psychometrika, 19, 194-162.

服部環 (2002). 因子分析 http://www.human.tsukuba.ac.jp/~hattori/faccon/faccon.html 2003年2月28日

服部環 (2003). 共通因子数の決定とそれを援助するためのコンピュータ・プログラムの開発. 応用心理学研究, 28, 135-144.

堀 啓造(2001). 因子分析の因子数決定法(spss script) http://www.ec.kagawa-u.ac.jp/~hori/spss/spss.html#nfactors

堀 啓造(2002). excel vba program for faccon.exe コバンザメアプリ http://www.ec.kagawa-u.ac.jp/~hori/delphistat/hattori.html

堀 啓造(2003). # 因子数決定法の検討−Holizinger and Swineford(1939)の知能データをもとにして http://www.ec.kagawa-u.ac.jp/~hori/yomimono/pa2.html

Horn, J. L. (1965). A rationale and test of the number of factors in factor analysis. Psychometrika, 30, 179-185.

Humpherys, L. G. and Ilgen, D. L.(1969). Note on a criterion for the number of common factors. Educational and Psychological Measurement, 29, 571-578.

Humphreys, L. G. and Montanelli, R. G. (1975). An investigation of the parallel analysis criterion for determining the number of common factors. Multivariate Behavioral Research, 10, 193-205.

John, O. R. and Benet-Martinez, V. (2000). Measurement: Reliablity, construct validation, and scale construction. In H. T. Reis and C. M. Judd (eds.), Handbook of research methods in social and personality psychology(pp.339-369). Cambridge University Press.

Kaiser, H. F. (1960).The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20, 141-151.

Kano, Y. (1990). Noniterative estimation and the choice of the number of factors in exploratory factor analysis. Psychometrika, 55, 277-291

Kaufman, Je. D.,& Dunlap, W. P. (2000). Determining the number of factors to retain: A Windows-based FORTRAN-IMSL program for parallel analysis. Behavior Research Methods, Instruments & Computers. 32, 389-395.

Keeling, K. B. (2000). A regression equation for determining the dimensionality of data. Multivariate Behavioral Research, 35, 457-468.

Lautenschlager, G. J., Lance, C. E.,& Flaherty,V.L. (1989). Parallel analysis criteria: Revised regression equations for estimating the latent roots of random data correlationmatrices. Educational and Psychological Measurement, 49, 339-345.

Longman, R. S., Cota, A. A., Holden, R. R.,& Fekken, G. C.(1989). A regression equation for the parallel analysis criterion in principal component sanalysis: Mean and 95th percentile eigenvalues. Multivariate Behavioral Research, 24, 59-69.

Montanelli, R. G.& Humphreys, L. G.(1976). Latent roots of random data correlation matrices with squared multiple correlations on the diagonal: A montecarlo study. Psychometrika, 41, 341-348.

O'Connor, B. P. (2000). SPSS and SAS programs for determining the number of components using parallel analysis and Velicer's MAP test. Behavior Research Methods, Instruments & Computers. 32, 396-402. spss, sas, matlab プログラム

Schweizer, K. (1992). A correlation-based decision-role for determining the number of clusters and its efficiency in uni- and multi-level data.Multivariate Behavioral Research, 27, 77-94.

Thompson, B. (1996). Factor analytic evidence for the construct validity of scores: A historical overview and some guidelines. Educational and Psychological Measurement, 56, 197-208.

Thurstone, L. L. and Thurstone, T. G. (1941). Factorial studies of intelligence. University of Chicago Press. (Psychometric monograph ; no. 2).

Turner, N. E. (1998). The effect of common variance and structure pattern on random data eigenvalues: Implications for the accuracy of parallel analysis.Educational and Psychological Measurement. 58, 541-568.

Velicer, W. F. (1976). Determining the number of components from the matrix of partial correlations. Psychometrika, 41, 321-327.

Zoski, K. W., and Jurs, S. (1996). An objective counterparts to teh visual scree test for factor analysis: The standard error scree. Educational and Psychological Measurement, 56,443-451.

Zwick, W. R. & Velicer, W. F.(1986).Comparison of five rules for determining the number of components to retain. Psychological Bulletin, 99, 432-442.


Keizo Hori (home page)
Faculty of Economics
Kagawa University

e-mail hori@ec.kagawa-u.ac.jp