調査データ分析


最終更新日:
counter: (2003/04/25からの累積 )

パソコンの問題がある場合、共同研究室の相談箱か,SPSSなどの授業でならってることなら堀(e-mail schosa@ec.kagawa-u.ac.jp)に相談する。起動しないなどのハードやソフトがなくなっている等のトラブルは情報処理センターの担当へ。


自尊感情モデル DATA AMOSGRAPH5
SPSSクロス表分析相関係数
因子分析用調査項目因子分析
因子分析手順因子数決定法|
各種回転のプロット各種回転の因子パタン参考構造・軸高次因子・階層因子モデル化
因子分析と主成分分析尺度平均値の比較

SPSS

spss 入門
SPSSのヘルプやいろんなSPSS本を見る。また,下のリンク先や
http://www.ec.kagawa-u.ac.jp/~hori/statedu.html#spss
などインターネットを見るのもいい。

馬場浩也(2002)『SPSSで学ぶ統計分析入門』東洋経済新報社
あたりが比較的落ち着いた入門書といえる。もちろん他の本でもいい。

小塩真司(2004)『SPSSとAmosによる心理・調査データ解析−因子分析・共分散構造分析まで』東京図書

SPSS の起動法
 スタート→すべてのプログラム→SPSS for Windows→SPSS 11.5 for Windows


SPSSの使用法 ( 清水 和秋教授@関大)
http://www2.ipcku.kansai-u.ac.jp/~shimizu/spss.html

SPSS 11.0Jによるデータ解析 ( 清水 和秋教授@関大)
http://www2.ipcku.kansai-u.ac.jp/~shimizu/spssv11.html
第1部 概要(データ入力)
第2部SPSS によるデータ解析:基礎編
第3部SPSS によるデータ解析:応用編(因子分析)
第4部SPSS による解析結果の印刷
5. 例題データ1 自尊心データ
6. 例題データ2 性役割自己概念尺度 性役割自己概念尺度変数ラベルと値ラベル付加のシンタックス

データのダウンロードの仕方
 (1)データをクリックしてみる。
 (2)(1)でだめなら,右クリック→リンクターゲットに名前を付けて保存
 (3)保存はH: ドライブへ,調査データは H:に chosa フォルダを作ってそこに保存


データ作成
 (1)excel から読み込む
  ファイル→開く→データ→ファイルの種類(excel *.xls)
   →フォルダを指定 (H:chosa)→ファイルを指定
 (2)SPSSにデータ窓に直接入力
 (3)SPSSのシンタックスから入力

データを見やすくする (変数エディタの変数ビュー
 (1)変数のラベル(var labels) を付ける
 (2)のラベル(value labels) を付ける

spss ファイルを読み込む
  ファイル→データ→開く    →フォルダを指定 (H:chosa)→ファイルを指定

データを保存する
 ファイル→名付けて保存
 H: 上に保存(自分のフォルダーになる)
 この授業用にH: に chosa というフォルダーを作りそこに保存する。

クロス表の場合の2つのデータタイプ
 (1)素データ
 (2)頻度データ

頻度データ
 行変数と列変数を作る。
例 a (買物が好きか) b (ドキドキ価格)
a b frq
1 1 94
1 2 72
1 3 32
2 1 38
2 2 36
2 3 28

SPSSのデータエディタにおいて次の操作をする。
データ→ケースの重み付け→ケースの重み付けをチェック→度数変数に frq→OK

データ (博報堂生活総合研究所「4つの価格」(2002)の%データを頻度データに変換し,一部集計)
(註)このデータは上の処理をしているのでそのまま頻度データとして使用できる。
データの値の一括書き換え
 (1)変換→同一の変数への値の再割り当て
  ドキドキする買物価格を数値型変数
 →今までの値と新しい値 今までの値 値 1 → 新しい値 値 2 →追加→続行→OK

 (2)のラベルを変更すること

課題:値の変更前と変更後でのχ2検定結果および調整済み残差を比較せよ。どのようなことがいえるか。

統計学の考え方を理解する
南風原朝和(2002)『心理統計学の基礎』有斐閣
服部環・海保博之(1996)『Q&A 心理データ解析』福村出版
両者とも因子分析まで説明している。


クロス集計表のχ2検定等

クロス表分析参考文献
対数線形モデル文献案内がだいたいそのまま使える。
エヴェリット(1980) 質的データの解析 新曜社
クロス表の分析法を広く扱っている。解説は比較的平易。残差まで扱っているのがいい。

そのほか一般的な統計書でもクロス表分析が扱われている。
χ値の計算の仕方,検定の仕方が分からない人は,
http://www.clg.niigata-u.ac.jp/~takagi/cross.html
を見たり,本を読んだりして学んでください。

SPSS でのχ2検定の仕方
 http://www2.ipcku.kansai-u.ac.jp/~shimizu/spsscross/crosst.html

 (1)分析→クロス集計表
 (2)行と列の変数の指定
 (3)統計→カイ2乗(H) (そのほか必要な統計を指定)→続行
 (4)セル→観測(O),
        期待(E)(期待は通常使わない),
        パーセンテージ(行)(データにあわせて,行または列を指定),
        残差(調整済み残差)
         をチェックする →続行
 (5)OK

相関係数

(1)相関家数の読み取り

0.0<=|r|<0.2 ほとんど相関がない
0.2<=|r|<0.4 低い(弱い)正もしくは負の相関がある
0.4<=|r|<0.7 正もしくは負の相関がかなりある
0.7<=|r|<1.0 高い(強い)正もしくは負の相関がある

決定係数 r2

(2)外れ値 女子タレントのデータ(Talent.txt)の散布図をよく見よ。相関係数を求めよ(0.494)。ダンプ松本のデータを削除すると相関係数はどうなるか?(0.641)
分析→相関→2変量→変数指定→ok

(3)直線 女子タレントデータと高校野球児のデータ(Senbatu.txt)を併せて処理してみよう。相関係数どうなるか。
U字型データ(ushape.sav) のプロット 相関係数は0である。

因子分析用調査項目作成

(1)順序尺度の問題

 (a)5段階評定以上ならあまり問題ではない。(経験的およびシミュレーションによる)
萩生田伸子・繁桝算男(1996). 順序付きカテゴリカルデータへの因子分析の適応に関するいくつかの注意点. 心理学研究, 67, 1-8.
 (b)2段階評定(二値データ)なら,そのまま相関をとる(問題がある (a)参照)。最近は四分相関(tetrachoric correlation)をとる方法(計算プログラム)を因子分析することが薦められている。
 (c)3段階以上の順序尺度の場合は多分相関係数(polychoric correlation)(計算プログラム)を使う。

(2)質問項目数

 一つの因子につき5項目以上欲しい。因子分析の結果使える項目が減ることが予想される。減った結果一つの因子に4つ必要。最悪でも一つの因子につき3項目必要。今後の再分析に耐えるものにするには5項目,最悪4項目は確保する。あまり相関が高すぎる項目を集めるのは問題がある。項目がその因子の多くの面を代表していなければならない。

(3)被調査者数

 (a)200人以上ほしい。非常に良好な尺度・サンプルなら100人程度でもきちんと因子がでることがあるが,これは冒険である。相関係数のサンプル誤差を考えるなら200以上どうしても必要。最尤法を使うなら500以上が望ましい。1000人くらいなら安心。
 (b)項目数当たりという考え方もあるが,これは意味がない。因子当たりの項目数が増えると被調査者数は少なくていい(計算プログラム)。

因子分析

因子分析等参考文献
多変量解析というタイトルの付いている本を当たるのがいい。
松本太加志・中村知靖(2002)『誰も教えてくれなかった因子分析』北大路書房
テキスト
SPSSの結果の見方がよくわかる。
永田靖・棟近雅彦(2001)『多変量解析法入門』サイエンス社
何のために使うのかということが分かる。主成分分析の章をあわせて参考にすること。数学的な説明もわかりやすい例を用いている。
朝野煕彦(2000)『入門多変量解析の実際 第2版』講談社サイエンティフィク
マーケティングに応用するために書かれている。注意事項などをきっちりと書いている。
田中豊・垂水共之編(1995). 『Windows版統計解析ハンドブック多変量解析』共立出版
因子分析の計算過程を簡潔に必要なだけ書いている。最尤法,最小2乗法についても解説あり。
Gorsuch, R. L. (1983), Factor analysis. 2nd ed., Erlbaum.
因子分析の各種問題を広く扱っている。
探索的因子分析リンク集(日本語中心) からリンク先をいろいろ読んでみるのもいい。

SPSSの因子分析の使用法
 第3部SPSS によるデータ解析:応用編(因子分析)( 清水 和秋教授@関大)pdf

分析→データの分解→因子分析→変数指定等

パソコン関与の調査 データ数は少ないが処理例として使う

課題 (5月28日課題)
(1)テキスト(p.42 オプション(「係数の表示形式」のサイズによる並べ替えもクリック)に従ってパソコン関与調査の問1のデータを使って製品関与の因子を求めよ。何因子となったか。因子名を考えよ。

因子
1234
1(2)この製品に関して豊富な知識をもっている。0.8690.0730.1420.027
1(4)友人が購入するとき,アドバイスできる知識のある製品である。0.7340.0530.216-0.054
1(14)いろいろなメーカーの品質や機能の違いがわかる製品である。0.6710.0540.3810.027
1(1)愛着のわく製品である。0.6320.4710.1620.106
1(9)いろいろなメーカーの製品を比較したことがある。0.6070.0620.303-0.174
1(13)いりいろなメーカー名やブランド名を知っている製品である。0.4530.1980.445-0.395
1(11)魅力を感じる製品である。-0.0880.8580.0860.304
1(5)私にとって関心のある製品である。0.2160.6200.0410.288
1(12)商品情報を集めたい製品である。0.0390.6180.1370.148
1(6)私の生活に役立つ製品である。0.1020.6130.042-0.155
1(3)使用するのが楽しい製品である。0.4910.5900.009-0.118
1(15)この製品を次に買うとすれば,購入したい特定のブランドがある。0.221-0.1020.7820.102
1(8)買いに行った店に決めているブランドがなければ他の店に行っても同じものを手に入れたい製品である。0.2000.2940.781-0.006
1(7)この製品の中にはお気に入りのブランドがある。0.3530.1340.6520.014
1(10)お金があれば買いたい製品である。-0.0570.3860.1040.811
"因子抽出法: 重みなし最小二乗法 回転法: Kaiser の正規化を伴わないバリマックス法"
a7 回の反復で回転が収束しました。
オリジナルと比較してみよ


 

因子分析法手順

相関行列

 元のデータから相関係数を求める。→相関行列
 SPSSでは相関行列だけ求めることができる。分析→相関→2変量→オプション(欠損値 リストごとに除外をチェック)
  因子分析と相関とでは欠損値の既定値が異なっている。因子分析の既定値に合わせる。
 因子分析ではデータから相関行列を求めるの。相関行列出力のオプション 記述統計→相関行列(係数をクリック
 相関行列を因子分析する。
 相関行列をよくみれば因子がわかるようになってくる。

主成分解

 一般に因子分析をするまえに主成分解を求める。これは相関行列のまま共通性を推測しない方法である。スクリープロット(固有値の落下)を見るために行うことが多い。

初期解

 指定した因子抽出法で求めた回転前の解を初期解という。テキストの因子行列への言及がそれである(p48)。  ただし初期解の使用は混乱している。
 例えば松尾・中村(2002)のp55 での固有値への言及は「初期解」を主成分解の意味に使ってしまっている。これはSPSSユーザによくおこる間違いである。正しくは,「主成分分析の固有値」「相関行列の固有値」と言及する。
 因子抽出の最初に入れる共通性を指しているのは初期の共通性。SPSSの場合,初期の推定値に多くはSMC(重相関係数の平方)を使っている。SPSSの場合,共通性の初期値にあまり注意をはらう必要はない(オプションが限られている)。

因子抽出法

 主成分分析がSPSSの既定値になっているが,これは因子分析ではない。
 (反復)主因子法と(重み付けのない)最小2乗法は解が収束すれば同じ値となる。
 主因子法は非反復主因子法反復主因子法がある。昔は非反復主因子法が使われていたが,今は計算速度があがり計算機使用量も電気代だけになっているので反復主因子法を使う。SPSSは反復主因子法を主因子法といっている。他の統計ソフトでは非反復主因子法を主因子法と言っているので注意が必要。とりあえず古い頭の人とのコミュニケーションのためには反復主因子法といった法がよい。
 最尤法(ML)は良い方法であるが,いくつか問題も指摘されている。例えば [fpr 2436] 探索的因子分析におけるMLとOLS。そのほか不適解(下の「計算がうまく行かないとき」参照)がでやすいので初心者にはめんどうかもしれない。ただし,不適解こそが,最尤法のモデル診断能力の高さを示すものでもある。
 回転前の因子について検討するべきは,第1因子がすべての項目またはほとんどの項目に高く負荷しているかどうかである。もしそうならば一般因子があると考えられ,斜交回転のほうがいい。また高次因子も求める。

計算がうまく行かないとき

 いくつかのエラーがあり得る。テキストの例の1よりも大きい共通性がでる場合, Heywood case 不適解と呼ばれる。
原因および対処法は
  1. データの数が少ない(極端な場合,変数の数よりデータが少ない。もう一度多くのサンプルで調査する)
  2. データ入力がおかしい(データのチェック)
  3. 欠損値をペアワイズで処理している(リストワイズ(既定値)にする)。(相関行列から出発するとき要注意)
  4. 因子抽出法があっていない(最尤法だと不適解が生じやすい。次に最小2乗法)
  5. 因子の数が多すぎる(最尤法の場合,これが原因のことが多い。変数を増やす,因子数を減らすなどする)

 p51 のエラーは重症。そのほか「この行列は正値行列ではありません。」というエラーもある。この場合は上の原因および対処法(1)(2)をチェック。

繰り返し回数(反復数)

 反復数 25は小さいので 100にする。因子抽出,回転法とも

因子数を決定する

因子数の決定は因子分析の最重要事項

  1. 固有値1以上の基準(カイザー基準)
     よくつかわれるが,あまり当てにならない。大雑把なレベルではいい。
  2. スクリープロット基準
     よく使われる。発案者によると簡単だというが意外とわかりにくい場合がある。
     コンピュータで判断させようとするものもある(SE Screeプログラム。参照)。
  3. 因子数を強制的に決める
     モデルが明確である場合。性役割自己概念尺度の2因子。製品関与尺度の3因子。
  4. 解釈可能性(人間は何でも解釈できるので要注意)
  5. 3項目以上負荷する因子に絞る
  6. 因子数の上限と下限を決めて解釈可能かつ良好な因子にする。堀の提案 および追加 提案。MAP を最小因子数とし,対角SMCの平行分析の95%点を最大因子数とする(プログラム)。製品関与への使用例 2〜3。性役割自己概念尺度への使用例 2〜4。

MAPから見たいい因子

  1. 1因子に3指標以上.
  2. 3指標の場合負荷量0.6以上 (共通性0.36以上)
  3. 4指標の場合は負荷量0.5以上(共通性 0.25以上)
  4. 指標数が多いほど良い

対角SMCの平行分析(PA)から見た因子

  1. 1因子に2指標以上.
  2. 負荷量・指標数・サンプルサイズに関しては少し影響を受け,いずれも大きい方が感度が高くなる.あまり気にする必要はない.

因子軸の回転

 単純構造になるように因子軸を回転します。2段階の方法が一般的ですが,直接単純構造を求める方法があります。

直交回転

 バリマックス回転(varimax rotation)。一番使われている方法。

斜交回転

 単純構造を追求すれば斜交回転になる。
 o76に表
 SPSSにある直接オブリミンがもっともお薦め。デルタはSPSSの既定値のがよい。
 プロマックス回転は速いし必ず収束するのでいい。カッパ(本当はk)はSASの既定値ののほうがいいだろう。とりあえず分析するにはSPSSの既定値の4でもいい。3に比べ4だと因子間の相関が高くなる。日本ではまだ因子分析の有力な研究者のなかにプロマックス回転の信者がいる。
 ハリス・カイザー法も推薦出来る方法であるが,SPSSでは使えない。
 いいデータなら,どの方法でもそれほど違わない。

自尊心データの分析(fashion02.sav)


因子数判定

それぞれのお薦め因子数

MAP     1
PA1     2
PA SMC    3
SE scree   2

→1因子から3因子の間

相関行列のスクリープロット


対角SMCの平行分析(PA MC)がスクリー分析になっていることがわかる。
最大3因子。

主成分分析の解

これは初期解を見るとよいので,わざわざ主成分分析をする必要はない

>
成分行列(a)
成分
123
@ 少なくとも人並みには、価値のある人間である。0.7770.179-0.069
A いろいろな良い素質を持っている。0.7130.405-0.199
B 敗北者だと思うことがよくある。-0.4930.627-0.276
C 物事を人並みには、うまくやれる。0.6270.193-0.453
D 自分には、自慢できるところがあまりない。-0.727-0.1240.198
E 自分に対して肯定的である。0.6770.1650.286
F だいたいにおいて、自分に満足している。0.6130.1150.319
G もっと自分自身を尊敬できるようになりたい。0.1040.5340.682
H 自分は全くだめな人間だと思うことがある。-0.6170.610-0.142
I 何かにつけて、自分は役に立たない人間だと思う。-0.8180.2340.073
因子抽出法: 主成分分析
a3 個の成分が抽出されました
第1主成分に注目
 

回転法の比較

初期解のプロット(2因子解)

varimax回転解のプロット(2因子解)

プロマックス回転解(k=3)のプロット(2因子解) r=-0.493

プロマックス回転解(k=4)のプロット(2因子解) r=-0.539

直接オブリミン回転解(δ=0)のプロット(2因子解)r=-0.186

ハリス・カイザー回転解(power= 0 独立解)のプロット(2因子解) r=-0.497

ハリス・カイザー回転解(power= 0.5 proportional解)のプロット(2因子解) r=-0.234


 

因子パタン(最小2乗解 uls)

因子パタン直接オブリミンプロマックス(k=3)プロマックス(k=4)バリマックス回転
r=-0.186r=-0.493r=-0.539r=0
(1)(2)(1)(2)(1)(2)(1)(2)共通性
@ 少なくとも人並みには、価値のある人間である。0.74 -0.07 0.72 -0.08 0.73 -0.06 0.72 -0.25 0.58
A いろいろな良い素質を持っている。0.82 0.19 0.89 0.21 0.91 0.24 0.81 -0.01 0.65
B 敗北者だと思うことがよくある。-0.18 0.58 0.03 0.65 0.05 0.66 -0.15 0.62 0.41
C 物事を人並みには、うまくやれる。0.59 0.00 0.59 0.00 0.60 0.02 0.57 -0.14 0.35
D 自分には、自慢できるところがあまりない。-0.67 0.08 -0.64 0.09 -0.65 0.07 -0.65 0.24 0.47
E 自分に対して肯定的である。0.60 -0.09 0.56 -0.10 0.57 -0.08 0.58 -0.23 0.38
F だいたいにおいて、自分に満足している。0.51 -0.11 0.47 -0.13 0.47 -0.11 0.49 -0.24 0.29
G もっと自分自身を尊敬できるようになりたい。0.18 0.18 0.25 0.20 0.26 0.22 0.18 0.14 0.05
H 自分は全くだめな人間だと思うことがある。-0.25 0.80 0.05 0.91 0.08 0.92 -0.20 0.86 0.78
I 何かにつけて、自分は役に立たない人間だと思う。-0.63 0.43 -0.47 0.48 -0.46 0.48 -0.59 0.58 0.68

ハリス・カイザー回転の結果

HK Power= 0.5HK Power= 0.0
proportional 解独立解
r=0.234r=0.497
1212
@ 少なくとも人並みには、価値のある人間である。-0.751 -0.037 -0.757 -0.006
A いろいろな良い素質を持っている。-0.831 0.223 -0.912 0.286
B 敗北者だと思うことがよくある。0.181 0.570 0.026 0.624
C 物事を人並みには、うまくやれる。-0.597 0.024 -0.618 0.055
D 自分には、自慢できるところがあまりない。0.676 0.049 0.677 0.023
E 自分に対して肯定的である。-0.602 -0.062 -0.598 -0.040
F だいたいにおいて、自分に満足している。-0.514 -0.092 -0.500 -0.078
G もっと自分自身を尊敬できるようになりたい。-0.182 0.190 -0.239 0.219
H 自分は全くだめな人間だと思うことがある。0.246 0.794 0.030 0.869
I 何かにつけて、自分は役に立たない人間だと思う。0.630 0.402 0.532 0.416
CONTR.3.217 1.219 3.194 1.458

並べ替えた相関行列

21546789310
A いろいろな良い素質を持っている。A いろいろな良い素質を持っている。
@ 少なくとも人並みには、価値のある人間である。 0.58 @ 少なくとも人並みには、価値のある人間である。
D 自分には、自慢できるところがあまりない。- 0.55 - 0.46 D 自分には、自慢できるところがあまりない。
C 物事を人並みには、うまくやれる。 0.51 0.51 - 0.40 C 物事を人並みには、うまくやれる。
E 自分に対して肯定的である。 0.44 0.47 - 0.45 0.28 E 自分に対して肯定的である。
F だいたいにおいて、自分に満足している。 0.38 0.39 - 0.34 0.25 0.48 F だいたいにおいて、自分に満足している。
G もっと自分自身を尊敬できるようになりたい。 0.14 0.15 - 0.03 - 0.01 0.16 0.13 G もっと自分自身を尊敬できるようになりたい。
H 自分は全くだめな人間だと思うことがある。- 0.17 - 0.37 0.32 - 0.24 - 0.31 - 0.32 0.10 H 自分は全くだめな人間だと思うことがある。
B 敗北者だと思うことがよくある。- 0.15 - 0.25 0.21 - 0.14 - 0.26 - 0.20 0.03 0.57 B 敗北者だと思うことがよくある。
I 何かにつけて、自分は役に立たない人間だと思う。- 0.45 - 0.57 0.59 - 0.45 - 0.42 - 0.41 0.02 0.59 0.45 I 何かにつけて、自分は役に立たない人間だと思う。
21546789310

色をつけるとわかりやすくなる。忍者ハットリ君使用

2 1 5 4 6 7 8 9 3 10
2 A いろいろな良い素質を持っている。
1  0.58 @ 少なくとも人並みには、価値のある人間である。
5 - 0.55 - 0.46 D 自分には、自慢できるところがあまりない。
4  0.51  0.51 - 0.40 C 物事を人並みには、うまくやれる。
6  0.44  0.47 - 0.45  0.28 E 自分に対して肯定的である。
7  0.38  0.39 - 0.34  0.25  0.48 F だいたいにおいて、自分に満足している。
8  0.14  0.15 - 0.03 - 0.01  0.16  0.13 G もっと自分自身を尊敬できるようになりたい。
9 - 0.17 - 0.37  0.32 - 0.24 - 0.31 - 0.32  0.10 H 自分は全くだめな人間だと思うことがある
3 - 0.15 - 0.25  0.21 - 0.14 - 0.26 - 0.20  0.03  0.57 B 敗北者だと思うことがよくある
10 - 0.45 - 0.57  0.59 - 0.45 - 0.42 - 0.41  0.02  0.59  0.45 I 何かにつけて、自分は役に立たない人間だと思う。
2 1 5 4 6 7 8 9 3 10

因子パタンと因子構造

 因子パタンは重み係数であり1以上の値をとりうる。因子構造は相関係数。
 基本的に因子パタンを使って因子を解釈する。斜交回転で因子パタンが単純にならないなら問題あり。

因子間の相関

 相関がある程度あると高次因子がある可能性。高次因子を想定するか,単に相関があると考えるか。

直交回転と斜交回転

 理論的には斜交回転がいい。でも直交回転のほうがいい性質を持っている。

項目の取捨選択

 重要

因子パタン,共通性から(8)は落とす。(9)はちょっと考える。
すべての因子において因子パタンの値が低い項目。複数の因子の中程度以上負荷している項目が要チェック。

 専門のアプリケーションもある。狩野裕大阪大学教授のサイト
 因子分析における変数選択に関する研究
 相関行列を入力する。

因子寄与,因子寄与率,共通性,独自性(特殊性)


 

参考軸

SPSSで求めるには次のスクリプトを使用する。プロマックス回転
(promax.sbs)

実行結果


Run MATRIX procedure:

因子分析(主因子解→promax 回転)
  因子数    k 最大反復
    2    3   100

対角1の相関行列の固有値
Columns  1 -  8
  4.1710  1.3946  1.0395  .7573  .6181  .5189  .4607  .4379
Columns  9 - 10
  .3247  .2773

反復数
 43

回転前解
       1    2  共通性
T2001   .740   .173   .578
T2002   .690   .421   .654
T2003  -.454   .447   .406
T2004   .563   .185   .351
T2005  -.674  -.142   .475
T2006   .609   .111   .384
T2007   .540   .061   .295
T2008   .082   .215   .053
T2009  -.626   .625   .782
T2010  -.803   .178   .676

バリマックス回転 因子負荷量
       1    2
T2001   .719  -.247
T2002   .808  -.010
T2003  -.146   .620
T2004   .575  -.143
T2005  -.646   .238
T2006   .575  -.230
T2007   .489  -.235
T2008   .184   .138
T2009  -.198   .862
T2010  -.585   .578

目標行列
       1    2
T2001   .846  -.037
T2002  1.000   .000
T2003  -.012   .996
T2004   .914  -.015
T2005  -.826   .045
T2006   .801  -.055
T2007   .732  -.088
T2008   .510   .235
T2009  -.011  1.000
T2010  -.361   .374

プロクラステス変換行列
  1.400   .308
   .395  1.255

参考構造

       1    2
T2001   .625  -.068
T2002   .775   .183
T2003   .028   .567
T2004   .514  -.002
T2005  -.557   .077
T2006   .491  -.086
T2007   .407  -.112
T2008   .214   .178
T2009   .043   .790
T2010  -.406   .421

因子間相関
      1    2
 1  1.000  -.493
 2  -.493  1.000

因子構造行列
       1    2
T2001   .757  -.433
T2002   .787  -.229
T2003  -.290   .636
T2004   .592  -.294
T2005  -.685   .405
T2006   .613  -.378
T2007   .531  -.359
T2008   .145   .083
T2009  -.398   .883
T2010  -.706   .715

因子パタン行列
       1    2
T2001   .718  -.078
T2002   .891   .210
T2003   .032   .652
T2004   .591  -.002
T2005  -.641   .089
T2006   .564  -.099
T2007   .468  -.129
T2008   .247   .205
T2009   .050   .908
T2010  -.467   .484

参考パタン行列
       1    2
T2001   .870  -.498
T2002   .905  -.264
T2003  -.333   .732
T2004   .681  -.338
T2005  -.787   .466
T2006   .705  -.434
T2007   .611  -.413
T2008   .167   .096
T2009  -.458  1.016
T2010  -.812   .822

参考軸間相関
      1    2
 1  1.000   .493
 2   .493  1.000

------ END MATRIX -----

 

高次因子・階層因子

SPSSで求めるには次のスクリプトを使用する。高次因子・階層因子
(hfactor.sbs)

このデータの場合,1次因子が2因子なので高次因子,階層因子を求めるには問題がある。

実行結果


Run MATRIX procedure:

階層因子分析(主因子解→promax 回転)
    N  因子数    k 最大反復
   204    2    3   100

許容限度(ε)
.0000100

対角1の相関行列の固有値
Columns  1 -  8
 4.1710  1.3946  1.0395  .7573  .6181  .5189  .4607  .4379
Columns  9 - 10
  .3247  .2773

反復数
 43

主因子法 因子行列
      1    2  共通性
T2001   .740   .173   .578
T2002   .690   .421   .654
T2003  -.454   .447   .406
T2004   .563   .185   .351
T2005  -.674  -.142   .475
T2006   .609   .111   .384
T2007   .540   .061   .295
T2008   .082   .215   .053
T2009  -.626   .625   .782
T2010  -.803   .178   .676

バリマックス回転 因子負荷量
      1    2
T2001   .719  -.247
T2002   .808  -.010
T2003  -.146   .620
T2004   .575  -.143
T2005  -.646   .238
T2006   .575  -.230
T2007   .489  -.235
T2008   .184   .138
T2009  -.198   .862
T2010  -.585   .578
2乗和  2.926  1.727

プロマックス法 因子パタン行列
      1    2
T2001   .718  -.078
T2002   .891   .210
T2003   .032   .652
T2004   .591  -.002
T2005  -.641   .089
T2006   .564  -.099
T2007   .468  -.129
T2008   .247   .205
T2009   .050   .908
T2010  -.467   .484
2乗和  2.891  1.611

因子間相関
     1    2
 1  1.000  -.493
 2  -.493  1.000

因子構造行列
      1    2
T2001   .757  -.433
T2002   .787  -.229
T2003  -.290   .636
T2004   .592  -.294
T2005  -.685   .405
T2006   .613  -.378
T2007   .531  -.359
T2008   .145   .083
T2009  -.398   .883
T2010  -.706   .715

高次因子
 1

対角1の相関行列の固有値
 1.4933  .5067

反復数
 15

主因子法 因子行列

      1  共通性
F 1   -.702   .493
F 2    .702   .493

階層因子分析 因子パタン

     HO 1   F 1   F 2
T2001  -.678   .512  -.176
T2002  -.575   .575  -.007
T2003   .538  -.104   .441
T2004  -.504   .409  -.102
T2005   .621  -.460   .170
T2006  -.565   .409  -.164
T2007  -.509   .348  -.168
T2008  -.032   .131   .099
T2009   .745  -.141   .614
T2010   .817  -.417   .411
2乗和  3.522  1.482   .875
------ END MATRIX -----
 

モデル化する(amos)

因子間相関モデル(AMOS) (esteem0.amw) データは fashion02.sav

(欠損値がある場合と欠損値のあるデータをリストごとに削除した場合では結果が違ってくる。欠損値がある場合は推定をする)



因子間相関がプロマックス解に近いことに注目


適合度指標default model飽和モデル独立モデルマクロ
乖離度79.1230.000725.255CMIN
自由度27045DF
確率0.0000.000P
パラメータ数27549NPAR

平均二乗誤差平方根(RMSEA)0.0970.271RMSEA
RMSEA 下限0.0720.254RMSEALO
RMSEA 上限0.1220.288RMSEAHI
       モデル    RMSEA    LO 90    HI 90   PCLOSE
  ---------------- ---------- ---------- ---------- ----------
   Default model    0.097    0.072    0.122    0.001
      独立モデル    0.271    0.254    0.288    0.000

1因子解

適合度指標default model飽和モデル独立モデルマクロ
乖離度172.6210.000725.255CMIN
自由度28045DF
確率0.0000.000P
パラメータ数26549NPAR
平均二乗誤差平方根(RMSEA)0.1580.271RMSEA
RMSEA 下限0.1360.254RMSEALO
RMSEA 上限0.1810.288RMSEAHI
RMSEAが0.158と非常に良くない。これだと1因子解は良くないように思える。次の修正版を見てみよう。

1因子解修正版

 第2因子の部分に誤差共分散を入れる。

適合度指標default model飽和モデル独立モデルマクロ
乖離度75.4270.000725.255CMIN
自由度25045DF
確率0.0000.000P
パラメータ数29549NPAR
平均二乗誤差平方根(RMSEA)0.0990.271RMSEA
RMSEA 下限0.0740.254RMSEALO
RMSEA 上限0.1250.288RMSEAHI

2因子モデルと適合度指標がわずかしか違わないことに注意。誤差共分散を入れることによって2因子モデルと変わらないことになる。1因子モデルでよいことになる。ただし,まだ適合度は低いのでもう少し修正する必要がある。ここではこれ以上の試みをしない。
 このように,ネガティブ項目とポジティブ項目が別の因子としてあらわれるが,本当は1因子であることが多い。
[fpr 1433] 因子分析と両極性 参照
 ここで言及しているMarsh,H.W.(1996)も誤差共分散を入れている。狩野(2003)でも誤差共分散を入れることを薦めている。

狩野 裕 (2002). 再討論:誤差共分散の利用と特殊因子の役割. 行動計量学, 29

探索的因子分析と同等のモデル

探索的因子分析と同じく2つの因子からすべての項目に→をつけると

因子間相関が-1に近い(-0.82)ことに注目。検証的因子分析を使うと逆転項目が別の因子ではなく逆転項目であることを示すことができる。
適合度指標default model飽和モデル独立モデルマクロ
乖離度42.4820.000725.255CMIN
自由度19045DF
確率0.0020.000P
パラメータ数35549NPAR

平均二乗誤差平方根(RMSEA)0.0770.271RMSEA
RMSEA 下限0.0460.254RMSEALO
RMSEA 上限0.1090.288RMSEAHI
となり,少し向上する。とりあえずグレーゾーンであるが許容できる値にまでなった。

標準化係数なので1以上の値もとる。
標準化直接効果 - 推定値
positivenegative
T20090.1860.991
T20030.2010.827
T2010-0.5510.311
T20070.5800.057
T20060.7230.163
T2005-0.905-0.269
T20040.9070.420
T20021.3200.790
T20010.9730.294

高次因子を設定した場合(AMOS)


1次因子が2つでその上に高次因子(2次因子)を設定している。1つの因子には3つ以上の指標が必要だが,2指標しかない。そのため,2次因子からpositive への係数が最初に固定した1になっている。
AMOSの結果

適合度指標default model飽和モデル独立モデルマクロ
乖離度75.9520.000725.255CMIN
自由度25045DF
平均二乗誤差平方根(RMSEA)0.0990.271RMSEA
  RMSEA 下限0.0740.254RMSEALO
  RMSEA 上限0.1250.288RMSEAHI
RMSEA は悪くなる。

直接効果 - 推定値
自尊心_総合negativepositive
negative-0.4390.0000.000
positive1.0000.0000.000
T20090.0001.3340.000
T20030.0001.0000.000
T20100.0000.668-0.661
T20070.0000.0000.664
T20060.0000.0000.704
T20050.0000.000-0.867
T20040.0000.0000.689
T20020.0000.0000.765
T20010.0000.0001.000
間接効果 - 推定値
自尊心_総合negativepositive
negative0.0000.0000.000
positive0.0000.0000.000
T2009-0.5860.0000.000
T2003-0.4390.0000.000
T2010-0.9550.0000.000
T20070.6640.0000.000
T20060.7040.0000.000
T2005-0.8670.0000.000
T20040.6890.0000.000
T20020.7650.0000.000
T20011.0000.0000.000
推定値が1を超えているので,階層因子分析のようにすぐわかる結果にならないことに注目

階層因子分析


mplus 出力

Mplus のホームページにある階層因子分析モデルに習って作ってある。通常の階層因子分析とは異なり,1次因子をすべての項目に負荷させないで,因子の指標となる項目だけに負荷させている。階層因子分析の検証的因子分析モデルである。RMSEA=0.78とさらに改善する必要がある。

1因子モデルにMplus の示唆に従って誤差共分散を付け加えていったときの適合度指標
自由度χ2自由パラメタCFI TLIAICBICRMSEA SRMR
1因子モデル27157.674180.8090.7455043.3845103.1110.1540.089
T2009 WITH T2003;26100.726190.8910.8494988.4375051.4810.1190.068
T2010 WITH T20092584.607200.9190.8744974.3185040.6800.1080.062
T2010 WITH T20032462.568210.9440.9154954.2785023.9590.0890.052
T2007 WITH T20062350.385220.9600.9374944.0965017.0950.0760.048
T2005 WITH T20012237.573230.9770.9634933.2835009.6000.0590.044
T2009 WITH T20022330.632240.9860.9764928.3435007.9780.0470.038

positive(t2001 t2002 t2004, t2005, t2006,t2007),negative(t2003 t2009 t2010) の2因子の斜交因子モデルに誤差共分散を追加していく。(本来 t2005はnegative であるが,因子分析の結果に従い positive 項目にしている。またt2010はpositive に負荷しているがこれははずし,各因子の指標項目を明確にする)
自由度χ2自由パラメタCFI TLIAICBICRMSEA SRMR
2因子モデル2697.492190.8950.8554974.835037.8750.1160.068
T2009 WITH T20032561.776200.9460.9234941.1145007.4770.0850.051
T2007 WITH T20062449.101210.9630.9454930.4395000.1200.0720.047
T2005 WITH T20012335.303220.9820.9724918.6414991.6400.0510.043
T2009 WITH T20022229.697230.9890.9824915.0364991.3520.0410.039
最終結果を図示すると次のようになる。数値はAMOS によって求めたものである。MPlus とは随分違っている。


上の2因子斜交モデルの negative 因子に t2002を付け加える。MPlusの示唆によるものである。t2010 をpositive 因子にも負荷させるよりもいいモデルを作ることができる。
自由度χ2自由パラメタCFI TLIAICBICRMSEA SRMR
2因子モデル negative by T20022580.179200.9190.8844959.5175025.8790.1040.063
T2009 WITH T20032448.034210.9650.9474929.3724999.0530.0700.046
T2007 WITH T2006 2333.136220.9850.9774916.4744989.4730.0460.038
T2009 WITH T20022226.324230.9940.9904911.6624987.9790.0310.034
このように修正を続けていると終わりがない。(1)単純モデル(2)誤差共分散,の2つを頭において修正してみよう。「なんに使うためのモデルなの」を考える。


AMOOS,検証的因子分析については 狩野裕・三浦麻子(2002), グラフィカル多変量解析 増補版 現代数学社
やAMOSの専門解説書を参照のこと。
AMOS の高次因子モデルは
Byrne, B.M. (2001). Structural equation modeling with AMOS. LEA. 5章 application 3.
 

因子分析と主成分分析

主成分分析因子分析
回転回転をしない回転をする
共通性推定しない
数学的に単純.一意
推定する
問題があるが,反復推定が当たり前になっているので以前ほど大きな問題ではなくなっている
因子数前もって決定する必要はない.→数学的に単純明解
回転をする場合は主成分数を前もって決めなければならない.その場合は因子分析と同じくその数によって因子が異なってくる.
前もって因子数を決定する.
その数によって因子が異なってくる.
モデル項目を少ない主成分で説明する.
項目→主成分
分散の最大化
因子を反映したものが項目.
因子→項目
潜在因子を想定する
誤差測定誤差のみ測定誤差+標本誤差(+誤モデルによる誤差)→独自性
因子不変性なし
そのデータを表したものでしかない
あり
因子負荷量大きい適正
因子得点数学的に一意に求めることができる前提条件の付け方によって値が異なる
不適解なしおこることがある

因子得点

 テキストをよく読む。

 

尺度

MAPから見たいい因子

  • 1因子に3指標以上.
  • 3指標の場合負荷量0.6以上 (共通性0.36以上)
  • 4指標の場合は負荷量0.5以上(共通性 0.25以上)
  • 指標数が多いほど良い

    合計点を計算する。

    syntax compute t2001+t2002+(6-t2003). 逆転項目に注意する。どの項目が逆転項目か。

    クロンバックのα係数(信頼性)

     信頼性の解説およびここ(服部環助教授@筑波大学

    逆転項目への対応

    逆転項目は逆転させておく。逆転項目かどうかは他の変数との相関から見る。
    方法はシンタックスを使うか,メニューを使う。

    (1)syntax compute を使う。

    compute t2003=6-t2003.

    (2)syntax recode を使う。同じ変換なら,変数を一度に指定できる。

    recode t2003 (1=5)(2=4)(3=3)(4=2)(5=1).
    recode t2003, t2009(1=5)(2=4)(3=3)(4=2)(5=1).

    (3)recode を使い新変数へ。複数の変数を一度に指定できる。

    recode t2003 (1=5)(2=4)(3=3)(4=2)(5=1) into t2003r.
    recode t2003, t2009 (1=5)(2=4)(3=3)(4=2)(5=1) into t2003r t2009r.

    (4)メニューを使う。

     (a)変換→計算 (compute に対応)
     (b)変換→値の再割り当て


    クロンバックのα係数を求める


    分析→尺度→信頼性分析→変数指定→統計→記述統計(項目を削除したときの尺度をチェック)

    自尊心データの逆転項目を処理しないで分析したとき。t2008も含む
    ****** Method 1 (space saver) will be used for this analysis ******


     R E L I A B I L I T Y  A N A L Y S I S  -  S C A L E  (A L P H A)


    Item-total Statistics

           Scale     Scale   Corrected
           Mean     Variance    Item-      Alpha
           if Item    if Item    Total      if Item
           Deleted    Deleted  Correlation    Deleted

    T2001     25.3284    12.4680    .0522      .1121
    T2002     25.1176    11.8777    .1766      .0448
    T2003     24.7304    11.2718    .1489      .0421
    T2004     25.2157    12.6232    .0330      .1233
    T2005     24.9265    14.7680    -.2440      .2841
    T2006     24.7843    12.4262    .0556      .1101
    T2007     24.5539    12.3173    .0435      .1170
    T2008     25.7892    11.1130    .2225      .0006
    T2009     24.9559    11.3626    .1092      .0680
    T2010     24.3480    13.4497    -.1072      .2138



    Reliability Coefficients

    N of Cases =  204.0          N of Items = 10

    Alpha =  .1296


    Corrected Item-total correlationを見る。プラスマイナスがあると逆転項目の処理がされていないことを示す。結果は「当てはまる」が大きい数字になるようにしたほうが結果は分かりやすい。
     このデータの場合,まずt2005, t2010が逆転項目である。他にもあるはずだがという疑問は持っていないといけない。

    2項目だけを逆転すると次の結果になる。T2003, T2009も逆転項目である。
    ****** Method 1 (space saver) will be used for this analysis ******


     R E L I A B I L I T Y  A N A L Y S I S  -  S C A L E  (A L P H A)


    Item-total Statistics

           Scale     Scale   Corrected
           Mean     Variance    Item-      Alpha
           if Item    if Item    Total      if Item
           Deleted    Deleted  Correlation    Deleted

    T2001     24.8775    19.8716    .5778      .4895
    T2002     24.6667    19.8588    .6560      .4789
    T2003     24.2794    27.3747    -.2020      .6791
    T2004     24.7647    20.9296    .4561      .5208
    T2005     24.1225    19.7731    .5258      .4969
    T2006     24.3333    20.6174    .4831      .5133
    T2007     24.1029    20.8120    .4103      .5284
    T2008     25.3382    23.4072    .1593      .5912
    T2009     24.5049    29.0886    -.3225      .7121
    T2010     24.7010    20.8018    .3769      .5358



    Reliability Coefficients

    N of Cases =  204.0          N of Items = 10

    Alpha =  .5911


    さらに2つの変数を変換すると,次のようになり,項目・合計間に−の相関はなくなる。最初から反転項目が分かっているのでそれを変換しておいたほうがいい。なお,反転したかどうかわからなくなるので,新しい変数に保存しておくほうが安全である。もしくは,変換前のデータファイルと違う名前で保存する。それでも危険なので,新変数に保存する方がいい。

    ****** Method 1 (space saver) will be used for this analysis ******


     R E L I A B I L I T Y  A N A L Y S I S  -  S C A L E  (A L P H A)


    Item-total Statistics

           Scale     Scale   Corrected
           Mean     Variance    Item-      Alpha
           if Item    if Item    Total      if Item
           Deleted    Deleted  Correlation    Deleted

    T2001     25.2500    37.5973    .6745      .7891
    T2002     25.0392    39.3384    .5906      .7989
    T2003     24.6912    39.7416    .3986      .8179
    T2004     25.1373    39.9023    .4830      .8081
    T2005     24.4951    37.7684    .5951      .7962
    T2006     24.7059    38.6323    .5798      .7985
    T2007     24.4755    38.8418    .5094      .8054
    T2008     25.7108    45.0834    .0657      .8478
    T2009     24.4657    37.6786    .5075      .8063
    T2010     25.0735    35.6054    .7232      .7808



    Reliability Coefficients

    N of Cases =  204.0          N of Items = 10

    Alpha =  .8218


    全体のα係数(.8218)は十分に高く満足できるものである。ところが,T2008の全体(合計)−項目間の相関が低い(.0657)。基本的に取り除くべきものだが,この項目を削除してもα係数はさして上がらない(.8478)。.8218→.8478をどう評価するかである。このように項目を多く使っていると一つくらい変な変数が混じっていても大きな問題にならない。しかし,尺度を作成する段階では十分に注意してα係数が高くなるようにすべきである。

    上の変換に使ったシンタックス
    recode t2005, t2010(1=5)(2=4)(3=3)(4=2)(5=1).
    recode t2003, t2009(1=5)(2=4)(3=3)(4=2)(5=1).

    実際には
    あてはまる ややあてはまる どちらともいえない ややあてはまらない あてはまらない が1〜5になっている。
    そのため次のように操作するのがいい。
    recode t2001 to t2010 (1=5)(2=4)(3=3)(4=2)(5=1) into tr2001 to tr2010. と一挙に変換し,変数を連続にして,
    recode tr2003, tr2009, tr2005, tr2010(1=5)(2=4)(3=3)(4=2)(5=1).
    と逆転項目を反転する。こうすると,数値の大きいものが自尊心の高いものとなる。

     

    合計点の比較

    合計点を計算する。
    compute
    を使う。同一方向に尺度を形成しているなら,
    compute total=sum(tr2001 to tr2010).
    とすることもできる。

    t検定,分散分析

    2群のデータ(ex. sex)の平均値の比較(t検定)

    分析→平均の比較→独立したサンプルのT検定→検定変数指定→グループ化変数指定(sex)およびグループの定義(1,2)→実行


    独立サンプルの検定
    等分散性のための Levene の検定2 つの母平均の差の検定
    F 値有意確率t 値自由度有意確率
    (両側)
    平均値
    の差
    差の
    標準誤差
    差の 95%
    信頼区間
    下限上限
    MALE等分散を仮定する。1.8490.1750.309239.0000.7580.1860.603-1.0011.373
    等分散を仮定しない。0.302158.9050.7630.1860.617-1.0321.404
    FEMALE等分散を仮定する。0.6230.431-0.784239.0000.434-0.3560.454-1.2500.538
    等分散を仮定しない。-0.815189.1980.416-0.3560.437-1.2170.505

    男性性の合計点(8〜40)の男子平均点は20.5(S.D.=4.7),女子平均点は20.3(S.D.=4.3)であった。t検定を行ったところt=0.3(df=239,p=0.758)となり男女に5%水準において有意差はなかった。女性性の合計点(6〜30)の男子平均点は17.3(S.D.=3.1),女子平均点はm17.6(S.D.=3.5)であった。t検定の結果,t=-0.784(df=239, p=0.434) となり5%水準において男女の有意差はなかった。

    なお,男性性尺度と女性性尺度には正の相関r=0.299 がある。

    点推定(平均値)と区間推定(母集団の平均値の信頼区間:母集団の平均がある可能性が95%の区間)

    3群以上のデータの平均値の比較(分散分析)

    分析→平均の比較→一元配置分散分析→従属変数指定→因子指定(ex. age)→オプション→記述統計量チェック→続行→その後の検定(事後検定)→(とりあえず)Tukey(TukeyのHSDのこと)→続行→実行

    因子得点の求め方

    分析→データの分解→因子分析→いろいろ指定→得点→変数として保存→続行→OK
    変数として最後に保存される.

    PCルーム予約

    香川大学 経済学部   堀 啓造ホームページ