調査データ分析 2009


最終更新日:
counter: (2005/10/3からの累積 )

テスト用データ

パソコンの問題がある場合、共同研究室の相談箱か,SPSSなどの授業でならってることなら堀(e-mail )に相談する。起動しないなどのハードやソフトがなくなっている等のトラブルは香川大学総合情報基盤センターの担当へ。

小塩真司(2004)『SPSSとAmosによる心理・調査データ解析−因子分析・共分散構造分析まで』東京図書
および 小塩氏のホームページを利用する。
心理データ解析
小塩氏の説明はSPSS12.0に基づいているのでSPSS15.0、16.0を導入している香川大学総合情報基盤センターとは少し違っているところがある。
小塩氏の説明はSPSSの統計命令の基本部分を中心にしているため、授業内でもう少し高度な部分について説明する。

尺度例などより一般的な論文作成上の参考サイトは
消費者行動文献案内
SPSS使用法尺度水準変数相関係数クロス集計表カイ2乗分布t検定、分散分析多重比較交互作用多重共線性重回帰分析と兄弟たち重回帰分析判別分析項目作成因子分析尺度分析統計本


SPSS使用法

spss 入門
SPSSのヘルプやいろんなSPSS本を見る。また,下のリンク先や
馬場浩也(2002)『SPSSで学ぶ統計分析入門』東洋経済新報社
あたりが比較的落ち着いた入門書といえる。もちろん他の本でもいい。最新は第2版(2005)。
小野寺孝義・山本嘉一郎 (2004). SPSS事典─BASE編 ナカニシヤ出版
optionの使い分けなどを知るのにはいい。章によって記述レベルのばらつきがある。

http://www.ec.kagawa-u.ac.jp/~hori/statedu.html#spss
などインターネットを見るのもいい。
小塩真司(2004)『SPSSとAmosによる心理・調査データ解析−因子分析・共分散構造分析まで』東京図書
心理データ解析
SPSS 入門: 値の比較 星野祐司@立命館大学文学部
SPSS おたすけ: SPSS(13.0)の使い方 浦上 昌則@南山大学文学部教育学科

SPSS の起動法
 スタート→すべてのプログラム→SPSS →SPSS 16J for Windows


SPSSの使用法 ( 清水 和秋教授@関大)
http://www2.ipcku.kansai-u.ac.jp/~shimizu/spss.html

SPSS 11.0Jによるデータ解析 ( 清水 和秋教授@関大)
http://www2.ipcku.kansai-u.ac.jp/~shimizu/spssv11.html
第1部 概要(データ入力)
第2部SPSS によるデータ解析:基礎編
第3部SPSS によるデータ解析:応用編(因子分析)
第4部SPSS による解析結果の印刷
5. 例題データ1 自尊心データ
6. 例題データ2 性役割自己概念尺度 性役割自己概念尺度変数ラベルと値ラベル付加のシンタックス

データのダウンロードの仕方
 (1)データをクリックしてみる。
 (2)(1)でだめなら,右クリック→リンクターゲットに名前を付けて保存
 (3)保存はH: ドライブへ,調査データは H:に spss フォルダを作ってそこに保存



独立変数・従属変数



測定変数、因果の方向


データ作成
 (1)excel から読み込む
  ファイル→開く→データ→ファイルの種類(excel *.xls)
   →フォルダを指定 (H:spss)→ファイルを指定
 (2)SPSSにデータ窓に直接入力
 (3)SPSSのシンタックスから入力

データを見やすくする (変数エディタの変数ビュー
 (1)変数のラベル(var labels) を付ける
 (2)のラベル(value labels) を付ける

spss ファイルを読み込む
  ファイル→データ→開く    →フォルダを指定 (H:spss)→ファイルを指定

データを保存する
 ファイル→名付けて保存
 H: 上に保存(自分のフォルダーになる)
 この授業用にH: に spss というフォルダーを作りそこに保存する。

小塩第1章データ
統計学の考え方を理解する
南風原朝和(2002)『心理統計学の基礎』有斐閣

服部環・海保博之(1996)『Q&A 心理データ解析』福村出版
両者とも因子分析まで説明している。

田中敏・山際勇一郎 (1992). ユーザーのための教育・心理統計と実験計画法─方法の理解から論文の書き方まで 新訂版 教育出版
田中敏(2006).実践心理データ解析 改訂版 新曜社
結果の書き方を明解に示してある。

小野寺孝義・山本嘉一郎 (2004). SPSS事典─BASE編 ナカニシヤ出版
optionの使い分けなどを知るのにはいい。章によって記述レベルのばらつきがある。

長谷川勝也(2003)『これならわかる多変量解析』技術評論社
用例がなじみやすい

尺度とは

調査:調査対象の諸特性に関する情報(データ)を集めること。(井上ほか,1995)
測定:事物や事象などの観測対象に、定められた操作に基づいて数値を割り当てること。
測定値:測定によって割り当てられた数値。
尺度:測定によって数値を割り当てる規則。
(豊田,1998から)

尺度は対象を測るものさしであり、はかりであるといっていい。ただし、物理量とは違っていろいろ問題のあるものを問題のある道具で測る。このあたり、ことばで測る 参照

尺度のいろいろ



表1 リッカート尺度とSD尺度の例


リッカート尺度項目例

  (性格検査)
1 人のあつかいがうまい      はい ? いいえ
2 たびたび考えこむくせがある   はい ? いいえ

  (価値観)
1 特定の生き方にはまらず、柔軟な生き方をしたい。
   1.賛成 2.やや賛成 3.どちらでもない 4.やや反対 5.反対
2 自分の人生の中では、多元主義を貫きたい
   1.大いに賛成 2.賛成 3.どちらでもない 4.反対 5.大いに反対
 
SD尺度項目例
         こぶとりじいさん

      非  か  どと どい どと  か  非
      常  な  ちい ちえ ちい  な  常
      に  り  らう らな らう  り  に
            かと とい かと
               も
 すきな  +----+----+----+----+----+----+  きらいな
 小さい  +----+----+----+----+----+----+  大きい   
 強い   +----+----+----+----+----+----+  弱い


      非  か  どと どい どと  か  非
      常  な  ちい ちえ ちい  な  常
      に  り  らう らな らう  り  に
            かと とい かと
               も
 すきな  1 ----2 ----3 ----4 ----5 ----6 ----7   きらいな
 小さい  1 ----2 ----3 ----4 ----5 ----6 ----7   大きい   
 強い   1 ----2 ----3 ----4 ----5 ----6 ----7   弱い


スチーブンス(Stevens,S.S.,1951)の4つの水準

名義(名目)尺度、順序(序数)尺度、間隔(距離)尺度、比率(比、比例)尺度

この区別は重要である。

前2つは質的尺度、後ろ2つは量的尺度という。
(1)名義尺度(nominal scale)
 対象の区別(多くの場合カテゴリー化)するために数値を割り当てる。性別で男性には1、女性には2を与える。数値の与え方は任意である。つまり数値は単なる名称にすぎない。実際の番号付けは連続する数値になるように割り当てることが多い。網羅性と相互排他性を満たさなければならない。例。郵便番号、商品番号、背番号など

(2)順序尺度(ordinal scale)
 対象の量の大小や強弱の順序関係を区別する。他より大きい、小さいなどの順序のみが意味がある。数値の与え方は、1,2でも20、50でも順序性を保てばなんでもいい。例。クラス順位、星の明るさの等級、製品の等級、評定値、時代、学歴、好きな順にならべたもの、買いたい順位をつけたもの

(3)間隔尺度(interval or distance scale)
 2つの対象に付与された数値の差が比率尺度になっている尺度。絶対0点を定義できない。加減算ができる。例。摂氏、華氏の温度、標準テストの点数、西暦年号

(4)比率尺度(ratio scale)
 特性がない状態の絶対0点が存在する。一方が他方の何倍ということに意味がある。例。重さ、長さ、絶対温度、時間、個数。

それぞれの尺度にはどのような性質があり、、どのような演算、変換ができるかを知ることが大切。グラフ作成や統計処理に関係する。


クロス集計表のχ2検定等

クロス表分析参考文献
対数線形モデル文献案内がだいたいそのまま使える。
エヴェリット(1980) 質的データの解析 新曜社
クロス表の分析法を広く扱っている。解説は比較的平易。残差まで扱っているのがいい。

そのほか一般的な統計書でもクロス表分析が扱われている。
χ値の計算の仕方,検定の仕方が分からない人は,
http://www.clg.niigata-u.ac.jp/~takagi/cross.html
を見たり,本を読んだりして学んでください。

SPSS でのχ2検定の仕方
 http://www2.ipcku.kansai-u.ac.jp/~shimizu/spsscross/crosst.html

 (1)分析→クロス集計表
 (2)行と列の変数の指定
 (3)統計→カイ2乗(H) (そのほか必要な統計を指定)→続行
 (4)セル→観測(O),
        期待(E)(期待は通常使わない),
        パーセンテージ(行)(データにあわせて,行または列を指定),
        残差(調整済み残差)
         をチェックする →続行
 (5)OK


クロス表の場合の2つのデータタイプ
 (1)素データ
 (2)頻度データ

頻度データ
 行変数と列変数を作る。
例 a (買物が好きか) b (ドキドキ価格)
a b frq
1 1 94
1 2 72
1 3 32
2 1 38
2 2 36
2 3 28

SPSSのデータエディタにおいて次の操作をする。
データ→ケースの重み付け→ケースの重み付けをチェック→度数変数に frq→OK

データ (博報堂生活総合研究所「4つの価格」(2002)の%データを頻度データに変換し,一部集計)
(註)このデータは上の処理をしているのでそのまま頻度データとして使用できる。
データの値の一括書き換え
 (1)変換→同一の変数への値の再割り当て
  ドキドキする買物価格を数値型変数
 →今までの値と新しい値 今までの値 値 1 → 新しい値 値 2 →追加→続行→OK

 (2)のラベルを変更すること

課題:値の変更前と変更後でのχ2検定結果および調整済み残差を比較せよ。どのようなことがいえるか。


クロス集計表の処理
生活意識調査の意義について(pdf 512 KB)

カイ2乗分布

自由度1
自由度2
自由度3
自由度20

相関係数

(1)相関の大きさと布置 (データ corrdata.sav









(2)相関家数の解釈(読み取り)


0.0<=|r|<0.2 ほとんど相関がない
0.2<=|r|<0.4 低い(弱い)正(負)の相関がある
0.4<=|r|<0.7 正(負)の相関がかなりある
0.7<=|r|<1.0 高い(強い)正(負)の相関がある


(3)相関の大きさと回帰直線および決定係数 r2



図1では決定係数r2=0.7^2=0.49 -->全分散の49%を回帰直線で説明できる。
図2では決定係数r2=0.3^2=0.09 -->全分散の9%を回帰直線で説明できる。

(4)相関係数とベクトル表現(相関係数のイメージ)

 n人の身長、体重のデータがあるとする。n次元の空間に身長のベクトル、体重のベクトルがある。原点と身長ベクトル、体重ベクトルは2次元空間におさまる。  身長ベクトルを平均0、分散=1として表す。体重ベクトルを平均0、分散=1として表す。→原点が平均、それぞれ長さ1のベクトルとなる。(規準化、正規化)
 
 相関係数=ベクトルの長さ1の内積
 内積=|a||b|cosθ →|a|=|b|=1 → cosθ
 ベクトルa,b のなす角度θの関数



(5)95%信頼区間(相関のイメージ)



集中楕円が重要であるが、spssでは今のところ出力できない。

→systat 90%集中楕円



(6)外れ値 



 (a)女子タレントのデータ(Talent.txt)の散布図をよく見よ。
 (b)相関係数を求めよ(0.494)。
 (c)ダンプ松本のデータを削除すると相関係数はどうなるか?(0.641)
分析→相関→2変量→変数指定→ok

(6)回帰直線は直線的関係だけを示している。

(a)女子タレントデータと高校野球児のデータ(Senbatu.txt)を併せて処理してみよう。相関係数どうなるか。データ(sinchotaiju.sav)


SPSS14での出力

次のグラフは何が問題



(b)U字型データ(ushape.sav) のプロット 相関係数は0である。計算してみよう。


偏相関などの図的理解

ベン図による理解
中谷和夫(1978). 多変量解析 新曜社 p124-
ベクトルによる理解
柳井晴夫・岩坪秀一(1976. 複雑さに挑む科学 講談社ブルーバックス p164-

因子分析を中心とする尺度構成の流れ

  1. 変数のサンプリング
  2. 被験者のサンプリング
  3. データの収集
  4. 相関行列作成
  5. 因子数推定
  6. 因子抽出法決定
  7. 回転法決定
  8. 軸と布置の解釈
  9. 信頼性分析
  10. 再調査もしくは交差妥当性による頑健性のチェック

因子分析の結果の異常事態

  1. Heywood case(共通性が1.0を超える)
  2. 行列がnon-positive definit等計算ができない
  3. 解が収束しない
  4. 解釈できない
  5. 単純構造になっていない
  6. 負荷していると言える項目が2項目以下
  7. 因子分析をするデータ構造ではない→SEM をうまく使ってモデルに対応した分析をする

異常事態への主たる対応策

  1. 因子数の変更(大抵は少なくする)
  2. 項目削除
  3. 項目追加、ワーディングの変更をしての再調査
  4. サンプルサイズを大きくして再調査
  5. SEMなどを使用し、因子分析以外の分析法を使う

因子分析用調査項目作成

(1)順序尺度の問題

 (a)5段階評定以上ならあまり問題ではない。(経験的およびシミュレーションによる)
萩生田伸子・繁桝算男(1996). 順序付きカテゴリカルデータへの因子分析の適応に関するいくつかの注意点. 心理学研究, 67, 1-8.
 (b)2段階評定(二値データ)なら,そのまま相関をとる(問題がある (a)参照)。最近は四分相関(tetrachoric correlation)をとる方法(計算プログラム)を因子分析することが薦められている。
 (c)3段階以上の順序尺度の場合は多分相関係数(polychoric correlation)(計算プログラム)を使う。

(2)質問項目数

 一つの因子につき5項目以上欲しい。因子分析の結果使える項目が減ることが予想される。減った結果一つの因子に4つ必要。最悪でも一つの因子につき3項目必要。今後の再分析に耐えるものにするには5項目,最悪4項目は確保する。あまり相関が高すぎる項目を集めるのは問題がある。項目がその因子の多くの面を代表していなければならない。

(3)被調査者数

 (a)200人以上ほしい。非常に良好な尺度・サンプルなら100人程度でもきちんと因子がでることがあるが,これは冒険である。相関係数のサンプル誤差を考えるなら200以上どうしても必要。最尤法を使うなら500以上が望ましい。1000人くらいなら安心。
 (b)項目数当たりという考え方もあるが,これは意味がない。因子当たりの項目数が増えると被調査者数は少なくていい(計算プログラム)。

因子分析

因子分析等参考文献
多変量解析というタイトルの付いている本を当たるのがいい。
松本太加志・中村知靖(2002)『誰も教えてくれなかった因子分析』北大路書房
テキスト
SPSSの結果の見方がよくわかる。
永田靖・棟近雅彦(2001)『多変量解析法入門』サイエンス社
何のために使うのかということが分かる。主成分分析の章をあわせて参考にすること。数学的な説明もわかりやすい例を用いている。
朝野煕彦(2000)『入門多変量解析の実際 第2版』講談社サイエンティフィク
マーケティングに応用するために書かれている。注意事項などをきっちりと書いている。
田中豊・垂水共之編(1995). 『Windows版統計解析ハンドブック多変量解析』共立出版
因子分析の計算過程を簡潔に必要なだけ書いている。最尤法,最小2乗法についても解説あり。
Gorsuch, R. L. (1983), Factor analysis. 2nd ed., Erlbaum.
因子分析の各種問題を広く扱っている。
探索的因子分析リンク集(日本語中心) からリンク先をいろいろ読んでみるのもいい。

SPSSの因子分析の使用法
 第3部SPSS によるデータ解析:応用編(因子分析)( 清水 和秋教授@関大)pdf

分析→データの分解→因子分析→変数指定等

パソコン関与の調査 データ数は少ないが処理例として使う

課題 (5月28日課題)
(1)テキスト(p.42 オプション(「係数の表示形式」のサイズによる並べ替えもクリック)に従ってパソコン関与調査の問1のデータを使って製品関与の因子を求めよ。何因子となったか。因子名を考えよ。

因子
1234
1(2)この製品に関して豊富な知識をもっている。0.8690.0730.1420.027
1(4)友人が購入するとき,アドバイスできる知識のある製品である。0.7340.0530.216-0.054
1(14)いろいろなメーカーの品質や機能の違いがわかる製品である。0.6710.0540.3810.027
1(1)愛着のわく製品である。0.6320.4710.1620.106
1(9)いろいろなメーカーの製品を比較したことがある。0.6070.0620.303-0.174
1(13)いりいろなメーカー名やブランド名を知っている製品である。0.4530.1980.445-0.395
1(11)魅力を感じる製品である。-0.0880.8580.0860.304
1(5)私にとって関心のある製品である。0.2160.6200.0410.288
1(12)商品情報を集めたい製品である。0.0390.6180.1370.148
1(6)私の生活に役立つ製品である。0.1020.6130.042-0.155
1(3)使用するのが楽しい製品である。0.4910.5900.009-0.118
1(15)この製品を次に買うとすれば,購入したい特定のブランドがある。0.221-0.1020.7820.102
1(8)買いに行った店に決めているブランドがなければ他の店に行っても同じものを手に入れたい製品である。0.2000.2940.781-0.006
1(7)この製品の中にはお気に入りのブランドがある。0.3530.1340.6520.014
1(10)お金があれば買いたい製品である。-0.0570.3860.1040.811
"因子抽出法: 重みなし最小二乗法 回転法: Kaiser の正規化を伴わないバリマックス法"
a7 回の反復で回転が収束しました。
オリジナルと比較してみよ


 

因子分析法手順

相関行列

 元のデータから相関係数を求める。→相関行列
 SPSSでは相関行列だけ求めることができる。分析→相関→2変量→オプション(欠損値 リストごとに除外をチェック)
  因子分析と相関とでは欠損値の既定値が異なっている。因子分析の既定値に合わせる。
 因子分析ではデータから相関行列を求めるの。相関行列出力のオプション 記述統計→相関行列(係数をクリック
 相関行列を因子分析する。
 相関行列をよくみれば因子がわかるようになってくる。

主成分解

 一般に因子分析をするまえに主成分解を求める。これは相関行列のまま共通性を推測しない方法である。スクリープロット(固有値の落下)を見るために行うことが多い。

初期解

 指定した因子抽出法で求めた回転前の解を初期解という。テキストの因子行列への言及がそれである(p48)。  ただし初期解の使用は混乱している。
 例えば松尾・中村(2002)のp55 での固有値への言及は「初期解」を主成分解の意味に使ってしまっている。これはSPSSユーザによくおこる間違いである。正しくは,「主成分分析の固有値」「相関行列の固有値」と言及する。
 因子抽出の最初に入れる共通性を指しているのは初期の共通性。SPSSの場合,初期の推定値に多くはSMC(重相関係数の平方)を使っている。SPSSの場合,共通性の初期値にあまり注意をはらう必要はない(オプションが限られている)。

因子抽出法

 主成分分析がSPSSの既定値になっているが,これは因子分析ではない。
 (反復)主因子法と(重み付けのない)最小2乗法は解が収束すれば同じ値となる。
 主因子法は非反復主因子法反復主因子法がある。昔は非反復主因子法が使われていたが,今は計算速度があがり計算機使用量も電気代だけになっているので反復主因子法を使う。SPSSは反復主因子法を主因子法といっている。他の統計ソフトでは非反復主因子法を主因子法と言っているので注意が必要。とりあえず古い頭の人とのコミュニケーションのためには反復主因子法といった法がよい。
 最尤法(ML)は良い方法であるが,いくつか問題も指摘されている。例えば [fpr 2436] 探索的因子分析におけるMLとOLS。そのほか不適解(下の「計算がうまく行かないとき」参照)がでやすいので初心者にはめんどうかもしれない。ただし,不適解こそが,最尤法のモデル診断能力の高さを示すものでもある。
 回転前の因子について検討するべきは,第1因子がすべての項目またはほとんどの項目に高く負荷しているかどうかである。もしそうならば一般因子があると考えられ,斜交回転のほうがいい。また高次因子も求める。

計算がうまく行かないとき

 いくつかのエラーがあり得る。テキストの例の1よりも大きい共通性がでる場合, Heywood case 不適解と呼ばれる。
原因および対処法は
  1. データの数が少ない(極端な場合,変数の数よりデータが少ない。もう一度多くのサンプルで調査する)
  2. データ入力がおかしい(データのチェック)
  3. 欠損値をペアワイズで処理している(リストワイズ(既定値)にする)。(相関行列から出発するとき要注意)
  4. 因子抽出法があっていない(最尤法だと不適解が生じやすい。次に最小2乗法)
  5. 因子の数が多すぎる(最尤法の場合,これが原因のことが多い。変数を増やす,因子数を減らすなどする)

 p51 のエラーは重症。そのほか「この行列は正値行列ではありません。」というエラーもある。この場合は上の原因および対処法(1)(2)をチェック。

繰り返し回数(反復数)

 反復数 25は小さいので 100にする。因子抽出,回転法とも

因子数を決定する

因子数の決定は因子分析の最重要事項

  1. 固有値1以上の基準(カイザー基準)
     よくつかわれるが,あまり当てにならない。大雑把なレベルではいい。
  2. スクリープロット基準
     よく使われる。発案者によると簡単だというが意外とわかりにくい場合がある。
     コンピュータで判断させようとするものもある(SE Screeプログラム。参照)。
  3. 因子数を強制的に決める
     モデルが明確である場合。性役割自己概念尺度の2因子。製品関与尺度の3因子。
  4. 解釈可能性(人間は何でも解釈できるので要注意)
  5. 3項目以上負荷する因子に絞る
  6. 因子数の上限と下限を決めて解釈可能かつ良好な因子にする。堀の提案 および追加 提案。MAP を最小因子数とし,対角SMCの平行分析の95%点を最大因子数とする(プログラム)。製品関与への使用例 2〜3。性役割自己概念尺度への使用例 2〜4。

MAPから見たいい因子

  1. 1因子に3指標以上.
  2. 3指標の場合負荷量0.6以上 (共通性0.36以上)
  3. 4指標の場合は負荷量0.5以上(共通性 0.25以上)
  4. 指標数が多いほど良い

対角SMCの平行分析(PA)から見た因子

  1. 1因子に2指標以上.
  2. 負荷量・指標数・サンプルサイズに関しては少し影響を受け,いずれも大きい方が感度が高くなる.あまり気にする必要はない.

因子軸の回転

 単純構造になるように因子軸を回転します。2段階の方法が一般的ですが,直接単純構造を求める方法があります。

直交回転

 バリマックス回転(varimax rotation)。一番使われている方法。

斜交回転

 単純構造を追求すれば斜交回転になる。
 o76に表
 SPSSにある直接オブリミンがもっともお薦め。デルタはSPSSの既定値のがよい。
 プロマックス回転は速いし必ず収束するのでいい。カッパ(本当はk)はSASの既定値ののほうがいいだろう。とりあえず分析するにはSPSSの既定値の4でもいい。3に比べ4だと因子間の相関が高くなる。日本ではまだ因子分析の有力な研究者のなかにプロマックス回転の信者がいる。
 ハリス・カイザー法も推薦出来る方法であるが,SPSSでは使えない。
 いいデータなら,どの方法でもそれほど違わない。

自尊心データの分析(fashion02.sav)


因子数判定

それぞれのお薦め因子数

MAP     1
PA1     2
PA SMC    3
SE scree   2

→1因子から3因子の間

相関行列のスクリープロット


対角SMCの平行分析(PA MC)がスクリー分析になっていることがわかる。
最大3因子。

因子パタンと因子構造

 因子パタンは重み係数であり1以上の値をとりうる。因子構造は相関係数。
 基本的に因子パタンを使って因子を解釈する。斜交回転で因子パタンが単純にならないなら問題あり。

因子間の相関

 相関がある程度あると高次因子がある可能性。高次因子を想定するか,単に相関があると考えるか。

直交回転と斜交回転

 理論的には斜交回転がいい。でも直交回転のほうがいい性質を持っている。

項目の取捨選択

 重要

因子パタン,共通性から(8)は落とす。(9)はちょっと考える。
すべての因子において因子パタンの値が低い項目。複数の因子の中程度以上負荷している項目が要チェック。

 専門のアプリケーションもある。狩野裕大阪大学教授のサイト
 因子分析における変数選択に関する研究
 相関行列を入力する。

因子寄与,因子寄与率,共通性,独自性(特殊性)



AMOOS,検証的因子分析については 狩野裕・三浦麻子(2002), グラフィカル多変量解析 増補版 現代数学社
やAMOSの専門解説書を参照のこと。
AMOS の高次因子モデルは
Byrne, B.M. (2001). Structural equation modeling with AMOS. LEA. 5章 application 3.
 

因子分析と主成分分析

主成分分析因子分析
回転回転をしない回転をする
共通性推定しない
数学的に単純.一意
推定する
問題があるが,反復推定が当たり前になっているので以前ほど大きな問題ではなくなっている
因子数前もって決定する必要はない.→数学的に単純明解
回転をする場合は主成分数を前もって決めなければならない.その場合は因子分析と同じくその数によって因子が異なってくる.
前もって因子数を決定する.
その数によって因子が異なってくる.
モデル項目を少ない主成分で説明する.
項目→主成分
分散の最大化
因子を反映したものが項目.
因子→項目
潜在因子を想定する
誤差測定誤差のみ測定誤差+標本誤差(+誤モデルによる誤差)→独自性
因子不変性なし
そのデータを表したものでしかない
あり
因子負荷量大きい適正
因子得点数学的に一意に求めることができる前提条件の付け方によって値が異なる
不適解なしおこることがある

因子得点の求め方

分析→データの分解→因子分析→いろいろ指定→得点→変数として保存→続行→OK
変数として最後に保存される.

尺度

MAPから見たいい因子

  • 1因子に3指標以上.
  • 3指標の場合負荷量0.6以上 (共通性0.36以上)
  • 4指標の場合は負荷量0.5以上(共通性 0.25以上)
  • 指標数が多いほど良い

    合計点を計算する。

    syntax compute t2001+t2002+(6-t2003). 逆転項目に注意する。どの項目が逆転項目か。

    クロンバックのα係数(信頼性)

     信頼性の解説およびここ(服部環助教授@筑波大学

    逆転項目への対応

    逆転項目は逆転させておく。逆転項目かどうかは他の変数との相関から見る。
    方法はシンタックスを使うか,メニューを使う。

    (1)syntax compute を使う。

    compute t2003=6-t2003.

    (2)syntax recode を使う。同じ変換なら,変数を一度に指定できる。

    recode t2003 (1=5)(2=4)(3=3)(4=2)(5=1).
    recode t2003, t2009(1=5)(2=4)(3=3)(4=2)(5=1).

    (3)recode を使い新変数へ。複数の変数を一度に指定できる。

    recode t2003 (1=5)(2=4)(3=3)(4=2)(5=1) into t2003r.
    recode t2003, t2009 (1=5)(2=4)(3=3)(4=2)(5=1) into t2003r t2009r.

    (4)メニューを使う。

     (a)変換→計算 (compute に対応)
     (b)変換→値の再割り当て


    クロンバックのα係数を求める


    分析→尺度→信頼性分析→変数指定→統計→記述統計(項目を削除したときの尺度をチェック)

    自尊心データの逆転項目を処理しないで分析したとき。t2008も含む
    ****** Method 1 (space saver) will be used for this analysis ******


     R E L I A B I L I T Y  A N A L Y S I S  -  S C A L E  (A L P H A)


    Item-total Statistics

           Scale     Scale   Corrected
           Mean     Variance    Item-      Alpha
           if Item    if Item    Total      if Item
           Deleted    Deleted  Correlation    Deleted

    T2001     25.3284    12.4680    .0522      .1121
    T2002     25.1176    11.8777    .1766      .0448
    T2003     24.7304    11.2718    .1489      .0421
    T2004     25.2157    12.6232    .0330      .1233
    T2005     24.9265    14.7680    -.2440      .2841
    T2006     24.7843    12.4262    .0556      .1101
    T2007     24.5539    12.3173    .0435      .1170
    T2008     25.7892    11.1130    .2225      .0006
    T2009     24.9559    11.3626    .1092      .0680
    T2010     24.3480    13.4497    -.1072      .2138



    Reliability Coefficients

    N of Cases =  204.0          N of Items = 10

    Alpha =  .1296


    Corrected Item-total correlationを見る。プラスマイナスがあると逆転項目の処理がされていないことを示す。結果は「当てはまる」が大きい数字になるようにしたほうが結果は分かりやすい。
     このデータの場合,まずt2005, t2010が逆転項目である。他にもあるはずだがという疑問は持っていないといけない。

    2項目だけを逆転すると次の結果になる。T2003, T2009も逆転項目である。
    ****** Method 1 (space saver) will be used for this analysis ******


     R E L I A B I L I T Y  A N A L Y S I S  -  S C A L E  (A L P H A)


    Item-total Statistics

           Scale     Scale   Corrected
           Mean     Variance    Item-      Alpha
           if Item    if Item    Total      if Item
           Deleted    Deleted  Correlation    Deleted

    T2001     24.8775    19.8716    .5778      .4895
    T2002     24.6667    19.8588    .6560      .4789
    T2003     24.2794    27.3747    -.2020      .6791
    T2004     24.7647    20.9296    .4561      .5208
    T2005     24.1225    19.7731    .5258      .4969
    T2006     24.3333    20.6174    .4831      .5133
    T2007     24.1029    20.8120    .4103      .5284
    T2008     25.3382    23.4072    .1593      .5912
    T2009     24.5049    29.0886    -.3225      .7121
    T2010     24.7010    20.8018    .3769      .5358



    Reliability Coefficients

    N of Cases =  204.0          N of Items = 10

    Alpha =  .5911


    さらに2つの変数を変換すると,次のようになり,項目・合計間に−の相関はなくなる。最初から反転項目が分かっているのでそれを変換しておいたほうがいい。なお,反転したかどうかわからなくなるので,新しい変数に保存しておくほうが安全である。もしくは,変換前のデータファイルと違う名前で保存する。それでも危険なので,新変数に保存する方がいい。

    ****** Method 1 (space saver) will be used for this analysis ******


     R E L I A B I L I T Y  A N A L Y S I S  -  S C A L E  (A L P H A)


    Item-total Statistics

           Scale     Scale   Corrected
           Mean     Variance    Item-      Alpha
           if Item    if Item    Total      if Item
           Deleted    Deleted  Correlation    Deleted

    T2001     25.2500    37.5973    .6745      .7891
    T2002     25.0392    39.3384    .5906      .7989
    T2003     24.6912    39.7416    .3986      .8179
    T2004     25.1373    39.9023    .4830      .8081
    T2005     24.4951    37.7684    .5951      .7962
    T2006     24.7059    38.6323    .5798      .7985
    T2007     24.4755    38.8418    .5094      .8054
    T2008     25.7108    45.0834    .0657      .8478
    T2009     24.4657    37.6786    .5075      .8063
    T2010     25.0735    35.6054    .7232      .7808



    Reliability Coefficients

    N of Cases =  204.0          N of Items = 10

    Alpha =  .8218


    全体のα係数(.8218)は十分に高く満足できるものである。ところが,T2008の全体(合計)−項目間の相関が低い(.0657)。基本的に取り除くべきものだが,この項目を削除してもα係数はさして上がらない(.8478)。.8218→.8478をどう評価するかである。このように項目を多く使っていると一つくらい変な変数が混じっていても大きな問題にならない。しかし,尺度を作成する段階では十分に注意してα係数が高くなるようにすべきである。

    上の変換に使ったシンタックス
    recode t2005, t2010(1=5)(2=4)(3=3)(4=2)(5=1).
    recode t2003, t2009(1=5)(2=4)(3=3)(4=2)(5=1).

    実際には
    あてはまる ややあてはまる どちらともいえない ややあてはまらない あてはまらない が1〜5になっている。
    そのため次のように操作するのがいい。
    recode t2001 to t2010 (1=5)(2=4)(3=3)(4=2)(5=1) into tr2001 to tr2010. と一挙に変換し,変数を連続にして,
    recode tr2003, tr2009, tr2005, tr2010(1=5)(2=4)(3=3)(4=2)(5=1).
    と逆転項目を反転する。こうすると,数値の大きいものが自尊心の高いものとなる。


     

    合計点の比較

    合計点を計算する。
    compute
    を使う。同一方向に尺度を形成しているなら,
    compute total=sum(tr2001 to tr2010).
    とすることもできる。

    t検定,分散分析

    2群のデータ(ex. sex)の平均値の比較(t検定)清水data2 性役割自己概念尺度変数ラベルと値ラベル付加のシンタックス

    分析→平均の比較→独立したサンプルのT検定→検定変数指定→グループ化変数指定(sex)およびグループの定義(1,2)→実行


    独立サンプルの検定
    等分散性のための Levene の検定2 つの母平均の差の検定
    F 値有意確率t 値自由度有意確率
    (両側)
    平均値
    の差
    差の
    標準誤差
    差の 95%
    信頼区間
    下限上限
    MALE等分散を仮定する。1.8490.1750.309239.0000.7580.1860.603-1.0011.373
    等分散を仮定しない。0.302158.9050.7630.1860.617-1.0321.404
    FEMALE等分散を仮定する。0.6230.431-0.784239.0000.434-0.3560.454-1.2500.538
    等分散を仮定しない。-0.815189.1980.416-0.3560.437-1.2170.505

    男性性の合計点(8〜40)の男子平均点は20.5(S.D.=4.7),女子平均点は20.3(S.D.=4.3)であった。t検定を行ったところt(239)=0.3(p=0.758)となり男女に5%水準において有意差はなかった。女性性の合計点(6〜30)の男子平均点は17.3(S.D.=3.1),女子平均点は17.6(S.D.=3.5)であった。t検定の結果,t(239)=-0.784(p=0.434) となり5%水準において男女の有意差はなかった。

    なお,男性性尺度と女性性尺度には正の相関r=0.299 がある。

    点推定(平均値)と区間推定(母集団の平均値の信頼区間:母集団の平均がある可能性が95%の区間)

    結果の記述

    平均値の差の検定結果を記述するときの必要項目。
    (1)平均値および標準偏差表・グラフもあるといい)
    (2)統計量(t値、F値)、自由度p値(p値のかわりに有意水準と有意であったかどうかを記すこともある)
    (3)結果のわかりやすい記述

      
    男性性の男子平均点は20.5(S.D.=4.7),女子平均点は20.3(S.D.=4.3)であった。t検定を行ったところt(239)=0.3(p=0.758)となり男女に5%水準において有意差はなかった。男女によって男性性の平均点には差がない。


    3群以上のデータの平均値の比較(分散分析)

    分析→平均の比較→一元配置分散分析→従属変数指定→因子指定(ex. age)→オプション→記述統計量チェック→続行→その後の検定(事後検定)→(とりあえず)Tukey(TukeyのHSDのこと)→続行→実行


    群間の多重比較

    多重比較では使用しない方がいいオプションが含まれている。

       使用をしてはいけない多重比較
    Duncna......有意になりすぎる。あまりにも冒険的
    S-N-K.......有意になりすぎる
    最小有意差..有意になりやすい


       特別な理由がなければ使用はさける多重比較
    Sceffe......有意になりにくい
    Bonferroni..比較が多いと有意になりにくい

    通常は Tukey (TukeyのHSD法)を使うのがいいだろう。平均値の最大・最小どうしでも有意差がでないのなら、Ryan 法を修正したR−で始まる方法を使ってみるのもいいかもしれない。

    各方法の比較は
    小野寺孝義・山本嘉一郎 (2004). SPSS事典─BASE編 ナカニシヤ出版
    p46からに詳しい。
    より詳しくは多重比較の専門書がでている。

    2要因分散分析の交互作用

    交互作用が有意の場合には考えなくてはならないことが増える。

    例えば次のように考えてみよう
    A要因 商品アのユーザー(1)、ノンユーザー(2)
    B要因 男(1) 女(2)
    縦軸 ダイエット意向度


    その他いろんな交互作用のパタンがある。考えてみよう。

    単純主効果とは
    上の例では
    A1群だけでのB要因の効果。A2群だけでのB要因の効果。 B1群だけでのA要因の効果。B2群だけでのA要因の効果。 である。 単純主効果を考えるのは、交互作用が有意な場合である。例えば、図6の場合を考えてみよ。
     交互作用が有意な時は単純に主効果の有意のみでその要因の効果を語ることができない。

    重回帰分析・判別分析・分散分析の概念図


    重回帰分析

    主たる目的

     独立変数(予測変数))が与えられたときに従属変数(基準変数)を予測する式をつくることである。その結果、独立変数の値が与えられたとき従属変数を予測することができる。
     excel などの表計算ソフトに独立変数のリストと従属変数を求める計算式をセルにいれておき、独立変数をいろいろ変えてみて従属変数の変化を見て意思決定をするのに役立てる。独立変数は現実のデータでもよいし、こうなればどうなるという試行錯誤でもよい。

    予測をよくするためにすること

    (1)データの精度を高めること
    (2)より従属変数と関係する独立変数を集めること
    (3)多重共線性が起こらないように変数を選ぶこと。(VIFを使う。ステップワイズ法を使用する)

    予測の精度を見る

     決定係数(R2)を調べる。決定係数は説明した分散のパーセンテージを示す。

    独立変数の重要度を調べる

     標準化回帰係数(ベータ)。
     t検定の結果p<.05の変数
     独立変数の単相関、偏相関係数を調べて、見せかけの相関(疑似相関)や抑圧変数があるか調べる。

    多重共線性の回避

     多重共線性を回避する方法はいくつかある。
     (1)ステップワイズ法を使って変数を選択する
     (2)VIFが6以上のとき、多重共線性を起こしている変数を一つ削除する
     (3)リッジ回帰分析をする
     (4)主成分回帰分析をする

    残差分析

     残差分析は重要であるが、授業の範囲外である。
    簡単な重回帰分析の入門は
    S.チャタジー, B.プライス(佐和隆光, 加納悟訳)(1981). 回帰分析の実際 新曜社
    わかりやすく、ある程度のレベルまで導いてくれるので初心者にはお勧めである。原著は3版(2000)まででている。


    )

    判別分析

    2分類の判別分析のグラフ

    2分類の判別分析のグラフ出力がわかりにくい。グラフのヒストグラムを使うとましなグラフを描くことがわかった。( 3分類以上に使用してもよい)
    判別分析において判別得点を出力する。
    判別分析→保存→判別得点をチェック
    変数 Dis1_1(変数ラベル 分析 1 に対する関数 1 からの判別得点) に判別得点が保存される。
    グラフ→ヒストグラム
    変数に分析 1 に対する関数 1 からの判別得点を指定
    パネルの行に 判別の従属変数(例.所有状態)を指定
    実行
    結果→きれいに分離していることがわかる。(出力はspss14)

    PCルーム予約

    香川大学 経済学部   堀 啓造ホームページ