SPSS ときど記(31～40）

SPSSを使っていてトラぶったところや変な出力や裏技表技の便利な使い方を中心に書き留めてみる。何回話題があるかわからですが，時々書きます。（Keizo Hori）

最終更新日: (2000/5/29から)

(11)～(20)　(21)～(30)　ときど記（メニュー）へ　 (41)～(50)

SPSS ときど記(40)　2000/ 6/11　マクロ　マクロの奇妙なエラーメッセージ
SPSS ときど記(39)　2000/ 6/10　マクロ　正規分布・多変量正規分布の検定
SPSS ときど記(38)　2000/ 6/ 7　分散分析　効果量シンタックス
SPSS ときど記(37)　2000/ 6/ 6　分散分析　unbalanced mixed model
SPSS ときど記(36)　2000/ 6/ 3　行列言語　10.5のバグ　文字列をsave できない
SPSS ときど記(35)　2000/ 6/ 2　計算　結果の信頼性評価
SPSS ときど記(34)　2000/ 6/ 1　マクロ　SPSS用GEE マクロ
SPSS ときど記(33)　2000/ 5/31　分散分析　固定効果の多重比較
SPSS ときど記(32)　2000/ 5/30　GLM　不適合度(/print= lof)
SPSS ときど記(31)　2000/ 5/29　分散分析(GLM)　反復測定の多重比較

SPSS ときど記(40)　2000/ 6/11

マクロ　マクロの奇妙なエラーメッセージ

SPSS ときど記(39)のマクロを走らせて，なんでこんなエラーメッセージがでるの？　と原因解明に時間がかかった。

>Error # 12302 in column 19. Text: /
>シンタックスエラー。
>This command not executed.
次のように間違ったコマンドを入れていた。

normtest 外向活動性.

正しくは

normtest vars=外向活動性.

なんで，19カラム，なんで，　/ なんだろうか？

normtest 外向.

でも，同じエラーメッセージです。

メニューへ　　トップへ　 (41)へ

SPSS ときど記(39)　2000/ 6/10

マクロ　正規分布・多変量正規分布の検定

一つの変数が正規分布しているかどうかのチェックを簡単にするには，SPSSのグラフにある，P-Pプロット，Q-Qプロットをし，直線上に乗っているかどうか見るとよい。 SPSSにはShapiro-Wilkもある。

一変量または多変量正規分布の検定するには次のマクロが便利である。

Lawrence Decarlo's Normality Test macro for SPSS:

一変量での正規分布の検定では，D'Agostino & Pearson の検定が一番いいとされている(D'Agostino,1986)。このマクロで出力される。

多変量正規分布はMardia,Small,Srivastava ほかの統計が示される。

このマクロはDeCarlo(1997)において公表されている。

normtest vars=x1,x2,x3.

というように，vars= で変数を指定する。

《引用文献》
D'Agostino, R.B. (1986). Tests for the Normal Distribution. in R.B.D'Agostino and M.A. Stephens, (eds.), Goodness-of-Fit Techniques. NY: Marcel Dekker, pp. 367-419.

DeCarlo, L. T. (1997). On the meaning and use of kurtosis. Psychological Methods, 2, 292-307.

PS.2006/3/1.
DeCarlo氏が移動していたのでurlを新しくした。
なお、スクリプトを作ってある。ここ
メニューへ　　トップへ　 (40)へ

SPSS ときど記(38)　2000/ 6/ 7

分散分析　効果量シンタックス

すでに，SPSS ときど記(21) で触れているマクロですが，そのときとは出力を効果量にシフトしました。

効果量については，SPSS ときど記(22)ですでに述べてます。ま，このときはη²でもいいような言い方ですが，統計学者は好まない。

そこで，固定要因　分散分析の効果量の90%信頼区間を求める syntax　では， ρ²の90%信頼区間や偏ε²，偏ω²を出力する形に変えている。

より偏りの少ない母集団η²をだす式もあるが，cos^-1が必要。SPSSのcompute には含まれていないので出力しない。

ρ²は母集団η²の90%信頼区間をだしている。これの見方として，下側は０から離れているか，含んでいるかによって，有意に０から離れているかを見る。上側からは望んでいる効果量を含んでいない場合は，はっきりとその効果量はないものと判断する。例え，下側が０を含んでいなくても，十分な効果量のないものと棄却する。

文献はシンタックスとSPSS ときど記(22)。

そういえば，固定効果の効果量の検定法には，次の論文を

Fowler,R.L.(1987). A general method for comparing effect magnitudes in ANOVA designs. Educational and Psychological Measurement, 47, 361-367.

効果量のインターネットで説明
http://psy114b.psy.fsu.edu/method/statistics/eta/eta.htm

http://www.olemiss.edu/courses/psy501/Lectures/Lecture7/lex7d.htm メニューへ　　トップへ　 (39)へ

SPSS ときど記(37)　2000/ 6/ 6

分散分析　unbalanced mixed model

反復測定の場合，oneway でも古典的処理法に問題があることが分かっていて，それに対する対応法がいくつかある（SPSS ときど記(30)）。

さて，被験者間要因と被験者内要因が両方ともあるmixed model のときはどうなるか。
Keselman et al.(1996). は過去の研究をメタ分析している。

使用した検定法は,
(a)F検定
(b)Greenhouse & Geisser の e^ 自由度調整 F 検定
(c)Hotelling のT²検定（主効果に対して），Pillai-Bartlett検定（交互作用に対して）.

SPSSでも処理できる範囲に収まっている。

(1)多変量正規性の仮定に対しては頑健
(2)球状性に関しては，処理法によってばらつく（通常のF検定はだめ）
(3)共分散の異質性に関しては，（Σ₁=(1/3)Σ₂，Σ₃=(5/3)Σ₂というタイプの異質性である）
　(a)バランスのとれている時，中程度の異質性でも頑健
　(b)アンバランスの時，異質性に敏感，特に被験者内の交互作用に関して

Keselman et al.(1999) では新しい反復測定分散分析の３つの方法についても検討している。（前に検討している，(2)(3)も含んでいるが同様の結果）
SAS の proc mixed と Keselman のT_WJ, IGW(Improved General Approximate, Huynh,1978) の３つである。

検討しているのはアンバランスのときのみである。共分散構造はunstructured(UN), １次自己相関(AR)，ランダム係数(RC)の３つのタイプについて検討。

proc mixed はアンバランスのときの共分散の異質性には弱い。

Algina and Keselman(1997)は，T_WJ, IGWの２つについて検討している。交互作用に関してはIGW がいい。主効果に関してはT_WJがいい。

これらを総合してみると，IGW がいい。若干保守的である。ただし，Keselman et al.(1999)においてはT_WJをすすめているが，有意になりやすい傾向がある。

なお，欠損値がある場合は，proc mixed しかない。

《引用文献》
Algina, J. and Keselman, H. J. (1997). Testing repeated measures hypotheses when covariance matrices are heterogeneous: Revisiting the robustness of the Welch-James Test. Multivariate Behavioral Research. 32, 255-274

Keselman, H. J., Algina, J., Kowalchuk, R. K., and Wolfinger, R. D. (1999).A comparison of recent approaches to the analysis of repeated measurements. British Journal of Mathematical & Statistical Psychology. 52, 63-78.

Keselman, J. C., Lix, L.M., and Keselman, H.J. (1996). The analysis of repeatede measurements: A quantitative research synthesis. British Journal of Mathematical and Statistical Psychology, 49, 275-298.

メニューへ　　トップへ　 (38)へ

SPSS ときど記(36)　2000/ 6/ 3

行列言語　10.0.5のバグ　文字列をsave できない

行列言語(matrix) にはファイルまたは現行データへの書き出しをする,save という命令がある。

save coef2 /outfile=* /names= vlabel2/strings=varcat.

というので，現行データに書き出そうとしたところ，

>Assertion failed:
>......
.Line:537
>Expression:ditype==pVar->GetType()
>......

という警告がでる。Visual C++ からの警告だ。普通じゃないね。

ここで中止を選ぶとSPSSが死んでしまう。無視するを選ぶと続けられる。どうなってるの。

それでrelease 9J で試したところ，思い通りになる。SPSSは9から10へのバージョンアップでいっぱいエラーがでたが，こんなところまで。これはVC++ の責任かもしれませんね。普通さわらないところでエラーがでたということは，VC++ の仕様が変わったのではないでしょうか。しかし，困ったことだ。

Write は一つのformat しか書き出せないので，文字列と数字を処理するわけにはいかない。10.0.5のバージョンアップより先に11がでるんでしょうね。

ひさしぶりに，9J と 10.0.5J とを使ったのですが，10.0.5Jはかなり速くなってます。

《追記 2000/06/07》
次の行列言語をシンタックス窓に入れて走らせてみてください。
*************.
matrix.
compute x={"a",1;"b",2;"c",3}.
save x/outfile=* /variables=dum num /string dum.
end matrix.
*************.

Microsoft VC++ からのAlert ダイアログがでてきます。

それで，無視(I) をクリックすると，あらら，ちゃんとデータエディタに書き込まれています。警告がでるだけなのでしょうか？

ちゃんと無視を選んでくださいね。そうしないと，SPSSのセッションがご臨終です。

メニューへ　　トップへ　 (37)へ

SPSS ときど記(35)　2000/ 6/ 2

計算　結果の信頼性評価

統計ソフトの比較という分野がある。計算がちゃんと行われているのか，どういう計算方法を使っているのかなどを評価する。

McCullough(1999)がpdf ファイルで公開されているので，斜め読みしてみた。

(1)univariate summary statistics, one-way ANOVA, linear regression, and nonlinear least squares;
(2) random number generation
(3) statistical distributions

に関して，SAS 6.12, SPSS 7.5, S-Plus 4.0 を133 MHz Pentium Windows 95 でテストしている。

SASの圧勝かと思っていたがそうでもないようですね。統計分布関数に関してはSPSSのほうがいいようです。もっとも，テストした統計分布関数がSASやS-Plus よりも少ないのが気にかかりますが。以前，SASの結果と無視できないほど違いがでて気になっていたのですが，ちょっと気楽になりました。正確な関数として，ELV (Knusel 1989) or DCDFLIB (Brown 1998)を使ってチェックしてます。DCDFLIB は何度も参照しているものです。ELV は初めてみました。こちらはソースを公開していない。

SPSSの分散分析の系統の中ではMANOVAが他(oneway, means, anova, glm)よりも正確だそうです。

乱数生成は2³¹のレベルを保っているそうです。

経済学の場合，危ないデータが多いので特に心配でしょうね。しかし，心理学の場合，そこまで危ないデータは少ないのではないか。などと安心はしていられないか。

《引用文献》
McCullough, B. D. (1999). Assessing the Reliability of Statistical Software: Part II . The American Statistician, 53, 149-159.

メニューへ　　トップへ　 (36)へ

SPSS ときど記(34)　2000/ 6/ 1

マクロ　SPSS用GEE マクロ

SPSS 用のGEE(Generalized Estimating Equation マクロがあります。

Generalized Estimating Equations (GEE) For DOS

カテゴリーデータのGLM というよりもカテゴリーデータの SASのProc mixed ですね。経時データの相関構造の仮定を考えます。Liang and Zeger(1986), Zeger and Liang(1986)が基本文献のようです。

GEE の簡単な説明は　Horton and Lipsitz(1999) をインターネットで手に入れるのがいいでしょう。この論文に載っている，相関モデルの表はproc mixed を理解するのにも助けになります。

このマクロかなりハードに組んであり，マクロの組み方のサンプルとしても面白そうです。まだ解読していないですが，とりあえず報告。

《引用文献》
Nicholas J. Horton and Stuart R. Lipsitz　(1999). Review of Software to Fit Generalized Estimating Equation Regression Models (Full text - PDF Format). The American Statistician, 53, 160-169.

メニューへ　　トップへ　 (35)へ

SPSS ときど記(33)　2000/ 5/31

分散分析　固定効果の多重比較の選択

SpssもGLM が入ってから少しは分散分析ができるアプリケーションになった。固定効果の多重比較も種類が増えて選択に悩むようにもなった。

固定効果分散分析の多重比較の方法はいろいろ開発されている。シミュレーション研究による評価はほぼ終わったといってもいい段階になっている。

評価するためには，何をコントロールしているかを明確にする必要がある。

現在の統計学の主流は error rate familywise のコントロール。そのほかに，error rate per comparison, error rate per family のコントロールがある。

(1)per-comparison error rate(PCE) 比較一つ当たりの過誤率

(2)per-family error rate(PFE)
比較のファミリー当たりの誤った不採択（第１種の過誤）の平均数（確率ではない）
直交していれば ERPF＝Cα'

(3)familywise error rate(FWE) 少なくとも１つの第１種の過誤をおかす確率

比較数をＣとする。比較１回当たりの第１種の過誤をα'，その過誤をαとすると，
(1)はα＝α'　(2)はα＜＝Cα' (3)はα＜＝1-(1-α')^C

　　　　α' ＜＝ 1-(1-α')^C ＜＝ Cα'
　　　　　→ (1) ＜＝ (3) ＜＝(2)

つまり、比較当たりのα'を一定だとすると，(2)が検出しやすく，次に(3)そして，(1)になる。逆にそれぞれ固有のαを一定にすると，比較当たりのα'は，(1)が一番大きく，次に(3)、そして(2)ということになる。

実際には(3)と(2)はほとんど同じ大きさになる場合が多い。例えば　α'＝0.01,Ｃ＝５とすると，(1)＝0.01，(2)＝0.05，(3)＝0.049となる。

少なくとも１つの第１種の過誤をおかす確率＝1-(1-α')^C＜＝Cα'

比較が直交してなければ少なくとも１つの第１種の過誤をおかす確率＜＝1-(1-α')^C＜＝Cα'

多重比較は(3)をコントロールしようとしている。そうでもないのが，古いが新Duncan法（1955)(Duncan)や(Student-)Newman-Keuls法(S-N-K)。これらは有意差が生じやすい。Duncan を用いるなら，無補正のLSDや反復ｔ検定のほうがいい（高橋・大橋・芳賀, 1989）。Newman-Keuls法と制約付きＬＳＤ法(LSD)は４群以上の時には用いてはならない（永田・吉田, 1997）。

といわれているが，業界によってはこれらの方法を用いているようだ。その業界では何をコントロールしているのだろうか？

サンプル数が同じ，正規性，等分散の３つを満たしていたら，Tukey's honestly significance difference test(Tukey) が安心して使えます。また，信頼区間を求めるならやはりTukey です。全ての対を比較するのに一番強力なPeritz Fがないので，SPSSのなかで一番強力なのは，Ryan, Einot, Gabriel, and WelschのF(R-E-G-W F)ということになります(Toothaker, 1990)。そのほか，最小範囲を示すなどそれぞれ特徴があります。Toothaker がまとまった展望を与えます。

Toothaker(1991)に準拠して前提を満たしていないときの選択は。

(1)サンプル数が違うが，等分散。Tukey-Kramer(Tukey)かHochberg's GT2。

(2)等分散でない。liberal な面はありますが，Games-Howell。全ての比較においてもここの比較に置いてもαをコントロールしているそうです。（G-H は SPSS ときど記(32)で触れたWelch の調整をしています。）

(3)正規性からのある程度のずれなら，ほとんどの多重比較法は頑健である。

広津(1976,p139)などでも多重比較法によって採択域が違うことがわかる。どのような面が重要かを考えて検定法を採用すべきかなのもしれない。

ここでの説明は事後検定を前提にしているから，多重対比較の数は_{グループ数}Ｃ₂ である。また，単なる事後比較なら，任意の対比ができるから無限に生じる。

Tukey(1981) ではいろいろいいつつ，プロットし信頼区間を図示する方法も必要だということをいっている。

多重比較の別の説明 http://www.ec.kagawa-u.ac.jp/~hori/delphistat/index.html#multicomp もよろしく

《引用文献》
広津千尋(1976)　分散分析　教育出版

Hochberg,Y.,and Tamhane,A.C.(1987). Multiple comparison procedures. Wiley.

永田靖・吉田道弘(1997)統計的多重比較法の基礎　サイエンティスト社

高橋行雄・大橋康雄・芳賀敏郎(1989).SASによる実験データの解析　東京大学出版会

Toothaker,L.E.(1991). Multiple comparisons for researchers. Sage

Tukey,J.W.(1991). The philosophy of multiple comparisons. Statistical Science, 6, 100-116.

メニューへ　　トップへ　 (34)へ

SPSS ときど記(32)　2000/ 5/30

GLM　不適合度(/print= lof)

SPSSのGLM にまた怪しげな出力が増えた。「不適合度」(glm repeated)とか「不適合度検定」(unianova)といっている。英語ではa lack-of-fit testだそうだけど，どういう見方をするの。なんで変数ごとに出力されたりするのだろう。文献ぐらいあげてほしいね。

同じく/print=gef . General estimable function table. This table shows the general form of the estimable functions. 一体なんなの。

わかる説明をきっちりするか，参照すべき文献を挙げて欲しい。

解決編(58)を参照のこと

メニューへ　　トップへ　 (33)へ

SPSS ときど記(31)　2000/ 5/29

分散分析　反復測定の多重比較

反復測定の分散分析の球状性の前提を満たさないということから，さまざまな分析法が考えられている(SPSS ときど記(30))が，この問題は多重比較についても影響する。

　いまだ研究半ばと考えた方がいいだろう。ただ，従来のように分散が同じという前提で処理するのはまずい。分散分析は等分散であることを前提にして分析しているのだろ。というつっこみはただしいつっこみです。

反復測定ダイアログ→オプションクリック
(1)推定周辺平均の「因子と交互作用」にある，因子１とか交互作用などを「平均値の表示」に移す。
(2)主効果の比較をチェック
(3)信頼区間の調整はBonferroni を選ぶ。

以上のことをすると，ペアごとの比較という出力に，Bonferroni の調整したα水準の対応のあるt 検定（これを通常のt検定と誤解する人がいるんだけど修飾語が付いているのに注意）の結果が表示される。

上の指定をしたものを貼りつけると次のようになっている。

GLM
t1 t2 t3
/WSFACTOR = 因子1 3 Polynomial
/METHOD = SSTYPE(3)
/EMMEANS = TABLES(因子1) COMPARE ADJ(BONFERRONI)
/CRITERIA = ALPHA(.05)
/WSDESIGN = 因子1 .

Keselman and Keselman(1993)やMaxwell and Delaney(1990) は一元の場合でも高次の場合でも，被験者内効果（計画）の対比較（多重比較）は誤差項をプールしない方法（つまり，対比較する２つの分散のみを考慮する方法）を勧めている。この方法がつまり，SPSSの出力になる。SASはなんでもプールして範囲（同時信頼区間）を出そうとする（ただ単に指定がわからないだけかな？）が，SPSSはこのあたりがちがう。ただ，Keselman and Keselman では２元以上の分散分析に被験者内効果の対比較に関しても Welch またはSatterthwait の方法を書いているけどこれって被験者間効果のときだけでいいんじゃないの。

SatterthwaitやWelch の方法はSPSSのt検定の等分散を仮定しないときの出力です。SatterthwaitはSASのt検定において言及されてます。Welch はBMDP の分散分析で出力されてます。SASのGLM でも Welch の指定ができますね。SPSSではそういう人の名前は挙がってません。岩原(1965)の本ではWelchの法がt検定の近くにでています。

Welch 法は等分散が仮定できないときの分散分析に適用する方法です。別にノンパラに走らなくてもいい。

Maxwell and Delaney が強調しているのが，誤差項をプールしない対比較がMANOVAと斉合性があること。通常の分散分析と誤差項をプールしない対比較の間では，一方の有意差ありなしともう一方の有意差ありなしとはきっちり対応してこない。

ps.アンバランスのときは自由度の修正が必要なようである。
また，Keselman,H.J. らはその後，新たな展開をしているようである。

《引用文献》
岩原信九郎(1965). 教育と心理のための推計学日本文化科学社

Keselman,H.J. and Keselman,J.C.(1993) Analysis of repeated measurement. in L.K. Edwards(eds.) Applied analysis of variance in behavioral science. Dekker.

Maxwell,S.E. and Delaney,H.D.(1990). Designing experiments and analyzing data: A model comparison perspective. Wadsworth.

メニューへ　　トップへ　 (32)へ

堀　啓造ホームページへ

SPSS ときど記(31～40）

マクロ マクロの奇妙なエラーメッセージ

マクロ 正規分布・多変量正規分布の検定

分散分析 効果量シンタックス

分散分析 unbalanced mixed model

行列言語 10.0.5のバグ 文字列をsave できない

計算 結果の信頼性評価

マクロ SPSS用GEE マクロ

分散分析 固定効果の多重比較の選択

GLM 不適合度(/print= lof)

分散分析 反復測定の多重比較