消費者調査法(第8回)
最終更新日:
counter:
(2000/6/10からの累積 )
第7回へ メニューへ 第9回へ
前回問題の答え
復習問題:信頼性、妥当性の意味を説明しなさい。
2002年6月20日課題解答
2002年5月30日課題回答例
コンビニ特にローソン弁当の班別 前回課題の回答集(曖昧な質問)
第7章 集計と検定
1 集計
1.1 回収された調査票の集計
1.2 コーディングの方法
(1)プリコード
(2)アフターコード
1.3 調査データをコンピュータに入力する時の注意
コーディングシート
データチェック.ダブルチェック
色の調査データ 色の調査データダブルチェック用
1.4 単純集計
(1)定性的なデータの単純集計
度数分布表(frequency table)
帯グラフ excel では 100%積み上げ横棒グラフ
円グラフ
2003年(第53回)学生生活実態調査の結果」(東大広報委員会)
単純集計
クロス集計例
> (表8−7 世帯年収分布)
> http://www.u-tokyo.ac.jp/gen03/kouhou/1302/21.html
> 世帯年収 〜 950万円未満 40.9%
> 950万円〜1050万円未満 17.5%
> 1050万円以上_____ 41.5%
>
(2)定量的データの単純集計 階級別統計のとりきめ(http://www.h5.dion.ne.jp/~ge3j-ari/stat/tokei.html)医療統計
エクセルでの集計
階級値 149以下、154以下、159以下、164以下、165以上がでるようにする。
東北大学excel 課題1.間隔尺度データの基礎集計 参照
ここで改めて最頻値は?
選抜高校野球出場者のデータ の身長体重の代表値および散布度を求めよ。
タレントのデータと階級値で比較して見よ。
文部省の身長体重データと比較してみるとどうなるか?
2 統計的仮説検定
2.1 統計的仮説検定の考え方
標本誤差→区間推定
『レジャー白書'92』の平成3年度日本の15歳以上の男女を母集団とした標本データ
| 母集団人数 | サンプル数 | パーセンテージ
|
男性 | 4976万人 | 1730人 | 28.9%
|
女性 | 5255万人 | 1799人 | 30.8%
|
このように大きい母集団(N)でサンプル数(n)がそれに比べて少ない時は、
p132 の
N−n
------------≒1.00
N−1
となり、95%の信頼区間での区間推定の式は次のようになる。(註:p68,(2)式)
P±1.96*sqrt(P(100-P)/n)
この式で信頼区間を求め、テキスト p132の結果 28.9±2.1 と比較せよ。
この簡略式は標本の大きさが大きく、しかもπが極端に1や0に偏っていないときに有効。
目安として芝・南風原(1990)では次の基準を挙げている
nπ(1−π)>10
これを満たさないとき。 excel なら =CRITBINOM(100,0.40,0.025)、=CRITBINOM(100,0.40,0.975) を使う。=CRITBINOMは大きな値になるとオーバーフローするので近似式を使う。
なお,critbinom を大きな数字に拡張したcritbinomex を作った。
信頼係数0.95の信頼区間 95%信頼区間
有意水準(有意水準)5% と%で言われることがあるが、αを使うときは0.05,0.01,0.001 などの確率で表すことが普通である。α=0.05として
このデータで「仕事にも余暇にも同じくらい力をいれる」と回答した比率は、母集団において男性よりも女性のほうが高いと言えるか?
総理府有識者アンケート調査 家庭内における家事・育児・介護の分担についての有識者の見解の有識者の分野によって意見が違うと言えるか?
2.2 統計的仮説検定の方法
表7.6
(1)統計的仮説検定の手順
(a)帰無仮説を設定する
帰無仮説:「比較する母集団特性値の間には差がない」
これが棄却されて、有意
(b)有意水準を決める 5% ただし、サンプルが多い場合はこれは甘いので1%
註:検定力
(c)どの計算公式を用いるか
(i)互いに従属なパーセントの差の検定
(ii)互いに独立なパーセントの差の検定
(iii)一部従属な差の検定
(i)(ii)の証明は西平(1984)にある。(iii)の導出ついては杉山(1984)にある。(iii)は導出の仕方からして、対象となる母集団とその他の母集団において差があるかを、対象となる母集団の比率と全体の比率の差から求める方法となる。
総理府世論調査 家庭内における家事・育児・介護の分担についての有識者の見解の有識者の分野によって意見が違うと言えるか?
(iv)互いに独立な平均値の差の検定
すでに表になっている場合はテキストにある方法を使っても良いが、素データをもっている場合はあまり使うものではない。
平均値のs.d が与えられていることは少ないのであまり使うことはない。ただし、学術論文ではs.d.も掲載していることが多い。
2.3 統計的仮説検定の意味と解釈
背理法を使っているので、もってまわった言い方をする。
第1種の過誤error と第2種の過誤。αは「第1種の過誤」
判決を例として
| 実は犯人 | 実は犯人でない
|
有罪と判決 | 正しい | 第1種の過誤(α)
|
無実と判決 | 第2種の過誤(β) | 正しい
|
検定力=(1−β)がある程度以上(ex. 0.80)高いときに、初めて帰無仮説を棄却しないことに意味がある。
このほか効果の大きさがある程度あるときに差に意味があるとする考えも重要。
《参考・引用文献》
井上文夫ほか 1995 よりよい社会調査をめざして 創元社(テキストといっている書)
杉山明子 1984 現代の統計3 社会調査の基本 朝倉書店
芝祐順・南風原朝和 1990 行動科学における統計解析法 東京大学出版会
堀 啓造(home page)
12月10日課題
選抜高校野球出場者のデータ(データは身長と体重である) の身長の5cmごとの階級別統計を求めよ。求めた階級別統計を報告しなさい.
最頻値はどの階級ですか.
解答例