心理学の中では態度や意識をことばで測定することがよく行われている。アンケート調査から保険の点数になる心理検査までさまざまなことがことばで測定されている。
1 近代と測定
古代から測定をすることは重要なことであった。精確に測定するという点からすると、長さとか重さや容量の測定がまず行われている。これらは物理的な対象なので、測定は比較的容易であり、測定道具もそれぞれの文明において開発されていった。近代においては天体観測の望遠鏡のように測定道具の精度を上げることによって科学が発展していったのである(ヴァイグル Weigel,E.,1990)。
物理的なものでも測定が難しかったものがある。温度の測定は1592年ガリレオ(Galileo Galilei)が温度変化があったことを知るためだけの、目盛りのついていない温度計を作製したのが最初で、それ以来長い苦闘があった。1714年に、現在もあるような、密封された色付きアルコールの目盛りのついた温度計が開発された。温度計の開発は化学が飛躍的に発展する契機になっている。
科学的心理学以前から人の性格や知能を測定しようという考えはあった。それは、誕生日や手相であったり、顔相であったり、骨相であったり、頭の大きさであったりする。なにかを指標として測定しようと言うのである。しかし、ヘーゲル(1995)が1807年に書いた『精神の現象学』でも否定しているように、顔相や骨相で測定するというのは外面が内面を規定するという論理的誤謬を起こしているのである。なお、このような測定は民間ではまだ生き続けている。
近代の一つの側面は「精確に測る」ということから成り立っている。そして近代の申し子である心理学は精確に測定するということを大事にしてきた。
2 ことばで測ることの問題
心理学は精神物理学に見られるように実験による測定が重視されている。ブント(Wunt,M.W.)の時期に実験心理学が始まったとされる。この当時の心理学は実験と専門家の内省(内観)を重視した。素人は実験に対する単純な回答(「痛い、痛くない」、「違う、同じ」)をするだけである。素人の実験場面によらない内省報告などは信用しないし、その一つであるアンケート形式の測定はまったく考えられないことである。
精神物理学の手法を態度研究にあてはめたのがサーストン(Thurstone,L.L.)である。手法的には一対比較法の簡略版といえる。1928年のサーストンに続いて、態度をより簡単に測る尺度を1932年にリッカート(Likert,R)が、より厳格な前提にたつ尺度を1944年にガットマン(Guttman,L)が提案している(ギルフォード Guilford,J.P.,1959)。その後オズグッドら(Osgood et al,1957)がSD尺度を作成した。
サーストン尺度やガットマンの尺度はかなり厳密な制約を課している。しかし、リッカート法やSD法はそれらに比べルーズな測定法といえる。ルーズになっている原因はいくつかあるが、サーストン尺度やガットマンの尺度に比べて開放的な尺度となっていてそのことが「ことばで測るということがいい加減だ」という点をより強化することにある。この後の議論はリッカート尺度とSD尺度を中心に述べる。表1は二つの尺度の例である。
表1 リッカート尺度とSD尺度の例
(1)ことばの意味がその対象や場面によって異なる
例えば、「よい」ということばは対象によって意味を変えている。「よいナイフ」なら切れ味の鋭いこと、「よい食べ物」なら栄養があったり、おいしい食べ物のこと。この問題はSD法ではよく知られている。SD法で使われた形容語の構造は音楽とか美術品、色、国など対象によって異なっている。
(2) ことばの意味が人によって異なる
尺度というのは、だれが使っても同じものでなければならない。しかし、人によってことばの意味や中身が違うことがある。「よい」を例にすれば、ある学生にとって「よい講義」とは単位をとりやすい講義であったり、別の学生には、説明がわかりやすい講義であったり、また、適度な緊張感をもつ講義であったり、最先端の内容を含むものであったり、休講の多い講義であったりする。
(3) 評定段階の使い方が異なる
評定段階が2段階の「賛成・反対」「はい・いいえ」「あてはまる・あてはまらない」などであると、評定カテゴリ上の問題はほとんどない。しかし「どちらともいえない」「?」などを含む3段階になると問題が生じてくる。5段階、7段階になってくると、その段階のカテゴリの意味づけが違っていたり、端をつかうタイプや真ん中をよく使うタイプなどの個人差の問題も生じる。
(4) 測定にはもともと誤差がある
林(1993)によると、学歴のような客観的なものでさえ、同じ人に2回測定したときに完全一致するのが75%でしかない。このことは、単一の項目のみの尺度を使用することの危険性をはっきり示している。なるべく多くの項目を重ね合わせて指標にする必要がある。これは人が自由に答えるというところに問題があることを示している。いずれにしても信頼性が低いということである。
(5) 測定の精度を上げる
調査の際の質問文はことばの遣い方(ワーディング)を中心に多くの注意を要する(安井・原,1982;井上ほか,1995)。例えば、「あいまいな表現の質問をしない」「短くて簡潔な質問をする」という注意がある(井上ほか,1995)。ことば遣いには信頼性や妥当性にも関した点を含んでいる。どちらかというと職人芸的部分がある。一方、調査をしてみれば統計的なチェックをすることのできる側面もある。信頼性、妥当性ということで語られる部分である。ことばで測ることはいい加減なので、このような統計的チェックは必須のものである。
3 信頼性を高める
ことばで測ることは、物理的測定とは異なり、かなりの測定誤差を含んでいる。この測定誤差を小さくすることが「信頼性を高める」ことである。信頼性をひとことでいうと測定誤差の小ささのことである。つまり、2度測定しても同じような得点になるか、項目を折半したらどちらも同じような得点になるかなどによって測定する。信頼性が一定(例えばクロンバックのα係数が0.7)以上の高さでないと、測定の1回ごとの得点は信用できない。
信頼性を高めるには尺度を構成する項目数を増やすことと、尺度内の一貫性を高めることである。尺度内の一貫性の指標であるクロンバックのα係数が0.7以上であることを満たしている場合、2値型(例.はい・いいえ)では20項目、リッカート法などの多値型(例.7段階評定尺度)では10項目あれば一定の水準に達しているといえる。クロンバックのα係数が高く項目数が多いと、一つまたは少数の項目の意味を違えてとられてもその尺度全体としてはある程度の安定性をもつと期待できる(この問題は本来、「比標本誤差」なのでこういう考え方はしない)。ところで、クロンバックのα係数は尺度の一次元性を保証するものではない。つまり妥当性を測定するものではない。
4 妥当性を高める
妥当性はその尺度が測ろうとしているものを測っているかをチェックするものである。さまざまな妥当性があるが、ここでは、基準関連妥当性と論理的妥当性の2つに括り、重要なものを表2にあげる。
(1) 基準関連妥当性
基準関連妥当性はその尺度がほかの予測に役に立つかどうかを検討するものである。市販されている一般の性格検査では、この点についてのチェックが少なく、論理的妥当性のチェックにとどまっていることが多い。
併存的妥当性ではすでに尺度化されたものを基準変数としてチェックする場合が多い。多くの尺度は嘘をつかないという前提でつくられているので、虚偽のバイアスに無防備である。本人の自己評価に基づく尺度を作成する場合には、他者評価との関係を調べることも併存的妥当性の1つである。
表2 代表的な妥当性とその基本概念
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
妥当性のタイプ 基本概念
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
基準関連妥当性 基準との関連性を実証する
予測妥当性 時間的にあとのこと(基準)を予測できるか?
併存的妥当性 同時に測定したこと(基準)と関連があるか?
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
論理的妥当性 尺度が論理的に妥当か?
内容妥当性 概念全体を偏りなく網羅しているか?
構成概念妥当性 その概念をどの程度測定しているか?(実証可能)
多特性多方法マトリックス、収斂妥当性・弁別妥当性
因子的妥当性(因子分析の結果は?)
本質的妥当性(みかけの相関か?)
表面的妥当性 その概念をテストしていると見えるか?
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
(2) 論理的妥当性
ここでいう論理的妥当性は概念と尺度が対応しているかどうかを内部の整合性や外延的な意味と対応するかどうかの点からチェックするものである。基準関連妥当性が外部への対応というプラグマティックな面を問題にするのに対し、論理的妥当性は概念自体の哲学的問題を含んでいる。因子分析はよく使われているが、構成概念妥当性を調べるもので、信頼性は別に調べなければならない。
5 まとめ
ことばを用いての人の態度、意識、性格の測定は、近代とくに今世紀の重要な発展である。「精確な測定」をすることは、近代の特徴であるが、その対象である「人間」また道具である「ことば」に大きな問題をかかえている。この問題を克服し、精確さを確保するために、項目の作成法および信頼性、妥当性のチェックが必要である。これを考慮しないものは測定した結果というべきではない。