メモ - 若者論を研究するブログ

b.hatena.ne.jp

孫・井上(1995) によれば，テストバイアスは次のように定義される。

テストが測定しようとしている構成概念とは別の要因のために，ある特定の受験者がテストに正答することが，他の受験者と比べて困難になり，その特定の受験者に不利な解釈が行われる”ときテストはバイアスを持つという。そしてテスト全体としてのバイアスをテストバイアス，テストに含まれる項目レベルで現れるバイアスを項目バイアスと呼ぶ。テストのバイアスが問題になるのは，社会経済的地位(socioeconomic status) の差，黒人か白人か，男性か女性かというような，所属集団の違いに起因する系統的差異が見られる場合である。

たとえば，学力調査におけるテストバイアスの一つの典型としては，言語的バイアスが挙げられる。テストで使用される言語によって，特定の母語を持つ受験者集団の成績が不利に解釈されるというバイアスである。テストの実施言語と受験者の母語が違う場合はわかりやすいだろうが，問題を翻訳する際にもバイアスは発生する。

たとえば，PISA2000で使われた問題は英語とフランス語では問題文の長さが異なっている。リード文に含まれるワード数は，英語よりもフランス語の方が12% 多くなっており，一つのワードに含まれる文字数が英語では4.83 文字となっているの対し，フランス語では5.09 文字となる。結果として，文字数の総計はフランス語の方が2 割弱長くなっているのである。もちろん，文字数だけではなく，言語概念の相違，用語の使用頻度，文法の複雑さなどによっても言語的バイアスは生じ得る。そのため，ほとんどの国際比較調査では翻訳過程について詳細な設計，分析を行っている。

ただし，テストバイアスの問題は，単にテストの技術的・客観的な問題というよりも，むしろ倫理的・主観的な側面をはらんでいる。たとえば，全体的（潜在的）な「数学の学力」が同じ男女の集団があるとして，特定の領域におけるテストでは女子の成績の方が悪いということがあるかもしれない。「数学の学力」という構成概念とは無関係に，性別によって成績が変化するならば，定義上はテストバイアスと言えるかもしれないが，もしそのテストが特定の領域における優秀な生徒を選抜する目的で使用されるならば，そのテストは妥当なものであるかもしれない(Coel and Moss 1992)。

一方で，こうした選抜自体が「女性に数学はできない・するべきではない」という社会規範を強化する可能性もある。特定領域における学力の差異が，全体的な数学の学力に敷衍されるという意味では，これもテストバイアスと呼べるだろうし，また，その領域についての学習機会や関心が減少することによって，さらに差異が拡大されるようなことがあれば社会的に対応すべき問題にもなる。これは，男女に見られる能力の差異が，仮に男女の生理的機構に負っているとした場合も同様である。集団間に見られる系統的差異がテストバイアスであるかどうか，或いはそれにどう対処すべきかという問題は，人間の倫理的・主観的判断を必要とする。

そのため「バイアス」という言葉に代わり，現在ではあるテスト・テスト項目に対する系統的集団差一般を意味する「差異項目機能(Differential Item Functioning=DIF) という，より価値中立的な用語が使われている。DIFはバイアスのようにテストやテスト項目に見られる集団差が「構成概念とは無関係な原因によって生じる不公正なもの」であるかは考慮しない。ただ，あるテスト・テスト項目に対して特徴的に付随する系統的な集団間の差をDIFと表現するのである。したがって，バイアスが存在するときは必ずDIFが存在するが，DIFが存在するからといってバイアスが存在するとは限らない。あるDIFがテストバイアス・項目バイアスであるかどうかは，そのテストが実施，解釈される文脈に依存する。と思う。詳しいことは分からん。

井上俊哉・孫媛, 1995, 「アメリカにおける差異項目機能(DIF)研究」, 『学術情報センター紀要』, 7号, pp.193-216

Coel, N. S., Moss, P. A., 2009, "Bias in test use", Linn, R. L., ed., "Educational Measurement", 3rd ed,. New York, American Council on Education/ Macmillan, pp.201-219