若者論を研究するブログ

打ち捨てられた知性の墓場

MENU

全国学力テストの事前対策はなぜ許されないのか?

https://www3.nhk.or.jp/news/html/20221014/k10013858211000.html
先日、全国学力・学習状況調査(以下単に「全国学力テスト」と呼ぶ)において、石川県で「行き過ぎた事前対策」が行われていたことがNHKで報じられた。これに対するブコメの反応は二分されており、少なくない人がこの事前対策を肯定的に捉えたようである。以下にその一例を示す。

全国学力テスト 行き過ぎた事前対策 トップクラス石川県で何が | NHK

私は「別に構わない」派。学校より学習塾の授業の方がよいと小学生の時からずっと思っている。多くの場合、学科はまず「苦手でなくなる」ことが「好き」への道だ、とも確信しているし。テストで点を取る訓練を支持。

2022/10/14 12:47
全国学力テスト 行き過ぎた事前対策 トップクラス石川県で何が | NHK

これ中等教育の学生が学習をするモチベーションをテストによって確保されているという当たり前の話では?これではだめだという人は自分の学生時代を振り返ってみたら。

2022/10/15 08:16
全国学力テスト 行き過ぎた事前対策 トップクラス石川県で何が | NHK

過去問を解くのは、むしろ学力を上げるための鉄則だと思うが。過去問を解くと目的意識がハッキリする。その後の学習の集中力が上がる。自分に何が足らないかが明確になる。

2022/10/14 18:18

結論から先に言えば、こうした素朴な学習論は大規模学力調査と著しく相性が悪い。個人に対するフィードバックを大きくすることと、正確な集団統計量を計算することは基本的に両立せず(信頼性の問題)、また、学力の経年比較も不可能になるからである(比較可能性の問題)。加えて、「テストをすれば学力が上がる」という素朴な言明は、往々にして「何を測定しているのか」という問題を覆い隠す(妥当性の問題)。

もちろん、現行の制度設計において、各自治体が最善を尽くすことが否定されるわけではない。制度が糞であることに彼らの責任は無いからである。問題は、彼らの努力を肯定する論理が、正に糞みたいな現行制度が肯定される論理となっている点である。この点、以下順を追って詳しく説明していこう。

信頼性の問題

"PISA Data Analysis Manual"では、教育評価(Education assessments)には大きく分けて二つの目的があるとされている。一つは、個々人のパフォーマンスを測定することであり、この場合は各個人に関連する測定誤差を最小化することが重要となる。もう一つは、各集団のパフォーマンスを測定することであり、この場合は個々人の測定誤差を縮小することよりも、調査の対象集団の誤差を最小化することが目指される。基本的に、国が実施する、或いは国際的な教育調査は後者に属する。

つまり、各個人を評価することと、各集団を評価することはトレードオフの関係にある。その原因の一つは、このマニュアルでも説明されている通り、集団の統計量を計算する場合、個々人の単純な平均を用いるよりも、個々人の得点を何らかの分布を持つ連続変数として捉えたほうが正確な計算が可能になるからである。

ただし、この場合は個々人の得点自体は記録されているので、(測定誤差が配慮されていないとしても)その結果を個々人のパフォーマンスとして利用すること自体は可能である*1。各個人と各集団がトレードオフの関係となる、より実際的な原因は、前者を優先する場合、予備調査の実施が困難になるという点にある。

この点を説明する前に、まずは、テストを個々人の学習に利用する場合、必然的に全数調査が要請されるということを確認しておかなければならない。第一に、テストが個々人の学力に影響を及ぼすならば、一部の生徒しか利用できないのは公平性の観点から問題がある(フィードバックの問題)。第二に、抽出調査の場合、各学校の規模や地域を考慮しても対象母集団の1%も必要ではないため、テストの成績向上を目的として指導するインセンティブに欠ける(事前対策の問題)。

したがって、冒頭に引用した学習論が正しいとしても、その場合は全数調査が要件となるのである。実際に、平成22年の「全国的な学力調査の在り方等の検討に関する専門家会議」では次のような意見が出されている。

調査の視点なら抽出調査がよいが、指導の視点なら悉皆調査がよいというコンフリクトがあるが、後者は自治体に委ね、必要があれば国が支援をする形がよいと思う。
抽出調査では大きな政策は変えられるが、悉皆調査による支援をしないと、個々の先生は関心を持たない。
抽出に変わり、調査に関係ない学校は、雰囲気がだれている。学力向上が盛り上がらなくなっているという厳しい現状を考えると、4年に1回は悉皆にして、しかも教科を増やすべき。
教育学的には悉皆が望ましいと考えている。全国および県別の状況把握では抽出調査でもよいが、悉皆調査では、個々の子どもの症状が把握できる。全体としての傾向ではなく、個人レベルで把握できる。それにより、義務感、使命感を醸成することが極めて重要である。教材研究も切実感をもって指導改善することが必要。

会議では抽出調査の方が望ましいという意見も少なくなかったが、その後に実施された全国学力テストは結局全数調査となった。全数調査の場合、各テスト項目の性質を把握するための予備調査は殆ど不可能となる。皮肉なことに、個々人のテスト成績の向上に対するインセンティブが高ければ高いほど、問題が漏洩する可能性が高まり、したがって予備調査の実施が困難になる。

実際に、全国学力テストではこのような予備調査は行われていない。2006年に実施された予備調査では本調査とは全く異なる問題が出題されており、2018年に実施された英語予備調査に至っては中学校3年の全生徒がその対象となっている(当然本調査では異なるテスト項目が用いられた)。

結果として、全国学力テストの信頼性は低い。不適切なテスト項目は(発見できるとしても)本調査によって発見するしかなく、しかもその知見は次の調査に引き継がれることもないからである。これが「学力テストを指導に生かす」ことの必然的帰結である。

比較可能性の問題

テストの結果を経年的に比較することは、殆どの大規模学力調査の主要な目的の一つだが、全国学力テストではこの目的を達成することができない。複数の異なるテスト結果を同一の尺度で評価するには、古典的テスト理論に基づいたテストならば各年度で同一のテストが、項目反応理論に基づいたテストならば各年度で共通するテスト項目が必要となるが、全国学力テストは異なる年度で異なる問題しか出題されないからである。

ここで古典的テスト理論と項目反応理論について簡単に説明しておこう*2。古典的テスト理論によって運用されているテストを一言で言えば、われわれが日常的に受けているテストそのものである。つまり、全ての受験者が同一の問題を一斉に解き、その結果として得られたテスト得点から平均値や偏差値、識別力といったものが計算される。

また、それらの統計量から、テストの性質や受験者の能力、テスト項目の特性などが分析される。多くの人にとってはお馴染みのテスト形式であり、教室で行われる小テストから高校・大学の入学試験まで、日本においては基本的に古典的テスト理論によってテストが運用されている。

しかし、古典的テスト理論によるテスト得点、或いはテスト項目に対する意味付けには理論的な限界が存在する。それは受験者の性質とテストの性質が分離できないことだ。素点や偏差値、或いは通過率や識別力といった古典的テスト理論による分析は、受験者集団の特性分布と項目の特性の双方に依存している。

これを学力の比較という観点から考えるならば、二つの集団に異なるテストを与えた場合、テスト得点の変化が受験者集団の変化に起因しているのか、テスト項目の変化に起因しているのかが原理的に区別できないということだ。

したがって、古典的テスト理論において得点の意味付けが可能となるのは、同一の受験者集団が異なるテストを解いた場合、異なる受験者集団が同一のテストを解いた場合、同一の受験者が同一のテストを解いた場合に限られてしまうのである。

これが、通常のテストにおいて経年比較が難しくなってしまう大きな理由である。異なる年度で異なる受験者が解いたテストの結果を比較可能なものにするには、テストを同一の問題にしなければならない。そのためにはテスト問題を秘匿する必要がある。しかし、テスト問題を完全に秘匿するのは現実的には難しい。

第一に、受験者は当然にそのテスト項目を知っているのだから、彼らの口をふさぐ何らかの手段を用意しなければならない。少数の集団であれば口頭での注意で足りるかもしれないが、大規模な学力調査ではまず不可能である。

第二に、一部の問題が漏えいしても、出題者側にどの問題が流出したか知られていなければ対策をとることも難しい。また、漏えいした問題を特定してテストから除外しても、それを繰り返せばテストの項目プールは早々に尽きてしまう。

第三に、日本ではテスト(特に学生を対象とするテスト) は、学習のフィードバックのために利用されることが多い。たとえば、センター試験の問題は毎年新聞にも掲載され、受験生はその公開されたテストを利用して学習を進めている。いわゆる「過去問」の利用である。そのため、テスト項目を秘匿することは教育目的から反発されることもある。

他方、項目反応理論によってテストを運用する場合、各年度のテスト結果を比較するには、テスト間で共通する問題が含まれていればよい。これは単にテスト項目の秘匿が容易になるというだけでなく、測定対象である能力の幅広い領域を調査することを可能にする。たとえば、以下に示したのはPISA調査におけるブックレットデザインの一例である。

PISA2003では、全ての領域を合わせて167問が出題されているが、それらの問題は分野ごとにいくつかのクラスターにまとめられている。上の表のM,S,R,PS はそれぞれ、数学的リテラシー(Mathmatics literacy)、科学的リテラシー(Science literacy)、読解力(Reading literacy)、問題解決能力(Ploblem Solving) の四つの分野を意味している。

それぞれのブックレットには他のブックレットと共通する問題が含まれており、各受験者はこの13冊のブックレットの内、いずれか1冊のみを選択し受験することになる。こうすることで、生徒・学校側の負担を少なくしたうえで、より多くの項目を実施することが可能になるのである。

ただし、この実施形態からわかるように、重複テスト分冊法を用いたテストは集団の能力を推定することに重点を置いている。個々の受験者はテスト全体の半分も解いていないか、場合によっては全く解いていない。これは「テストの結果を指導に生かす」目的からすれば、公平性に欠けるように見えるのか、全国学力テストにおいては項目反応理論も重複テスト分冊法も導入される気配はない(議論はある)。

妥当性の問題

最後に妥当性の問題を取り上げる。が、この点に関して全国学力テストは論外の一言で済ませても良いかもしれない。何故ならば、全国学力テストの調査報告書をどれだけ見回しても測定しようとする学力の定義がなされていないからである。

本来、学力の定義というものは単にテストが測定しようとしている能力を意味するだけでなく、学力という曖昧模糊とした概念を現実に測定することを可能たらしめている、テストの根幹である。学力を定義せずに学力調査を実施することは不可能であり、とりもなおさず、学力の定義を抜きにして学力調査の結果を語ることもできない。

学力は人の身長や体重などと違い、目に見えるものであったり直接測定することができるものではない。こうした「確かに存在していると思われるが、直接的に触れることができないもの」を構成概念と呼ぶ。学力の存在は多くの人が肯定するだろうが、それは目に見える形で実体を伴うものではない。

しかし、構成概念がもたらすと思われる実体的な行動を測定し、数値化することで構成概念を間接的に測定することはできる。たとえば、学力というものは目に見えず、何らかの実体に還元することは(現時点では) 難しいが、学力テストの「点数の違い」の背景には、「学力」という潜在的な概念が存在することは多くの人に想定されているはずだ。この場合、現実のテスト得点が「学力」という構成概念を数値化したものとなる。

ただし、一概に学力といっても、その言葉が意味するところは一意ではない。たとえば、「国語の学力」といっても漢字の習熟度や文章読解能力、表現能力など様々な学力が考えられる。通常のテストでは、測定したい能力をこうしたいくつかの下位概念に分けて、その下位概念を測定する項目に対する得点から学力の分析が行われる。

たとえば、数学の学力を測定したい場合、それをいくつかの領域、「量」「空間と図形」「変化と関係」「不確実性」などに分け、それらを測定する問題項目の集合としてテストは作成される。そして、テストの結果は平均点や偏差値などによって代表されることになる。

しかし、構成概念を下位領域に分解しただけでは、学力の定義は十分ではない。学力には知識量であったり、応用能力といったように、異なる次元の学力が考えられるはずだ。或いは、問題が出題される文脈や状況に応じた学力というものも考えられるだろう。

こうした学力の様々な側面を考慮して、測定したい学力が定義される。逆に、単に「学力を測定します」としか言っていない学力調査は、まずまともなものではない。それはつまり、測定する構成概念についての妥当性を検討する作業を行っていないということを意味しているからだ。

たとえば、先述のPISAやTIMSSのような大規模学力調査では、下の図 のように学力の定義が、或いはその構造が示されている。

TIMSS2003では「数学能力」が測定されているが、「数学能力」はその内容によって「代数」「測定」「数」「幾何」「データ」というさらに小さな領域に分けられている。さらに、それらの内容領域、たとえば「数」という内容領域は、それに関連する領域として「自然数」「分数・小数」「整数」「比率・割合・百分率」といったさらなる下位領域に細分することができる。

したがって、これらの下位領域について問題を作成し、その結果から「数学能力」が数値化されることになるが、TIMSSではさらに、認知的領域として「事実と手順についての知識」「概念の利用」「ルーティン的問題解決」「推論」という4 つの能力も設定している*3。たとえば、「事実と手順についての知識」ならば、単純な四則計算ができるかどうか、数学記号の定義を覚えているかどうか、といったことが問われている。

また、PISA2003で測定されている「数学的リテラシー」は、TIMSSのそれよりも複合的なものとなっている。図では説明の便宜上、「内容領域」「プロセス」「状況」の順に矢印が伸びているが、実際にこの順番で学力が定義されているわけではない。

PISAにおける数学的リテラシーは、特定の内容領域、問題解決のプロセス、問題が出題される状況という三つの側面から学力を定義し、測定している。たとえば、「科学的な状況で出題される不確実性についての熟考」を測定するような問題が、実際のテスト項目として具体化されることになる。

長々とPISAやTIMSSにおける学力の定義を説明したが、国学力テストにおいてはこのような定義は一切示されておらず、それに対する一般の反応も薄い。その原因の一端を担っているのは、われわれの「学力」という言葉に対する素朴な自明視だろう。

「学力テストをすれば学力が上がる」という素朴な言明はこの自明視に拍車をかける。勉強をすれば学力が上がるという因果関係は確かなように思えるからだ(実際に確かである)。それによって「学力」の内実は棚上げされ、莫大な予算と教員や生徒の労力を空費して全国学力テストは今年も元気に実施されるのである。

*1:PISAの場合はPVsを利用しているため個々人の実際の得点は不明である。

*2:より詳細な説明は次の記事を参照してほしい。https://hajk334.hatenablog.jp/entry/2022/02/21/094657

*3:作図の都合上、関連領域の下に認知的領域を置いているが、実際にはそれぞれの内容領域について、各認知的領域を測定する問題が出題される。そのため、各関連領域についてすべての認知的領域に対応した問題が出題されるわけではない。