若者論を研究するブログ

打ち捨てられた知性の墓場

MENU

ゆとり教育とは何だったのか―俗説に対する批判的検討 5.教育測定とはなにか

前章では,主に国内で実施された学力調査の問題点について説明した。これらの学力調査は,西村らの調査のように調査の設計自体が稚拙なものであったり,刈谷調査のようにその結果の示し方や解釈に問題が見られた。

ただし,いずれの学力調査にも共通する,より根本的な問題は,これらの学力調査が代表性と経年比較の問題を解決できていないことだ。その原因は前章で述べた通り,日本国内には全国の児童・生徒の学力を広範に調査した学力調査の蓄積が存在しないことにある。

この問題点を解決するのが,90年代以降盛んになった大規模国際学力調査である。これらの調査は,国ごとの得点の違いを分析することがその目的の一つであるため,質・量ともに受験者が一国の代表性を確保するのに十分なサンプリングが行われている。また,これらの調査で使われている「項目反応理論」と呼ばれるテスト理論は,各年度におけるテスト結果の経年比較を容易なものにしている。

本章では,こうした大規模国際学力調査,なかんずく,その結果が教育政策に大きな影響を与えたとされるPISA(Programme for International Student Assessment:生徒の学習到達度調査)を例に,学力調査で測定されている「学力」とは一体何を意味しているのか,これらの大規模学力調査で使われている項目反応理論とは一体どういった理論なのか,また,その理論によって何が可能となるのか,という「学力調査のブラックボックス」(Stewart 2013)を説明する。

ただし,本章では学力調査に使われる手法を具体的に説明すると言っても,詳細な説明はもっぱら補遺に示し,本論では簡単な概念的説明にとどめている。そのため,本章の後半で行うPISA調査のデータを用いた分析は若干理解しづらいかもしれない。その場合は都度補遺を参照してほしい。

5.1 「学力」とは何か

学力調査の結果を正しく解釈するための第一歩は,その学力調査がどのように設計されているのかを知ることである。学力調査の設計は,テストの目的,テストの対象者,測定したい能力,問題項目形式(多肢選択式か自由記述式かなど),実施形態(ペーパーテストかコンピュータ上で行うものか実技か),解答に必要な知識や技能,問題項目の難易度の程度,知識・技能・難易度の組み合わせや配分される問題項目数,制限時間,実施時の環境条件や解答上の注意,など多岐にわたる(日本テスト学会 2010 p.21)。

これらの要素は,いずれもテストの信頼性及び妥当性を保証するために必要な手続きである。そのために,テストの基本設計はテストの内容に関わる専門家だけでなく,テストの専門家による議論によって決定されなければならない。現実にテストを実施する際には上記の諸条件に留意する必要がある。こうしたテストの基本設計(テスト仕様) のうち,特にPISAやTIMSSで理解されていないと思われるのは,「テストが測定したい能力」,つまり「学力」の定義である。

「学力」という概念は,それだけではあまりにも広汎な概念である。そのため,大抵の学力調査では学力という概念の,特定の側面を明らかにすることを目的として実施される。たとえば,学力テストの典型例である大学入学試験においても,センター試験は学習指導要領に示されるカリキュラムの到達度を,個別の大学によって実施される二次試験はその大学に「ふさわしい(大学の講義についていけるか,大学の発展に貢献することができるかなど)」学力を持った受験者を選抜している。

しかし,学力調査の結果が公開され,議論される段階ではこうした学力の定義が問題とされることは殆どない。本来,学力の定義というものは単にテストが測定しようとしている能力を意味するだけでなく,学力という曖昧模糊とした概念を現実に測定することを可能たらしめている,テストの根幹である。学力を定義せずに学力調査を実施することは不可能であり,とりもなおさず,学力の定義を抜きにして学力調査の結果を語ることもできない。

学力は人の身長や体重などと違い,目に見えるものであったり直接測定することができるものではない。こうした「確かに存在していると思われるが,直接的に触れることができないもの」を構成概念と呼ぶ。学力の存在は多くの人が肯定するだろうが,それは目に見える形で実体を伴うものではない。しかし,構成概念がもたらすと思われる実体的な行動を測定し,数値化することで構成概念を間接的に測定することはできる。

たとえば,学力というものは目に見えず,何らかの実体に還元することは(現時点では) 難しいが,学力テストの「点数の違い」の背景には,「学力」という潜在的な概念が存在することは多くの人に想定されているはずだ。この場合,現実のテスト得点が「学力」という構成概念を数値化したものとなる。

ただし,一概に学力といっても,その言葉が意味するところは一意ではない。たとえば,「国語の学力」といっても漢字の習熟度や文章読解能力,表現能力など様々な学力が考えられる。通常のテストでは,測定したい能力をこうしたいくつかの下位概念に分けて,その下位概念を測定する項目に対する得点から学力の分析が行われる。たとえば,数学の学力を測定したい場合,それをいくつかの領域,「量」「空間と図形」「変化と関係」「不確実性」などに分け,それらを測定する問題項目の集合としてテストは作成される。そして,テストの結果は平均点や偏差値などによって代表されることになる。

しかし,構成概念を下位領域に分解しただけでは,学力の定義は十分ではない。学力には知識量であったり,応用能力といったように,異なる次元の学力が考えられるはずだ。たとえば,球の表面積を求めさせる問題では公式を暗記していても解くことができるが,微分積分の知識を応用して解くこともできる。もし,この二つの学力を違う学力として定義したいならば,それに伴い問題文も変化させなければならない。

或いは,問題が出題される文脈や状況に応じた学力というものも考えられるだろう。たとえば,三角比の値を覚えていれば45度の直角三角形の比が分かる。しかし,水平線から45度の角度に太陽が見えるとき,鉄塔に30mの影ができていても鉄塔の長さは分からないかもしれない。本質的に同じ問題であっても,出題される文脈や状況によって正答率は変化する。

こうした学力の様々な側面を考慮して,測定したい学力が定義される。逆に,単に「学力を測定します」としか言っていない学力調査は,まずまともなものではない。それはつまり,測定する構成概念についての妥当性を検討する作業を行っていないということを意味している。たとえば,TIMSSやPISAでは図5.1,図5.2 のように学力の定義が,或いはその構造が示されている。


TIMSS2003では「数学能力」が測定されているが,「数学能力」はその内容によって「代数」「測定」「数」「幾何」「データ」というさらに小さな領域に分けられている。さらに,それらの内容領域,たとえば「数」という内容領域は,それに関連する領域として「自然数」「分数・小数」「整数」「比率・割合・百分率」といったさらなる下位領域に細分することができる。

したがって,これらの下位領域について問題を作成し,その結果から「数学能力」が数値化されることになるが,TIMSSではさらに,認知的領域として「事実と手順についての知識」「概念の利用」「ルーティン的問題解決」「推論」という4 つの能力も設定している*1。たとえば,「事実と手順についての知識」ならば,単純な四則計算ができるかどうか,数学記号の定義を覚えているかどうか,といったことが問われている。

また,PISA2003で測定されている「数学的リテラシー」は,TIMSSのそれよりも複合的なものとなっている。図5.2では説明の便宜上,「内容領域」「プロセス」「状況」の順に矢印が伸びているが,実際にこの順番で学力が定義されているわけではない。

PISAにおける数学的リテラシーは,特定の内容領域,問題解決のプロセス,問題が出題される状況という三つの側面から学力を定義し,測定している。たとえば,「科学的な状況で出題される不確実性についての熟考」を測定するような問題が,実際のテスト項目として具体化されることになる。

学力の定義という点において,PISAとTIMSSという二つの調査の特徴を挙げると,PISAでは経験主義的な学力を測定しようとしているのに対して,TIMSSでは系統主義的な学力を測定している。たとえば,PISAでは調査の目的が「義務教育修了段階の15歳児が,それまでに身につけてきた知識や技能を,実生活のさまざまな場面で直面する課題に,どの程度活用できるかを測る」とされているのに対して,TIMSSでは「初等中等教育における児童・生徒の算数・数学及び理科の教育到達度を,国際的な尺度によって測定する」とされている。

二つの調査で測定されているものが同じ「数学の学力」であっても,その内容は異なっているということである。実際に,PISAとTIMSSでは,国の順位にはあまり相関がみられない。いずれの調査でも高得点をとっているのは,日本や韓国といった一部のアジア諸国だけである。

5.1.1 留意点1―調査の実施時点

PISAやTIMSSにおける学力の意味内容を確認したところで,この時点で説明できる日本の学力低下に対する留意点を二つ挙げておこう。一つ目の留意点は「(2003年調査以降の)『PISA 受験者』と『ゆとり世代』は同じものではない」ということだ。

前節で確認したように,PISAもTIMSSも義務教育期間,ないしは義務教育修了段階という特定の時点における学力を測定しているに過ぎない。すなわち,PISAやTIMSSの受験者が各国の第4学年,第8学年,或いは15歳児のことを指しているのに対して,「ゆとり世代」は「ゆとり教育を受けた世代」として定義されている。

つまり,PISAやTIMSSにおける成績の落ち込みをそのまま「ゆとり世代」に当てはめてしまうのは,15歳以降の学力変動を全て無視してしまうことになる。1章や2章で確認したように,ゆとり教育における学習内容の削減の多くは,「義務教育段階における一時的な削減」である。仮に,ゆとり教育による学習内容の削減が得点低下の原因だとするならば,義務教育修了以前と以後で学力が変化することは十分に予想できる。

加えて,PISAやTIMSSのように現役の学生を対象に行うテストでは知識の定着や剥落を測定しにくいという面がある。ゆとり教育の目的の一つは,基礎・基本の徹底によって知識の定着を目指すことにあった。仮にこのねらいが達成されていたとしても,PISAやTIMSSの結果からそれを読み取ることは難しい。結果として,義務教育後期ないしは義務教育修了段階では,「ゆとり教育」と「非ゆとり教育」で最も学力差がついているように見える可能性がある。

この仮説を検討できるのが,PISAと同じくOECDが実施した『OECD 国際成人力調査(PIAAC)』である。PIAACは16歳から65歳の成人を対象として,社会生活において成人に求められる能力のうち,読解力,数的思考力,ITを活用した問題解決能力の3分野のスキルの習熟度を測定するとともに,スキルと年齢,学歴,所得等との関連を調査している(文部科学省 2013)。日本においては,平成23年8月から平成24年12月にかけて第1回調査が行われた。

PIAACで測定されている学力,特に読解力に関してはPISAとほぼ同様の定義が行われている。文科省が公開しているPISA2009とPIAAC2012の概要から学力の定義を引用してみよう。

PISA2009:読解力とは「自らの目標を達成し,自らの知識と可能性を発達させ,効果的に社会に参加するために,書かれたテキストを理解し,利用し,熟考し,これに取り組む能力」である。


PIAAC2012:読解力とは「社会に参加し,自らの目標を達成し,自らの知識と可能性を発展させるために,書かれたテキストを理解し,評価し,これに取り組む能力」である。

PISAとPIAACの読解力調査で測定されている学力概念は,ほぼ同一といってよい。また,PIAACでは幅広い年代を対象にして調査を実施しているため,疑似的ながらPISA調査を受験した「ゆとり世代のその後」を追跡調査することができる。加えて,調査対象が成人であり,質問もインターネットを介した対面によるものであることから,無回答率が低く抑えられることも期待できる。PISA やTIMSS を通じて「明らかになった日本の学力低下」の中でも,最も落ち込みが大きかったのはPISA2003・PISA2006 における「読解力の低下」だった。この調査を受験した世代はその後どうなったのか。

表5.1は,PISA調査とPIAAC調査を回帰分析した際の決定係数を示している。多少不正確な説明になるが,決定係数とは,PISA調査の結果がPIAAC調査の結果をどれだけ説明できているかの指標だと思えばいい。決定係数が1ならば,散布図は完全な直線となり,PISA 結果によってPIAACの結果が100%説明できることになる。

まずは,PISA2012とPIAAC調査の決定係数を見てみよう。読解力,数的思考力の決定係数はそれぞれ0.166,0.092とあまり大きくない。子供の学力によって大人の学力を直線的に説明することは難しいということだ。

それでは若年層はどうなっているのか。表5.1の2行目から5行目は,PISA2000からPISA2009の4回のPISA調査を受験したそれぞれの世代の結果と,その世代のPIAAC調査における結果の決定係数を計算している。

こちらでは,決定係数の値は先ほどよりも大分大きくなる。PISA調査が実施されるのは義務教育修了段階なので,これは義務教育段階の学力が,10代後半から20代の若年層の学力に一定の影響を与えていることを示唆している。

また,受験者の年齢が上がるにつれて決定係数が小さくなっていくという傾向も見られる。つまり,義務教育修了段階の学力の影響は,年齢を下るにつれて小さくなっていくということである。

それでは実際に,それぞれの世代が受験したPISAとPIAACの結果がどのように関係しているのかを見てみよう。図5.3から図5.6はPISA2000からPISA2009の結果と,そのPISA調査を受験した世代のPIACCの結果の散布図である。横軸にPIAAC調査の得点を,縦軸にPISA調査の得点をとっている。いずれの世代においても,日本はPISA調査と比較して,PIAACでは相対的に順位を上げている傾向が確認できる。




そうした傾向が一層鮮明に見られるのは,PISA 調査において「著しい読解力の低下」が見られたPISA2003,PISA2006を受験した世代である。PISA2003では,日本の読解力は14位(統計的に有意差がないのは9~16 位),PISA2006では15位(統計的に有意差がないのは10~18位) であった。しかし,PIAAC調査を受験したPISA2003,PISA2006年世代は,いずれもフィンランドに次ぐ2位であり,1位のフィンランドとはどちらも有意差がない(p > .05)。

また,この傾向は「数的思考力」についても同じことがいえる*2。数的思考力について,日本のPIACC調査の順位は,PISA2000世代から順に,2位(26~28歳),3位(23~25歳),2位(20~22歳),5位(17~19歳) となっているが,いずれも1位の国と有意差はない(p > .05)。

もちろん,PISAとPIAACでは構成概念が類似しているといっても,両者の間で同一の問題が出題されているわけではない。したがって,両者の結果を等化することは原理的に不可能である。特に,PISA調査の数学的リテラシーとPIAAC調査の数的思考力はほぼ別物と言ってよい。

しかしながら,PISAとPIAACの比較調査では「学校卒業後の学習経験が学力に大きな影響を与えること」が示唆されていること,そして実際に,「PISA 調査で読解力が低下していた世代も,PIAAC では1 位グループとなっていること」,この点は留意しておくべきだろう。

(補足:横軸を揃えてないので分かりづらいが,各世代の読解力得点はPISA2000>PISA2003>PISA2006>PIS2009となっており、年齢と供に得点が上昇するという順当な結果となっている。世代間の得点差を見てもPISA2003・PISA2006世代での大きな読解力低下は見られない)

5.1.2 留意点2―学力の規定要因

もう一つの留意点は,学力の規定要因についてである。ゆとり言説においては,学力低下の原因といえばすなわちゆとり教育であり,その他の議論が考慮されることは殆どない。しかし,当たり前のことではあるが,学力を規定するのは学校教育だけではない。

子どもの学力には,親の学歴,職業,年収,或いは生徒の性別,年齢,居住地,或いは,学習塾や図書館,学習センターの数など様々な社会的・経済的・文化的要因が規定要因として考えられる。2000年代以降これらの要因が全く変化していないことなどあり得ない。

実は,PISAやTIMSSといった大規模な学力調査は,単に子どもに対して学力テストを解かせているだけではない。その子どもが置かれている社会的・経済的・文化的環境に対して(もちろん学校の環境に対しても) 質問紙調査を実施することで,何がその国において学力の規定要因となっているのかを明らかにすることを目的の一つとしている。

特に,PISA調査では「アセスメント」,つまり,能力の到達度はかることよりも,それを多面的に評価することに主眼を置いている。前節で見たように,PISAにおける学力は社会生活と密接に結びついている。子どもの生活条件が考慮されるのは必然だろう。

学力低下」の議論にしろ,「学力格差」の議論にしろ,ゆとり教育言説の流行は学力を複数の要因から多角的に議論する視座を失わせてしまった。学力が低下したという結果が出ればすぐさま教育制度の変更に飛びつき,学力格差が増大したという結果が出れば国のエリート教育,落ちこぼれ切り捨ての結果(或いは愚民政策とも)だと騒がれる。そして国も世論に右往左往して,一貫した教育政策などはとても望める状況ではない。

(以下省略)

5.2 古典的テスト理論と項目反応理論

大抵のゆとり言説では,PISAやTIMSSにおける学力の意味は無視されている。しかし,より一層深刻なのはこれらの調査で採用されている設計・分析手法に対する無理解である。そこで本節では,テストを運用する際の背景理論となる「テスト理論」について説明する。テスト理論には主に,古典的テスト理論と呼ばれるものと項目反応理論と呼ばれるものの二つが存在する。

5.2.1 古典的テスト理論とは何か

古典的テスト理論によって運用されているテストを一言で言えば,われわれが日常的に受けているテストそのものである。つまり,全ての受験者が同一の問題を一斉に解き,その結果として得られたテスト得点から平均値や偏差値,識別力といったものが計算される。また,それらの統計量から,テストの性質や受験者の能力,テスト項目の特性などが分析される。多くの人にとってはお馴染みのテスト形式であり,教室で行われる小テストから高校・大学の入学試験まで,日本においては基本的に古典的テスト理論によってテストが運用されている。

古典的テスト理論では,テストの平均点と標準偏差から得点の意味付けが行われる。標準偏差とは得点分布の「バラつき」のことである。詳細は補遺に示すとして,ここでは標準偏差の意味を簡単に確認しておこう。たとえば,5人が受験した平均50点のテストがあるとしよう。それぞれの得点は40,45,50,55,60点である。

まず,テストのバラつきの指標としては,個々の得点と平均点の差という統計量が考えられる。これを偏差と呼ぶ。このテストの偏差は-10,-5,0,5,10 となる。しかし,個々の受験者の偏差を足し合わせていっただけではバラつきの指標にはならない。偏差には正負の符号があるため,足し合わせていくと0になってしまうからだ。

そこで,それぞれの偏差を2乗したものを足し合わせることで,そのテストのバラつきを表現することができる。これを偏差平方和と呼ぶ。このテストの偏差平方和は100+25+0+25+100=250 となる。しかし,偏差平方和は受験者の数を増やしただけ大きくなってしまうので,受験者当たりの平均をとらなければならない。このテストの偏差平方和の平均は250/5=50 となり,これがそのテストのバラつきを表現することになる。これを分散と呼ぶ。

しかし,分散は偏差の2乗を使っていたため,その単位も2乗になっている。また値も大きくなっているために,そのままでは直感的にデータのバラつきを把握しにくい。そこで分散の平方根をとったものを標準偏差と呼び,この値がそのテストの平均"的"なバラつきを表現することになる。たとえば,平均が50,分散が50のテストならば,その標準偏差は7.07... となり,そのテストは50点という平均点から平均的に7点程度はばらつくテストだということができる。

この標準偏差を使うことで,あるテストの得点に意味付けを行うことができる。たとえば,平均点は同じ50点だが標準偏差が異なる二つのテストA,Bがあるとしよう。テストAの標準偏差は5,テストBの標準偏差は15である。また,二つのテストを受験した集団は同じとする。このとき,ある受験者がテストAでは60点,テストBでは65点をとった。果たしてどちらのテストの方が「良い成績」だったのだろうか。

それを判断するためには,二つのテストの尺度を同じにしてやればいい。それぞれのテスト得点から,その平均点を引き,標準偏差で割れば二つのテストの尺度は一致する。これを標準化と呼ぶ。標準化の理屈は,平均値と標準偏差の計算式から容易に理解できる。まず,平均点を引くという作業はそのテストの平均点を0に調整する作業だ。平均が50点であるテストにおいて個々の受験者の得点から50を引けば,そのテストの平均点は当然0になる。次に,それを標準偏差で割るというのは,そのテストの標準偏差を1に調整する作業である。

もう一度,標準偏差の計算式を思い出してみよう。あるテストの個々の得点にαを掛けると,そのテストの平均点はα倍される。個々の得点もα倍されているのだから,その偏差もまたα倍されている。分散は偏差の2乗を使っていたのだからα^2倍,標準偏差はその平方根なのだからα倍である。つまり,個々のテスト得点をα倍するということは,そのテストの標準偏差をα倍するということだ。したがって,あるテストを,そのテストの標準偏差で割ってやれば,そのテストの標準偏差は1になる。

これで,二つのテストを平均が0,標準偏差が1という同一の尺度上で表現できるようになった。これを標準化と呼ぶ。なおテスト得点の分布が正規分布している場合,正規分布の形状と位置は平均と標準偏差という二つのパラメータによってのみ決定されるので,二つのテスト得点の分布は完全に一致することになる。テスト得点は必ずしも正規分布するわけではないし,また正規分布でなければ標準化に意味がないというわけでもないが,実際のテスト得点は正規分布に近似されることが多いので,以降の説明もテスト得点は正規分布していることを仮定する。

それでは,テストAにおける60点と,テストBにおける65点という得点を標準化しよう。テストA の標準偏差は5だったので,60点を標準化した得点は(60-50)/5=2点である。また,テストBの標準偏差は15だったので,65点を標準化した得点は(65-50)/15=1点である。したがって,テストBで65点だったことよりも,テストAで60点だったことをこの受験者は喜ぶべきだろう。標準化した得点が1点ならば,その受験者は上位16%に位置しているが,標準化した得点が2点ならば上位2%に位置していることになる。

5.2.2 古典的テスト理論の限界

こうして標準化された得点などを用いてテストの結果は解釈される。二つのテストの平均値が同じでも,標準偏差の違いによって標準化された得点は異なるし,平均値より上,或いは下の得点だったとしても標準偏差が大きければ,平均値との実質的な差はないかもしれない。標準得点さえわかれば同一の受験者が異なるテストを解いた場合でも,異なる集団が同一のテストを解いた場合でも,テストの結果を有意味に解釈することができる。

しかし,古典的テスト理論によるテスト得点,或いはテスト項目に対する意味付けには理論的な限界が存在する。それは受験者の性質とテストの性質が分離できないことだ。素点や偏差値,或いは通過率や識別力といった古典的テスト理論による分析は,受験者集団の特性分布と項目の特性の双方に依存している。これを学力の比較という観点から考えるならば,二つの集団に異なるテストを与えた場合,テスト得点の変化が受験者集団の変化に起因しているのか,テスト項目の変化に起因しているのかが原理的に区別できないということだ。

したがって,古典的テスト理論において得点の意味付けが可能となるのは,同一の受験者集団が異なるテストを解いた場合,異なる受験者集団が同一のテストを解いた場合,同一の受験者が同一のテストを解いた場合に限られてしまうのである。

これが,通常のテストにおいて経年比較が難しくなってしまう大きな理由である。異なる年度で異なる受験者が解いたテストの結果を比較可能なものにするには,テストを同一の問題にしなければならない。そのためにはテスト問題を秘匿する必要がある。しかし,テスト問題を完全に秘匿するのは現実的には難しい。

第一に,受験者は当然にそのテスト項目を知っているのだから,彼らの口をふさぐ何らかの手段を用意しなければならない。少数の集団であれば口頭での注意で足りるかもしれないが,大規模な学力調査ではまず不可能である。

第二に,一部の問題が漏えいしても,出題者側にどの問題が流出したか知られていなければ対策をとることも難しい。また,漏えいした問題を特定してテストから除外しても,それを繰り返せばテストの項目プールは早々に尽きてしまう。

第三に,日本ではテスト(特に学生を対象とするテスト) は,学習のフィードバックのために利用されることが多い。たとえば,センター試験の問題は毎年新聞にも掲載され,受験生はその公開されたテストを利用して学習を進めている。いわゆる「過去問」の利用である。そのため,テスト項目を秘匿することは教育目的から反発されることもある。

5.2.3 項目反応理論

この古典的テスト理論の限界を克服するのが項目反応理論(Item Response Theory=IRT) である。IRT では「異なる受験者が異なるテストを受験した場合」でも,両者のテスト得点を比較することが可能になる。直感的には不可能だとしか思えない。なぜそうした比較がIRT では可能になるのだろうか。本節ではそれを説明しよう。なお,ここで説明するのは項目反応理論の概要である。IRT モデルの導出,母数の推定,母数の等化などについては補遺を参照されたい。

まずは,項目反応理論と古典的テスト理論の概念図を示そう。図5.7がそれである。

古典的テスト理論では,「受験者の性質」と「項目の性質」が混在した「テスト項目への反応」,或いはその総和としての「テストの結果」を受験者の能力や項目の性質の尺度値としていた。この場合は,受験者か項目のどちらかを固定しなければ,その尺度値を比較することはできない。これが古典的テスト理論の限界である。

しかし,項目反応理論では,受験者の項目への反応を手掛かりにして,受験者が持っている目に見えない「学力」という概念をより直接的に測定しようとする。そして受験者の潜在的な学力(潜在特性) と,その正答率から項目の性質も決定されることになる。言葉だけではわかりにくいと思うので,図で示してみよう。図5.8は項目特性曲線(Item Characteristic Curve=ICC) と呼ばれるものである。

ICCのグラフでは横軸に受験者の潜在特性(学力) を,縦軸に正答確率を配している。項目の性質はこのICCによって記述されることになる。ICCは受験者の潜在特性が高くなるにつれて,右肩上がりに正答確率が高くなっていく。また,難しい項目であればICCは右にずれ,易しい項目であれば左にずれる。それが項目特性(困難度) の違いということだ。ここでは,全てのICCの傾きが同じになっているが,これは1母数モデル(ラッシュモデル,1PLモデル) と呼ばれる確率モデルの場合である。

1母数モデルというのは,項目の困難度というパラメータだけを使ったモデルということだ。潜在特性の値によって項目の性質が変化するような場合*3には識別力というパラメータが使われるし,偶然の正答を考慮したい場合は当て推量パラメータが使われる。それぞれICCの傾きと切片のようなものである。しかし,ここでは説明を簡単にするため,また本稿で分析するPISA調査ではラッシュモデルという1母数モデルが使われているため,1母数モデルを例にしてIRTを説明する。

図5.8のICCで注目してほしいのは,横軸が受験者の潜在特性となっていることだ。ここで疑問に思う人もいるかもしれない。そもそも項目反応理論における潜在特性と,古典的テスト理論におけるテストの得点は何が違うのだろうか。どちらも,受験者の学力を数値化したものであるのは変わらないように思える。しかし,受験者の潜在的な学力の分布と,その受験者のテスト得点の分布は根本的に異なったものだ。たとえば,受験者の潜在特性が正規分布だとしても,テスト得点が正規分布するとは限らないし,潜在特性が正規分布ではないとしても,テスト得点は正規分布することがある。

つまり,テスト得点の分布は,そのテストが測定しようとしている「学力」の分布とは異なるものであるということだ。この二つを混同している人は多い。こちらの記事ではセンター試験を例にした簡単なシミュレーションを示しておいた。その結果からは,学力が正規分布している集団の「下位集団」「中位集団」「上位集団」,いずれにおいても,その得点分布が正規分布に近づいている事を確認できる。

さて,項目反応理論では,受験者の項目に対する反応から受験者の潜在特性を推定しているため,受験者の能力が項目の困難度と混ざってしまうことがない。それでは,受験者の潜在特性はどうやって推定しているのだろうか。受験者の潜在的な学力といっても,それだけではつかみどころがない。何らかの仮定,或いはモデルを考える必要がある。それこそがICCなのである。

ICCとは要するに,(条件付き) 正答確率を受験者能力の関数として表現したものだ。そしてIRTでは,標準正規分布の累積分布関数をICCとして利用している。さらに,それをロジスティック関数を利用して近似したもの
p(\theta)=\cfrac{1}{1+exp(-(\theta-b))}\tag{1}
これがIRTではICCとして利用される*4。なお,\thetaは受験者の潜在特性であり,bは項目の困難度である。また,exp(x)とはネイピア数ex乗という意味だ。ここでは深く考える必要はない。要は,この式こそが図5.8のICCであり,IRTにおける確率モデルだということだ。たとえば,受験者の潜在特性を1として,その受験者が困難度0の問題を解くならば,その正答確率は\theta=1b=0を上式に代入して0.7310586......と具体的に計算することができる。

そして,bが大きくなればICCは右にずれるし,小さくなれば左にずれることになる。1母数モデルの場合は困難度bによってのみ,つまり曲線の平行移動によってのみICCは変化する。また,この式からは項目困難度の定義も導くことができる。たとえば,項目の困難度が1であるというのは何を意味するだろうか。注目してほしいのは,(1) の式では潜在特性と困難度の差によってのみ正答確率が表現されているところだ。\theta=1, b=0の場合でも,\theta=2, b=1の場合でもその正答確率は変わらないのである。そして,θ=bのとき,その正答確率は必ず0.5になる。

つまり,項目困難度が1であるというのは,その項目を五分五分の確率で解ける受験者の潜在特性が1であるという意味なのである。そのため,項目困難度と潜在特性の単位は一致し,直感的な解釈が可能となる。なお,\theta=bのときに,p(\theta)=0.5になるのは,識別力パラメータを使う2母数モデルでも変わらない。識別力を使う場合は(1) 式の(\theta−b)の部分に識別力パラメータをかけるだけだからだ。

さて,今,ICCによって,潜在特性と困難度の二つの値が分かれば,その項目の正答確率を導けるようになった。ここまでくれば,潜在特性と困難度を推定することができる。たとえば,ある受験者が全4問のテストに対し,[1100]という反応をしたとしよう。ただし1は正答を,0は誤答を意味している。また,この4問の項目困難度が全て0だったとしよう。そうすると,項目困難度の値と(1) 式を使うことで,[1100]というパターンが観測される確率を計算することができる。つまり,p(\theta|b_{1})×p(\theta|b_{2})×p(\theta|b_{3})×p(\theta|b_{4})と書くことができる。

潜在特性の推定とは,この式が最も大きくなるように,言い換えれば[1100]というパターンが最も観測されやすい\thetaを見つけることである。たとえば,\theta=−0.1のとき[1100]というパターンが観測される確率は
p(\theta)=\cfrac{1}{1+exp(-(-0.1))}=0.4750208,\ 1-p(\theta)=0.5249792\tag{2}
なので,0.475^2・0.525^2=0.062となる。また,\theta=0.1のときも同様に0.062となる。そして,察しているかもしれないが,項目困難度が0である4つのテスト項目に,[1100]という「五分の」反応を最も高い確率で返すのは\theta=0のときであり,この時の確率は6.25%となる。したがって受験者の潜在特性は0と推定されるのである。

通常のテストでは受験者の母数も,項目の母数もわかっていないことがほとんどなので,上記の計算ほど単純ではないが,その場合は\thetabについてそれぞれ偏微分して0とおいた方程式を解くだけである。

5.2.4 テストの等化

ここまでの説明では何やら狐につままれたような気持になるかもしれない。本来は数値化されていない学力という概念がどうして0になったり,1になったりするのだろうか。この数字には一体どんな意味があるのか。

もちろん意味などない。前節ではたまたま潜在特性が0となったが,この数字自体に実質的な意味が込められているわけではない。ICCとして利用する関数を変えても推定値の値は変化するし,受験者集団の学力分布が変化しても,やはり推定値は変化する。より学力の高い集団がテストを解けば,項目困難度はより低く推定されるだろうし,より学力の低い集団がテストを解けば,項目困難度はより高く推定されることになる。

それでは古典的テスト理論と同じではないかと思われるかもしれないが,そうはならない。(1) 式をもう一度見てほしい。ある受験者のある項目に対する正答確率は,その受験者の潜在特性\thetaとその項目の困難度bの差によって決定されていた。そうすると,\theta,b の値をそれぞれ\theta+l,b+lと表現しても(1) 式による正答確率は変化しないことになる。つまり,ICCは項目によって一意に決定されるのではなく,任意に平行移動することができるのである。あるテストに割り当てられた尺度は「仮の」尺度であり,その尺度を変換しても確率モデルの値は変化しない。

この性質が,二つの異なるテストを等化する上で決定的に有用な性質となる。少し抽象的で不正確な物言いをすれば,受験者の潜在特性や項目の特性は,それ自体として「本質的で普遍的な量」を持っているはずである。仮にそれをαとすれば,学力の高い集団が解いても,低い集団が解いても,項目困難度はαのままで変わらないし,また,難しい項目を解いても,易しい項目を解いても,受験者の潜在特性はαのままで変わらないはずである。

したがって,ある共通の問題,或いは共通の受験者の母数に二通りの値が計算されたとするならば,その違いは単なる「見た目」の違いであり,本質的には同じものであるはずだ。つまり,二通りの母数について共通の尺度を与えることができれば,その値は一致するはずである。これがIRTにおける等化の原理だ。たとえば,図5.9は集団AにテストA(項目1,項目3,項目4) を,集団BにテストB(項目2,項目3,項目5) を与えたときのICCである。

ここで注目するのは,テストAとテストBで共通項目となっている項目3だ。項目3の困難度は,集団Aでは-1.0,集団Bでは1.0となっている。しかし,項目3の困難度は本来は同じものであるはずだ。また,1母数モデルの場合,尺度を変換したときのICCの移動は平行移動だけが許されていた。そこで,テストBの項目困難度からそれぞれ2を引けば,テストAとテストBにおける項目3のICCは一致し,項目2の困難度はテストAの尺度上で困難度-1.5,同様に項目5の困難度はテストAの尺度上で0と表現できる。ここで等化に使った-2という値は潜在特性にも同様に使うことができる。テストBで\theta=1.0だった受験者もテストAの尺度では\theta=−1.0となるのである。

つまり,二つの異なるテストの間に,共通の項目,或いは共通の受験者が一部でも含まれていれば,それを手掛かりにして二つのテストを等化することが可能になるのである。前者を共通項目デザイン,後者を共通受験者デザインと呼び,PISAやTIMSSなどの大規模学力調査では大抵,共通項目デザインによってテストが運用されている。

5.3 PISA のテスト設計

「異なる受験者が異なるテストを解いた場合」でも,テストの等化が可能になるというIRTの性質は,PISAやTIMSSなどの広範な学力を測定する大規模学力調査においては極めて有用である。

測定する学力が広汎なものであるほど,それを測定するテスト項目も膨大なものになる。PISAでは,その年の主要分野となる領域の問題は100問以上が出題され,その他2分野と合わせた問題数は200問近くになる。また,TIMSSでも数学(算数)・理科のそれぞれで200問ほどが出題されている。合計400問だ。これだけの問題数を全ての受験生に解かせるのは現実的には不可能である。そこで,PISA やTIMSS といった大規模学力調査では「重複テスト分冊法」と呼ばれる手法が使われている。

重複テスト分冊法では,テストで使われる全ての問題をいくつかのブックレットに分割し,そのブックレットのいずれか1冊を受験者は解くことになる。それぞれのブックレットに含まれる問題は,少なくとも1回以上は共通項目として別のブックレットにも現れる。このブックレット間の共通項目を利用して,全ての問題に対し等化が可能となる。たとえば,表5.2はPISA2003におけるブックレットデザインの例である。

PISA2003では,全ての領域を合わせて167問が出題されているが,それらの問題は分野ごとにいくつかのクラスターにまとめられている。上の表のM,S,R,PS はそれぞれ,数学的リテラシー(Mathmatics literacy),科学的リテラシー(Science literacy),読解力(Reading literacy),問題解決能力(Ploblem Solving) の四つの分野を意味している。PISA2003では,数学的リテラシーが主要分野(main domain) であったため,数学的リテラシーは七つのクラスター(M1~M7) にまとめられ,その他の分野はそれぞれ二つずつのクラスターに(R1,R2 など) にまとめられている。

各受験者は,この13冊のブックレットの内,いずれか1冊のみを選択し受験することになる。こうすることで,生徒・学校側の負担を少なくしたうえで,より多くの項目を実施することが可能となる。

ただし,この実施形態からわかるように,重複テスト分冊法を用いたテストは集団の能力を推定することに重点を置いている。個々の受験者はテスト全体の半分も解いていないか,場合によっては全く解いていない*5。そのため,個人のテスト結果をそのまま個人の能力の推定値と見なすには誤差が大きくなってしまう。

加えて,PISAやTIMSSでは受験者能力の推定値としてPVs(Plausible Values) というものを利用している。これは,受験者の「ありうる能力の分布」から,受験者の能力値をランダムドローした値だ。こうすることで集団の能力値をよりよく推定できるのである。そのため,各受験者に割り当てられるPVsは,その受験者の能力値を意味してはいないことに注意しなければならない。

また,単純に平均正答率を比較することにも注意が必要である。もともと,PISAやTIMSSは平均正答率で比較することを前提に設計されているわけではないからだ。たとえば,重複テスト分冊法を利用したテストの場合,ブックレット効果と呼ばれるものが存在する。特定のブックレットがより簡単に,或いはより難しくなってしまう現象である。IRT を利用したテスト得点はこのブックレット効果を考慮して計算されるが,平均正答率の計算では考慮されていない。他にも,部分点や無回答の扱い方など様々な点において,PISAやTIMSSで計算されるテスト得点と平均正答率は異なった性質を持っている。詳細はPISAの報告書(OECD 2014a p.148) などを参照してほしい。

もともとPISAやTIMSSはIRTを前提としてテストを設計している。一方,正答数や正答率を学力の指標とするのは,古典的テスト理論の話である。古典的テスト理論の場合は,同一の問題を同一の形式で,全ての受験者に解かせるのだから,正答率を比較することにも意味がある。が,PISAやTIMSSは古典的テスト理論で運用されているわけではない。テストの結果を正しく解釈したいならば,まずはそのテストが依拠しているテスト理論を理解しておかなければならない。

5.4 何が「低下」したのか
5.4.1 有意性検定

それでは,PISAやTIMSSではどういった指標を使って学力の変化を論じているのだろうか。もちろん,その一つには「テストの得点」が挙げられる。たとえば,PISA2000における日本の読解力得点は平均522点,PISA2003なら平均498点である。ただし,PISAやTIMSSにおけるテスト得点は,古典的テスト理論のように単なる正答数の総和ではない。これらの点数は,推定された受験者の潜在特性を標準偏差が100,平均が500となるように調整したものだ*6。そのため,これらのテスト得点こそがPISAやTIMSSにおける「学力」の指標ということになる。

それでは,このテスト得点をどのように比較したらいいのだろうか。単に数字の大小だけで学力の変化を議論することができるのだろうか。おそらく,多くの人は「有意差」という言葉を一度は聞いたことがあるはずだ。しかし,その言葉の意味するところを正確に理解している人は少ないかもしれない。そこで本節では,「学力低下」を論じる前に,点数の変化が何をもって有意と表現しうるのかを確認しておこう。ただし,本節の説明も詳細は補遺に示し,ここでは検定の考え方について簡単に触れるにとどめる。

「二つの集団の平均点に差はある・ない」といった仮説を検証する作業を「検定」と呼ぶ。それが統計学の手法によって行われるならば,統計的仮説検定や統計学的検定などと呼ばれることになる。ここで重要なのは,「差がある・ない」といった命題が確率の基準によって判断されるということだ。たとえば,ある仮説が正しいと仮定した場合に,その仮定のもとで導かれる確率的モデルと現実のデータの間に不整合が見られる場合には,その仮説を棄却するという判断が合理的と言える。これが統計学的仮説検定の考え方である。この説明では回りくどく感じると思うので,実際のPISA平均点を使った図で簡単に説明してみよう。

図5.10は,PISA2000の読解力平均点の分布とPISA2003の読解力平均の分布,PISA2000とPISA2003の平均点の差の分布である。括弧の中はそれぞれの分布の平均と標準偏差*7である。

「平均点の分布」とは何ぞや,と思われるかもしれない。現実に得られた平均点はそれぞれ522点と498点という一つの値だ。しかし,何事にも誤差というものはつきものである。もし,「真の平均点」というものが存在するならば,現実に得られる得点は「真の平均点+誤差」という形になっているはずだ。図5.10の分布はこの真の平均+誤差の分布なのである。3.9,5.2という値は真の平均\mu_{2000},\mu_{2003}から3.9点,5.2点程度は平均的に誤差が生じることを意味している。ただし,真の平均である\mu_{2000}\mu_{2003}を便宜上522点と498点としてグラフを描いているが,実際の真の平均は未知である。

平均点が一定の誤差をもってバラつくならば,平均点の差の分布はどうなるのだろうか。実は,ある統計量が正規分布に従うとき,その平均の和と差も正規分布に従うことがわかっている。しかも,その標準偏差\sqrt{統計量1の標準偏差^2+統計量2の標準偏差^2}という非常にわかりやすい形となる。もちろん,平均は二つの統計量の和ないしは差である。したがって,PISA2000とPISA2003の平均点の差は平均が\mu_{2000}-\mu_{2003}標準偏差\sqrt{5.2^2+3.9^2}=6.5正規分布に従うことになる。

ここからが具体的な検定の手順となる。まず,検定を行うには検定するべき仮説を立てなければならない。この仮説には通常,「PISA2000 とPISA2003 の『真の』平均点には差がない」といったように,差がない,或いは効果がないといった仮説を立てる*8。これを帰無仮説と呼び,それとは反対の仮説,「PISA2000 とPISA2003 の『真の』平均点には差がある」という仮説を対立仮説と呼ぶ。多くの調査では,複数のデータに何らかの差があること,つまりは対立仮説を実証するために行われている。それにも関わらず,こうした回りくどい仮説を立てるのは,対立仮説は無数に存在するため,どの対立仮説を検定すればいいのかがわからないからだ。

検定とは,この帰無仮説が正しいと仮定した場合の「平均点の差の分布」に対して,現実に得られた「24点」というデータがどの程度起こりにくいのかを確率的に評価し,その結果によって帰無仮説を棄却するのか,しないのかを判断するプロセスなのである。まず,平均点の差をX として,それを標準化しよう。平均点の差という統計量の平均は\mu_{2000}-\mu_{2003}標準偏差は6.5である。しがって,その標準化量は
\cfrac{X-(\mu_{2000}-\mu_{2003})}{\sqrt{5.2^2+3.9^3}}\tag{3}
となる。標準化しているのだから,この統計量は平均0±1の間に約68%,±2の間に約95%の値が含まれることになる。これは確率と読み替えてもいいだろう。68%の確率で±1の範囲に,95%の確率で±2の範囲に含まれるということだ。重要なのはここからである。もし,「PISA2000とPISA2003の平均に差はない」という帰無仮説が正しいならば,\mu_{2000}-\mu_{2003}=0となる。図5.10で言えば右側の二つのグラフが同じ平均点を軸として重なり合っているということだ。したがって,(3)の式は$\cfrac{X}{6.5}という単純な式になる。

これに現実の平均点差である24点をいれると,24/6.5≒3.7となる。この得点は標準化されているので,これ以上に極端な点差がでる確率は0.02%程度である。つまり,帰無仮説が正しいという仮定の下では,24点という点差は非常に起こりにくいものと判断せざるを得ない。

したがって,「平均点に差はない」という帰無仮説は棄却され,このとき「平均点の差には有意な差がある」と表現されるのである。ただし,注意してほしいのは,0.02%という確率は帰無仮説が正しい確率ではないし,99.98%というのは対立仮説が正しい確率でもないということだ。

また,0.02%という数字は差の大きさを表しているわけではないということにも注意してほしい。仮に,この確率が0.00001%だったとしても,それだけでは差の大きさを知ることはできない。実際にはほんのわずかな差であるかもしれないし,逆にとてつもなく大きな差であるかもしれない。ここで計算した0.02%という数字のように「現実に得られたデータ以上に極端な値が出る確率」を一般にp値と呼ぶが,p値の解釈については以下のASA声明を参照してほしい。

5.4.2 PISAとTIMSSにおいて「低下」した領域

こうした手続きを経て,「学力の変化は統計学的に見て有意である」と言うことができるのである。それでは実際に,PISAとTIMSSではどの領域が低下したのかを確認しよう。何度か述べたように,PISAやTIMSSにおける「学力」は融通無碍に語られている。そこでは調査における学力の定義が無視されるどころか,時として「数学」「理科」といった領域の枠すら無視されることがある。しかし,PISAやTIMSSでは,全ての領域において学力低下が見られたわけではない。本節はまずそのことを確認しよう。

ただし,その前にPISA調査については補足しなければならないことがある。PISAでは各年度の調査ごとに,重点的に調査される主要分野(main domain) が切り替わっているが,経年比較が可能となるのは,その分野が主要分野となった後のことである。たとえば,PISA2000では読解力が主要分野となっているため,以降の調査は全て相互に比較可能となっているが,数学的リテラシーが主要分野となったのは2003年調査,科学的リテラシーが主要分野となったのは2006年のことであるので,それ以前との比較はできない。

なぜそうなるのかと言えば,PISAにおける主要分野はその後の調査における基準としての役割を果たすからである。たとえば,PISAでは平均が500,標準偏差が100となるように点数が調整されているが,この点数はその分野が初めて主要分野となった調査に限られる。つまり,正確に平均が500,標準偏差が100となっているのは,PISA2000の読解力,PISA2003の数学的リテラシー,PISA2006の科学的リテラシーのみであり,その他の分野は,この基準から平均,標準偏差が計算される。したがって,主要分野となる前の年度と比較をする場合,報告書の数値をそのまま使うことはできない。

また,調査の主要分野となった領域はその後の経年比較に耐えうるように,テストの枠組みやテストデザインが慎重に設計されることになる。逆に言えば,主要分野となる前のテストはいわば予備調査であり,調査の枠組みが十分に開発されておらず,後にテストデザインが変更されることもある。たとえば,数学的リテラシーは2003年に主要分野となり,「量」「空間と図形」「変化と領域」「不確実性」の4領域が調査され,以後の調査も同様であるが,PISA2000では「空間と図形」「変化と関係」の2領域しか調査されていない。これらの理由から,主要領域となる前の結果を直接的に比較することはできない。そのためPISAの報告書でも,後述する「Linking Error」は主要分野となった年とそれ以降の調査のものしか報告されていない。

これらのことを考慮して,PISA・TIMSSで日本の点数が有意に変化したものをまとめると以下の図のようになる。ただし,有意水準は0.05である。つまり,標準化した検定統計量X-1.96 \leqq X \leqq 1.96の範囲を満たさないとき,「有意差がある」と判断されることになる。 また,PISAの検定は得点の標準誤差としてLinking Errorというものを使うため,単純な平均点の差の検定結果とは異なっている。

(これを書いていた当時はPISA2018・TIMSS2019の結果が発表されていなかったため、最新年度を含むPISA・TIMSSの検定結果はそれぞれ以下の記事を参照してほしい)


一般に思われているように,PISAやTIMSSでは全ての領域で学力が低下したことを実証したものではない。まずは,科学的リテラシーないしは理科を見てみよう。おそらく,ゆとり教育で最も影響を受けたのは理科教科だろう。ゆとり教育で削減された学習内容の削減が一時的なものであることは2章でも述べたが,理科については高校での教科選択によって,削減された内容がそのままになってしまう可能性がある。98年改訂でも,高校に「理科基礎」「理科総合A」「理科総合B」という中学程度の生物・物理・化学をまとめた教科が必修として存在しているが,一部の高校では受験対策のためにこれらの教科を履修していない可能性がある。

そのため,もし中学校段階で学力低下が見られるとすれば,その学力低下は高校に上がっても解消されない可能性がある。それでは,PISAとTIMSSではゆとり教育が始まってから,理科の学力は低下したのだろうか。表5.6,表5.9を見る限り,PISA・TIMSSともに中学校段階での学力低下は確認できない。TIMSSでは小学校4年で2003年と2007年の点数が有意に低下しているものの,中学2年生のTIMSS2007,TIMSS2011では有意な点数の変化はない。TIMSSが小学4年生と中学2年生の成績を4年ごとに調査しているのは,小学4年生の学力を追跡調査するためでもある。つまり,TIMSS2003,TIMSS2007 で有意に点数が低下した小学生も,彼らが中学2年生になった4年後には有意な点数の変化がなくなっているということである。

しかし,PISA調査ではPISA2003以前との比較ができないので,学力低下論者からすれば納得できないかもしれない。PISA2000とPISA2003の比較に限ればLinkingErrorが計算されているので,念のため検定を行っておこう。PISA2000の平均点は550点,PISA2003の平均点は548点,それぞれの標準誤差は5.5,4.1,Linking Errorは3.112 である(ただし全てPISA2000を基準とした尺度)。検定統計量は0.266であり,有意差はない。

なお,先ほど述べたようにPISA2006では科学的リテラシーが主要分野となったため,PISA2000,PISA2003との比較はできないが,PISA2003との暫定的(interim) なLinking Errorは報告されているので,計算自体は可能である。PISA2006における日本の科学的リテラシー得点はロジットスケールで0.512,PISA2000のスケールに変換すると525点である。計算方法については,"PISA 2006 Technical Report",pp246-247 を参照のこと。

しかし,PISA2006では出題領域が大きく拡大されているため,PISA2003とPISA2006の共通スケールは,二つの調査の共通項目に基づいてのみ計算されている(OECD 2009 p.246)。PISA2003とPISA2006の共通項目22問のみから計算される得点は,PISA2003では547点,PISA2006では548点(OECD 2007 pp.369-370),それぞれの標準誤差は4.4,4.1,Linking Errorは4.963 である。検定統計量は-0.128であり,有意差はない。なお,PISA2000とのLinking Errorは暫定的な値も報告されていないため比較はできない。

次に数学的リテラシーないしは数学を見てみよう。TIMSSでは理科の傾向とは反対に,小学校では有意な点数の変化が見られないものの,中学校ではTIMSS2003以降に有意な点数の低下が見られる。また,PISAでは,2003年から2006年にかけて有意な低下が見られるが,PISA2012では有意な点数の上昇となっている。こちらも念のためPISA2000とPISA2003の検定を行っておこう。「空間と形」では,PISA2000 の平均点が565点,PISA2003の平均点は553 点,それぞれの標準誤差は5.1,4.3,Linking Errorは6.008である(ただし全てPISA2003を基準とした尺度)。検定統計量は1.34であり,有意差はない。また,「変化と関係」では,PISA2000の平均点が536点,PISA2003の平均点も536点である。PISA2000の得点はPISA2003の尺度上の数値なので,検定する必要もないだろう。有意差はない。なお,PISA2006以降の調査とPISA2000調査とのLinkingErrorは報告されていない。

最後に読解力を見ていこう。なお,TIMSSを実施しているIEAは読解力調査としてPIRLSという調査を実施しているが,日本は参加していないため,読解力の変化を議論できるのはPISA調査だけである。これまでにも何度か言及したが,PISAやTIMSSにおいて最もインパクトのある「学力低下」は読解力の低下である。PISA2003では参加国32か国のうち,10ヵ国で読解力得点の低下が見られたが,日本の24点という低下はその中でも最も大きなものだった。また,2006年調査でも読解力得点は上がらず,日本の読解力得点はOECD平均と同じ水準になっている。しかし,PISA2009,PISA2012では読解力の大幅な向上が見られ,PISA2000と同程度の水準となっている。

本章の冒頭で,PISAやTIMSSの結果には一定の留保をつける必要があると述べた。そうした留意点については今までにもいくつか述べてきたが,以降の節では特に「PISA調査における著しい読解力の低下」に焦点をあてて具体的な分析を行っていきたい。日本の読解力の変化はPISA調査の中でも特異なものとなっているため,PISA調査の設計者を含む何人かの研究者からも,この現象についていくつかの指摘がなされている。本章ではそれを具体的に確かめてみようという趣旨である。

ただし,PISA2000とPISA2003の比較において,多くの国で有意な読解力得点の変化が起こったことについて注意が必要であることは,そもそもPISAの報告書でも言及されている。PISA2009の報告書ではこの「不安定性」の原因として,テスト項目の出題順が変更されたこと,問題ユニットからいくつかの項目が削除されたこと,PISA2000の問題クラスターから新しい問題クラスターが作られたことなどを挙げている。これらの変更はすべて項目母数の推定にも影響を与える。したがって,PISA2000とPISA2003の得点を等化した結果は,不確か(unclear) なものである(OECD 2012 pp.215-216)。

これはPISA2000とPISA2006との比較においても同様である。PISA2000では読解力問題が129問出題されているが,PISA2003とPISA2006で出題されたのは,この129問のうち同一の28問であり,テストのフレームワークの変更も行われていない。また,PISA2009では再び読解力が主要分野となったため,テストのフレームワークが変更されているが,その目的の一つにはPISA2000のフレームワークと整合性を持たせることが挙げられている(OECD 2009 p31)。

日本の得点の変化はPISAの全体的な傾向と一致している。PISA2000とPISA2003の比較では15か国の得点が有意に変化し,うち10か国が低下,5か国が上昇している。PISA2003とPISA2006の比較では7か国の得点が有意に変化し,うち5か国が低下,2か国が上昇である。そして,PIS2006とPISA2009の比較では14か国の得点が有意に変化し,うち4か国が低下,10か国が上昇となった。PISA2000からPISA2003にかけて得点が低下し,続くPISA2006では変化が小さく,そしてPISA2009では得点が上昇するというのは,PISAの読解力調査の傾向,そしてテスト設計変更の時期と一致するのである。この点は留意しておくべきだろう。

5.5 国際学力調査の問題点

ようやく本章の本題である。ここで説明するのは,ゆとり言説のご神体として崇め奉られているPISAやTIMSSといった国際学力調査は,「科学的に証明された真実」ではないということだ。PISAやTIMSSのように高い信頼性・妥当性を備えた調査でも,その方法論にはいくつかの問題点を抱えており,したがってその結果の解釈には一定の留保が付されなければならない。

PISAやTIMSSの方法論については,教育測定を専門とする研究者からもいくつかの疑義が提出されている。(Ercikan and Koh 2005; Goldstein 2004; Huang 2010; Kreiner and Christensen 2013; Mazzeo and Davier 2009; Wuttke 2007; Xu 2009)。しかし,本稿で行うのは,それらの疑義をもってしてPISAやTIMSSが役立たずの調査であると結論付けることではない。そもそも,これらの問題点は調査の設計者自身にも認識されている(Gebhardt and Adams 2007; Monseur and Berezner 2007; Wu 2009)。

社会的・文化的・経済的背景がまるで異なる国の児童・生徒について,「学力」という曖昧かつ広範な概念を,経時的に調査しようというのである。問題がないわけがない。もとより,何らかの調査や実験が完璧なものであることなどありえない。そこには一定の留保をつける余地が必ず存在する。そして,PISAやTIMSSといった国際学力調査において,その余地は一般の人が思っているよりも少しばかり大きなものであるということだ。たとえば,PISA調査の設計者でもあるGebhardt and Adams(2007) やWu(2009) は次のように述べている。

こうした学力変化の傾向は,研究者や政策立案者,そして報道関係者からの広汎な注目を集めている。しかし,ある国における時系列的な成績の変化が,教育システムの変更によるものなのか,それとも特定の調査手法を使った結果(methodological artefact) であるのかは確認されなければならない。本稿は,傾向推定のための新しい手法について,それらの手法が国ごとに異なる影響を与えていることを注意深く,そして詳細に分析した。その結果が示しているのは,全ての国について共通のアプローチをとること(現行のPISA調査におけるアプローチ) は,傾向を推定する際にミスリーディングをもたらしうるということである(Gebhardt and Adams p318  引用者訳 括弧内は引用者注)。

本稿は,大規模学力調査がどの程度その目的を達成することができているのかを,批判的に検討する。こうした検討が求められるには二つの理由がある。一つ目の理由は,大規模学力調査で使われる方法論のいくつかの仮定が間違っていることが明らかになってきたからだ。これらの誤りは妥当でない結論を導くか,少なくとも,結果には注意を付さなければならない。

二つ目の理由は,メディアの報道によって,政治家を含む公衆の大部分が大規模学力調査の結果を誤って引用したり,利用するからである。最近数か月の間に,政府が国内の学力調査による学校の学力レベルを公表する計画をもっていることを,オーストラリアのメディアが報じた。このような学力調査の結果は,非専門家によって容易に,誤って解釈されるだろう。なぜならば,調査のプロセスは複雑であり,結果の解釈には極めて慎重な態度が要求されるからである(Wu 2009 p8 引用者訳)。

本章の目的は,今引用した指摘を改めて強調することにある。これほどPISAやTIMSSの結果が膨大な文献に引用されながら,その方法論についてほとんど言及がされない現状は常軌を逸している。しかも,その「現状」が10 年以上も続いているのである。(2019年にようやく発売されました!)PISAやTIMSSについて何の批判的検討もせずに引用する人間の一部*9は,これらの調査結果が何か科学的な真理であると認識している節がある。

もちろんそうではない。たとえば実際に,Gebhardt and Adams(2007) やMonseur and Berezner(2007) ではPISA2000からPISA2003にかけての「日本の読解力の著しい低下」にも有意な差は確認できない(Gebhardt and Adams pp318-319;Monseur and Berezner pp.332-333)。また,同様にWu(2009) も日本の読解力低下を事例にして,PISAにおける差異項目機能を説明している。PISAやTIMSSが提示しているのは一つの分析手法とその結果である。唯一絶対の方法などはないし,可能であれば複数の手法を試してみるべきだ。そのためにこそ,PISAやTIMSSでは生徒の解答データをも万人に公開しているのである。

PISAやTIMSSなどの学力調査の結果は,「科学的に証明された真実」ではない。そうではなく,これらの結果は「科学的に検証される推論」として扱われなければならない。検証方法は一つではないし,引き出された推論には更なる検証がまっている。そうでなければ,PISAやTIMSSなどの優れた学力調査すらも学力低下論の箔にしかならないのである。

ただし,上掲の「PISAの結果まとめ」にも書いているように,表面的な得点推移だけを見ても「ゆとり教育による学力低下」は支持されない。この仮説を支持するのはPISA2003における読解力得点の低下のみであり、本章の内容はほぼ全てこの現象を説明するために費やされている

5.5.1 等化における誤差

国際学力調査の問題点と一口に言っても,そのすべてに言及することは難しい。テスト問題の開発と構成から,受験者のサンプリング,テストの具体的な実施方法からテストの採点,尺度の作成と等化,テスト得点以外の各種の指標の推定,そして最終的な報告書の作成と,そこから結論を引き出す作業,これらのプロセスの全てにおいて,そのプロセス固有の問題が生じ得る(Wu 2009)。また,測定する能力の一次元性の仮定や,項目困難度の不変性の仮定などを含むIRTモデルの適合度の検討や,DIFの取扱い,等化の方法によって変動する誤差の計算など,学力調査で利用される数理モデル自体の問題点もある。

これらの問題点すべてに言及すること,またその代替案を提案することは筆者の能力を超えている。そこで本稿では,「学力低下」,特にPISA2000とPISA2003の間に見られた「読解力の著しい低下」という現象を中心に,PISA調査における問題点,ひいては国際学力調査の結果を解釈する際の留意点を述べるにとどめたい。すなわち,本稿では「等化における誤差」の問題と,異なる年度のテストを比較する際の「公平性」の問題を取り上げる。まずは等化における誤差の問題である。

5.5.1.2 Linking Errorとは何か

5.4節で説明したように,異なる年度間のPISAやTIMSSの得点が有意に変化したかどうかは
-1.96\leqq \cfrac{\bar{X}_{A年}-\bar{X}_{B年}}{\sqrt{SE_{A年}^2+SE_{B年}^2}} \leqq 1.96\tag{4}
の式を使えば判断することができる。ただし,SEというのは標準誤差(Standard Error) のことである。標準誤差というのは,簡単に言えば標本平均の標準偏差のことだ。たとえば,PISA2003の読解力平均は498点,その標準誤差は3.9となっているが,これはPISA2003の平均得点が3.9点程度は真の平均から典型的にバラつくということを意味している。

標準「誤差」という言葉は,真の平均と推定値との誤差を意味している。たとえば,PISA調査で490点をとったA君と,495点をとったB君の得点差である5点というのは単なる得点のバラつきである。しかし,それらの得点を平均していった498点という値は真の平均に対する推定値となっている。もし,その推定値と真の平均点がずれているのならば,そのずれは単なるバラつきではなく「誤差」ということになる。これが標準誤差の意味である。

さて,PISAやTIMSSのような大標本調査では,標本集団の平均点とその標準誤差が分かれば有意性検定を行うことができる。しかし,TIMSSの場合は上の式で問題はないのだが,PISAの場合には以下のような式が使われている。
-1.96\leqq \cfrac{\bar{X}_{A年}-\bar{X}_{B年}}{\sqrt{SE_{A年}^2+SE_{B年}^2+Linking Error_{AB}^2}} \leqq 1.96\tag{5}
見てわかるように,PISA調査における有意差の検定ではLinking Errorというものが分母の√の中に登場している。そのため,PISAでは通常の検定と比較して検定統計量が小さくなり,その分,帰無仮説を棄却する基準は厳しいものとなっている。このLinkingErrorとは一体何なのだろうか。ここでもまた詳細は補遺に譲るとして,結論から言ってしまおう。Linking Errorとは共通項目のサンプリング誤差である。たとえば,以下の表を見てほしい。

これはPISA2000とPISA2003の読解力調査における,共通項目28問のうち最初の7問についての表である。表には,PISA2000のデータのみから計算した項目の困難度と,PISA2003のデータのみから計算した項目の困難度,およびその差を載せてある。また,それぞれの項目困難度は28問の平均困難度が0になるように調整されている。したがって,二つの項目困難度は既に等化されている。

しかし,両者の値は一致していない。もちろん,上記の項目困難度は推定値なので真の困難度と必ずしも一致するわけではない。ただし,その場合は受験者の数を増やしてやれば推定値は安定する。PISAでは10万人以上の人間が受験しているのだから,その推定値の誤差もかなり小さくなっているはずである。しかし,上記の表では,差の絶対値が最も大きなもので0.394ロジットにもなっている。これはPISAのスケールに換算すれば30点以上の差である。

実は,IRTでは「項目困難度の不変性」という仮定を置いているものの,ブックレットの構成や問題が出題される位置,或いはカリキュラムの変更などによって,この仮定は崩れることが知られている(Michaelides and Haertel 2004; Monseur and Berezner 2007;Michaelides 2010)。項目困難度が変化すれば,それによって受験者の成績も変化する。そして,表5.10からもわかるとおり,それぞれの項目困難度の差は,項目ごとに異なっている。「R055Q01」ではPISA2000の受験者にとって「より簡単」な問題になっているし,「R067Q01」では逆に,PISA2000の受験者にとって「より難しい」問題となっている。

つまり,「共通項目の選び方」によって受験者の能力の推定結果が異なってしまうのである。その意味で,Linking Errorとは共通項目のサンプリング誤差を意味している。そのため,いくら受験者の数を増やしても,共通項目の数を増やさない限りLinking Errorは小さくはならない(Michaelides and Haertel 2004)。また,受験者のサンプリングの際に,その代表性に注意しなければならないのと同様に,共通項目のサンプリングもまた,測定したい領域をできるだけ幅広くカバーするように出題されなければならない(Sheehan and Mislevy 1988)。

実際にLinking Errorを計算してみよう。今知りたいのは「困難度の差の平均」という統計量が,平均的にどの程度バラつくかである。つまり,困難度の差の標準誤差である。これがLinking Errorだ。したがって,困難度の差の分散を\sigma^2,共通項目の問題数をnとすると,Linking Errorの計算式は
Linking Error=\sqrt{\cfrac{\sigma^2}{n}}\tag{6}
となる。実際のPISA2000とPISA2003の結果を等化する際のLinking Errorは0.047486/28 = 0.041182 と計算される。つまり,困難度の差の平均は0.041程度,平均的にバラつくということだ。それでは,この困難度の変化を得点に換算してみよう。5.2節で見たように,IRTでは受験者の潜在特性と項目の困難度の差によってのみ正答確率が決定されるため,困難度の変化はそのまま潜在特性の変化であると見なすことができる。現実に得られたデータは変化しないのだから,困難度が変化すれば,そのまま潜在特性も変化するということだ。したがって,PISA2003で0.041ロジット困難度が変化するというのは,PISA2003の受験者の潜在特性が0.041ロジット変化するということでもある。

ただし,ここで得られた0.041ロジットという値を,そのままPISA2003の標準誤差に反映させることはできない。先に説明したように,PISAの得点スケールは平均が500,標準偏差が100である。また,ロジットスケールの基準となるのはPISA2000のスケールなので,0.041ロジットという困難度のバラつきは,1/1.1002*0.041182*100=3.7431となる。1.1002というのはPISA2000の潜在特性(PVs) の標準偏差である。

5.5.2 日本のLinking Error

このLinking Errorは従来のIRTを利用したテストでは無視されることが多かった。しかし,その影響は決して小さなものではない。特に,大規模な学力調査であるほど,Linking Errorを無視することは誤った推論を導く原因になりやすい。先ほども述べたように,Linking Errorは項目のサンプリング誤差であるため,受験者の数を増やしても小さくはならない。一方で,受験者の数を増やせば平均得点の標準誤差は小さくなっていく。もう一度,(5) 式を見てもらえばわかるが,標準誤差が小さければ小さいほど,検定統計量の値は大きくなるのである。それはつまり,有意差が検出されやすくなるということだ。

受験者の数を増やせば増やすほど標準誤差は小さくなっていき,それに従い「有意差がある」と判断される検定統計量も小さくなっていく。しかし,受験者の数を増やしてもLinking Errorの大きさはそのままなので,相対的にその影響が大きくなるのである。帰無仮説が正しいのに,それを棄却してしまう誤りを第一種の誤りと呼ぶが,大規模学力調査でLinking Errorを無視することは,それだけ第一種の誤りを犯す危険性を高くしてしまう。つまり,「平均点に差はない」という仮説が正しいにも関わらず,それを棄却してしまう誤りである。

そこで,PISA調査のような大規模調査では,経年比較を行う際にLinking Errorを使うのである。しかし,Linking Errorには決まった計算方法があるわけではない。たとえば,(6)式はPISA2003では使われていたものの,それ以降の調査では使われていない。PISAで使われているLinking Errorの計算式にはいくつかの問題点があったからだ。PISA2006以降のLinking ErrorはMonseur and Berezner(2007) の指摘によって,クラスターの分散や部分点問題の重みを考慮した計算式を利用している。

Monseur and BereznerはLinking Error について,他にもいくつかの問題点を挙げているが,本稿で注目するのは「国ごとのLinking Error」である。PISAではLinking Errorを計算する際,各国から均等に抽出したサンプルを用いて計算し,その結果得られた一つの値を各国共通のLinking Errorとして用いている。しかし,Linking Errorが各国共通であるという証拠は存在しない。

たとえば,Monseur, Sibbern and Hastedt(2007)はIEAの読解力調査を再分析した結果,Linking Errorが国ごとに大きく異なっていることを報告し,Linking Errorは各国ごとに計算されなければならないとしている。実際に,Monseur and Berezner(2007) はPISA2000とPISA2003における読解力調査のLinkingErrorを計算しているが,それによれば日本の読解力低下にも有意な差は見られない。

先ほども述べたように,Linking Error はカリキュラムの変更によっても発生する。ゆとり言説では,学力低下の原因をもっぱら「ゆとり教育」というカリキュラムの変更に求めているのだから,日本のLinking Errorを計算しておくのは不合理ではないだろう。日本のLinking Errorの値はOECD平均と比較して大きく異なっている可能性がある。実際に計算してみよう。

表5.11は日本の受験者の解答データのみから推定した,PISA2000とPISA2003の読解力問題における項目困難度である。推定にはRのTAMパッケージ(Kiefer et al. 2016)を利用した。IRT モデルは1PLモデル(部分得点モデル) であり,母数の推定法として周辺最尤推定法を用いている。また,各受験者に対するウェイトとしては(W_FSTUWT)を利用した。

表5.11 から計算される日本のLinking Errorはロジットスケールで0.066,PISAスケールで6.0となった。ただし,Linking Errorの計算式はPISA2012のものである(OECD 2014b)。確かにOECD平均よりは大きくなっているが,それでも有意差が消えるほどではない。Monseur and Berezner が報告している日本のLinking Error は13.85となっており2倍以上の値だ。

この違いはテスト項目と国の交互作用(item by coutry interaction) を考慮していないことが原因だと思われる(Monseur and Berezner pp.329-333)。テスト項目と国の交互作用とは,簡単に言えば国によって項目の困難度や成績が変化する度合いが異なるということだ。Monseur and Bereznerはジャックナイフ法と呼ばれる手法を使ってLinking Errorを計算しているが,ジャックナイフ法を使った推定ではある項目(ユニット) を取り除いた時の各国の平均点の変化からLinking Errorを推定する。たとえば,ユニット1を取り除くとOECD平均は4.14 点上昇するのに対し,日本は9.76点上昇する。また,ユニット5を取り除くとOECD平均は0.73 点低下するのに対し,日本は7.72点低下する。

PISAの計算式は,あくまでも,ある国の二つの年度間における共通項目のバラつきを計算しているに過ぎない。そのため,国ごとの項目困難度の違いを取り出すことができないのである。たとえば,他国と比較して日本にとってより難しくなっている問題が共通項目として選ばれたならば,当然日本の成績は低下するだろうし,その逆ならば上昇するだろう。共通項目のバラつきのみから計算されたLinking Errorでは,この違いを取り出すことができないのである。

5.6 差異項目機能

そこで,次はこの国による項目困難度の違いを説明しよう。Linking Errorは等化の手続きにおける誤差を問題としていたが,調査の妥当性を脅かすのは誤差ばかりではない。それがテストバイアスと呼ばれるものである。孫・井上(1995) によれば,テストバイアスは次のように定義される。

テストが測定しようとしている構成概念とは別の要因のために,ある特定の受験者がテストに正答することが,他の受験者と比べて困難になり,その特定の受験者に不利な解釈が行われる”ときテストはバイアスを持つという。そしてテスト全体としてのバイアスをテストバイアス,テストに含まれる項目レベルで現れるバイアスを項目バイアスと呼ぶ。テストのバイアスが問題になるのは,社会経済的地位(socioeconomic status) の差,黒人か白人か,男性か女性かというような,所属集団の違いに起因する系統的差異が見られる場合である。

たとえば,学力調査におけるテストバイアスの一つの典型としては,言語的バイアスが挙げられる。テストで使用される言語によって,特定の母語を持つ受験者集団の成績が不利に解釈されるというバイアスである。テストの実施言語と受験者の母語が違う場合はわかりやすいだろうが,問題を翻訳する際にもバイアスは発生する。たとえば,PISA2000で使われた問題は英語とフランス語では問題文の長さが異なっている。リード文に含まれるワード数は,英語よりもフランス語の方が12%多くなっており,一つのワードに含まれる文字数が英語では4.83文字となっているの対し,フランス語では5.09文字となる。結果として,文字数の総計はフランス語の方が2割弱長くなっているのである。

もちろん,文字数だけではなく,言語概念の相違,用語の使用頻度,文法の複雑さなどによっても言語的バイアスは生じ得る。そのため,ほとんどの国際比較調査では翻訳過程について詳細な設計,分析を行っている。PISA やTIMSS も例外ではない。日本語という特異な(?)言語を母語にする集団の学力を議論したいならば,この点についても知っておくべきだろう。

ただし,テストバイアスの問題は,単にテストの技術的・客観的な問題というよりも,むしろ倫理的・主観的な側面をはらんでいる。たとえば,全体的な「数学の学力」が同じ男女の集団があるとして,特定の領域におけるテストでは女子の成績の方が悪いということがあるかもしれない。「数学の学力」という構成概念とは無関係に,性別によって成績が変化するならば,定義上はテストバイアスということになるが,もしそのテストが特定の領域における優秀な生徒を選抜する目的で使用されるならば,そのテストは妥当なものであるかもしれない(Coel and Moss 1992)。

一方で,こうした選抜自体が「女性に数学はできない・するべきではない」という社会規範を強化する可能性もある。特定領域における学力の差異が,全体的な数学の学力に敷衍されるという意味では,これもテストバイアスと呼べるだろうし,また,その領域についての学習機会や関心が減少することによって,さらに差異が拡大されるようなことがあれば社会的に対応すべき問題にもなる。これは,男女に見られる能力の差異が,仮に男女の生理的機構に負っているとした場合も同様である。集団間に見られる系統的差異がテストバイアスであるかどうか,或いはそれにどう対処すべきかという問題は,人間の倫理的・主観的判断を必要とするのである。

そのため「バイアス」という言葉に代わり,現在ではあるテスト・テスト項目に対する系統的集団差一般を意味する「差異項目機能(Differential Item Functioning=DIF) という,より価値中立的な用語が使われている。DIF はバイアスのようにテストやテスト項目に見られる集団差が「構成概念とは無関係な原因によって生じる不公正なもの」であるかは考慮しない。ただ,あるテスト・テスト項目に対する系統的な集団間の差をDIF と表現するのである。したがって,バイアスが存在するときは必ずDIF が存在するが,DIF が存在するからといってバイアスが存在するとは限らない。あるDIF がテストバイアス・項目バイアスであるかどうかは,そのテストが実施,解釈される文脈に依存する。

DIFがこのように定義されると,前節の「等化の際の項目母数の変化」もDIFの一つであると思われるかもしれない。もちろんそうなのだが,Linking Errorがあくまでもサンプリング誤差の問題であるのに対し,DIFはバイアスの問題である。そのため共通項目の数を増やす,或いは共通項目の代表性を高くするという比較的単純な作業によってLinking Errorの問題が解決するのに対し,DIFはそうした単純な作業によって取り除くことはできない。

5.6.1 PISA におけるDIF

そのため,DIFの問題は多くの学力調査,特に文化的・社会的・経済的差異の大きい国際比較調査においては深刻な問題となりうる。もちろん,PISAも例外ではない。多くの研究者はPISAにおけるDIFの問題を理解しているが,その取扱い方は研究者によっても見解が異なる(Kreiner 2012)。最も単純な方法はDIF項目をテストから排除してしまうことだ。たとえば,PISAでは最終的な項目困難度を計算する前に,各国ごとの項目困難度を計算し,その結果不適切とされた項目("dodgy" item) は当該の国から除外されることになる(Kirsh et al. 2002)。

一方で,PISA設計者の一人でもあるAdams(2007) はitem-splittingという手法を使うことを提案している。たとえば,ある国においてのみ特異的に機能する項目(DIF) が存在するとき,その項目を排除するのではなく別の項目が与えられたと解釈するのである。理屈から言えば,この手法ではDIFから自由になることができる。その意味でこの手法はfreeingとも呼ばれる。実際にTIMSSでは,項目がテストの中に現れる位置によって項目の特性が変化してしまうため,それぞれを別の項目と見なしている(TIMSS 2003 p.264)

或いは,より積極的にDIFを活用しようと考える研究者もいる。たとえば,Zwister et al.(2015) は,DIFをテストの妥当性を脅かすものではなく,「それぞれの国の多様性や経時的なダイナミクスを反映した興味深いテストの成果物」として捉えることを提案している。つまり,DIFを単に問題のあるのもとして排除するのではなく,それぞれの国の社会経済的な環境や文化的背景,経時的な変化などの多様性を含んだ貴重な情報として活用しようという考えである。Zwisterは,DIFのうち,テストの妥当性を脅かすのは構成概念に関連しないDIF(construct unrelatd DIF) であることを強調している。

それぞれの考え方があるということは,どの考え方にも問題があるということだ。DIFを排除したり,別の項目に読み替える方法では,結局のところその基準が明らかにはならない。すべての項目母数が正確に一致することはないのだから,どこまでが問題のあるDIF項目で,どこまでが問題のない妥当なテスト項目であるのかを判断することは難しい。加えて,DIFを活用しようといっても,DIFをそのままにテストの結果を計算するのは危険である。テストの結果を受け取る一般人の大多数はそんなことに興味がないからだ。DIFがあろうとなかろうと,平均点が500点ならばどこまでいっても500点であり,それは未来永劫変わらない。

また,あるDIFが構成概念に関連しているのか,いないのかという判断はそれほど容易なものではない。たとえば,PISAの読解力調査では4回の調査の全ての国において,男子よりも女子の成績の方が高い。極めて強固な系統的集団差が見られる。この現象を一言で説明するのは難しいだろう。おそらくは複数の要因が考えられるはずだ。ここまで明白な差が見られるということは,構成概念に関連するDIFと構成概念に関連しないDIFの両方を含んでいる可能性がある。

5.6.2 日本のDIF

DIFの取扱い方が研究者によって異なると言っても,それが「公平性」という観点から問題が多いのは確かである。そこで,本節ではPISA調査における日本のDIFについて説明しよう。国際比較調査におけるDIFは,ある国と別の国の結果を比較する際の公平性が問題とされることが多いが,ここで焦点を当てるのはPISA2000の日本の読解力得点と,PISA2003の日本の読解力得点を比較する際の公平性である。

PISA調査の設計者でもあるWu(2009) は,PISA2003における日本の読解力低下を例にして,PISA調査におけるDIFの存在を指摘している。図5.11は,PISA2000におけるOECD参加国の項目困難度と,日本の項目困難度をプロットしたものである。項目母数の推定方法は前節と同様だが,OECD27か国のデータは国によって受験者の数が異なるため,それぞれの国に均等の重みをつけて計算した(OECD 2005 p.132)。

見てわかるように,日本の項目困難度とOECDの項目困難度はおおむね直線に近づいている。しかし,個々の項目を見ていくと,日本の困難度とOECDの困難度が,著しく異なる項目が存在していることがわかる。たとえば,散布図の第2象限にはOECDの困難度が-1,日本の困難度が1となっている項目が存在している。2ロジットの差というのはPISAスケールならば200点に相当する差である。もはや別の項目だ。また,1ロジット以上の差を示す項目は129問のうち10問存在している。そのうち5問は日本にとってより難しい問題,5問はより簡単な問題である。これらの問題は明らかなDIF項目だ。

PISA2000では,読解力問題129問のうち,日本にとって著しく難しい,或いは簡単な問題が含まれている。そして,PISA2003の読解力問題28問は,その129問の中から選ばれているのである。このことは,PISA2003において共通項目として何が選ばれるのかによって,日本の成績が大きく変動することを示唆している。Wuによれば,PISA2003で選ばれた共通項目は日本にとって,平均して0.08ロジット難しいものになっており,PISAのスケールに変換すれば約8点に相当する(Wu 2009 p.25)。

筆者が推定に使ったOECDサンプルと,Wuが使ったと思われるOECDサンプルは若干異なるため,正確に同じ数字になるわけではないが,筆者の推定でもPISA2003では日本にとって,平均して0.082ロジット難しい問題が出題されていた。PISAスケールに変換して7.5点に相当する差である。仮に,PISA2000におけるDIFの影響が,PISA2003でも同様に影響するならば,日本の平均点はそのまま7.5点程上昇するということだ*10

これはあながち無理な仮定でもない。というのも,国際比較調査におけるDIFは地域的・言語的・文化的区分によって,ある程度固定的で一貫した傾向が見られるからだ。たとえば,DIFの大きさを測る指標としては,因子分析による各国の共通性,各国の困難度と全体の平均困難度の差の絶対値といったものを利用することができる(Grisay et al 2007; Grisay et al 2009)。

各国の共通性とはすなわち各国の項目困難度の分散うち共通因子によって説明される割合を意味している。共通性が低いほど,その国独自の要因(DIFなど) によって項目困難度が変化しているということだ。図5.12は,Grisay et al.(2009)が計算したPISA2000の読解力問題における各国の言語ごとの共通性である。

一見してわかるのは非インドヨーロッパ語族でその共通性が低くなっていることだ。ここではインドネシア語(IND),中国語(CHI),フィンランド語(FIN),ヘブライ語(HEB),ハンガリー語(HUN),日本語(JAP),韓国語(KOR),トルコ語(TUR),タイ語(THA)が非インドヨーロッパ語族にあたる。中でもインドネシア,香港,日本,韓国,タイといったアジア諸国の共通性の低さが鮮明になっている。

この傾向は各国の困難度と全体の平均困難度の差においても同様にみられる。図5.13もGrisay et al(2009) が計算したPISA2000の読解力問題における各国の困難度と全体の平均困難度との差の絶対値である。

こちらでも同様に,非インドヨーロッパ語族では概して差の絶対値は大きくなっている。その中でもアジア諸国の差が大きいという傾向も変わらない。いずれの指標においても,地域或いは言語による差異がある程度一貫しているという傾向,また特にアジア諸国とそれ以外の地域による差異が大きいという傾向には注意しなければならない。特に「読解力」という言語能力と密接に結び付いた能力を測定するならばなおさらのことだ。問題の性質が全ての国において同様であるという仮定はテストを実施するためには必要かもしれないが,結果を解釈する段階においてもその仮定を維持する必要はない。

それでは最後に,Linking ErrorとDIFを考慮した有意性検定を行ってみよう。日本のLinking Errorは前節で計算したように6.0である。また,DIFを考慮するとPISA2003では日本の平均点は7.5点に相当する得点の変化が見られる。したがって検定統計量は
\cfrac{522.2-505.6}{\sqrt(5.2^2+3.9^2+6.0^2)}=1.876575
となり,有意水準0.05の場合は有意な差が見られない。ああよかった…という話ではない。これは強引な結論である。仮にPISA2000で確認されたDIFが地理的・言語的・文化的差異によって完全に説明されるのであれば,この結果にも一定の妥当性はあるが,実際には各国のカリキュラムの違いに起因するDIFもある程度は含まれているはずだ。したがって,PISA2000におけるDIFによる得点の補正を,Linking Errorを使って検定するのは「カリキュラムの変更による得点の変化」が(一部) 二重に計算されるため,保守的な検定となっている可能性がある(逆の可能性もある)。その上,1.877というのはギリギリもいいところである。

しかし,冒頭でも述べたように,本節で説明し,かつ強調したいのはPISAやTIMSSなどの調査結果は,「科学的に証明された真実」ではないということだ。そのために,特に「学力低下」という観点から,二つの時点の調査結果を等化する際に発生する誤差と,異なる社会的背景をもつ集団にみられるバイアスについて別々に分けて説明したのである。先に引用したMonseur and Berezner(2007) やGebhardt and Adams(2007) のように,日本の有意差をもっと「綺麗に消す」方法もあるが,本稿の趣旨ではない。

結語

おわり。ここまで一瞬でスクロールした人に念のため屡述すると,PISA調査の表面的な得点推移だけを見ても「ゆとり教育による学力低下」説は支持されない。この仮説を支持するのはPISA2003における読解力得点の低下のみであり、本章の長大な内容はほぼ全てこの現象を説明するために費やされている。ただし,PISA2015以降の調査報告書では,PISA2000-2006のサイクルにおける日本の読解力低下について直々に注釈が付されており,本章の内容が理解できなかった人はそれを読んで納得しても良い。

引用・参考文献

[1] 川口俊明 2014 「国際学力調査からみる日本の学力の変化」 福岡教育大学紀要 第63号
[2] 豊田秀樹 2002 「項目反応理論<入門編>―テストと測定の科学―」朝倉書店
[3] 日本テスト学会 2010 「見直そう,テストを支える基本の技術と教育」金子書房
[4] 南風原朝和 1980 Equating Logistic Ability Scales by a Weighted Least Squares Method, Japanese Psychological Research 22(3), pp.144-149
[5] 文部科学省 2013 「国際成人力調査(PIAAC)  調査結果の概要」 http://www.mext.go.jp/b_menu/toukei/data/Others/__icsFiles/afieldfile/2013/11/07/1287165_1.pdf
[6] Belia, S., Fidler, F., Williams, J., & Cummin, G. 2005. Researchers misunderstand condence intervals and standard error bars., Psychol Methods. 2005 Dec;10(4):389-96.
[7] Cumming, G., & Finch, S. 2005. Inference by Eye Condence Intervals and How to Read Pictures of Data, American Psychologist, Vol. 60, No. 2, 170 180
[8] Cumming, G., Fidler, F., & Vaux, L.D. 2007. Error bars in experimental biology, The Journal of Cell Biology. 2007 Apr 9; 177(1): 711.
[9] Ercikan, K., & Koh, K. 2005. Examining theconstruct comparability of the English andFrench versions of TIMSS, InternationalJournal of Testing, 5(1), 23-35.
[10] Goldstein, H. 2004. International comparisons of student attainment:some issues arising from the PISA study. Assessment in Education Principles Policy and Practice 11(3) September 2004
[11] Gebhardt, E., & Adams, J.R. 2007. The Infuence of Equating Methodology on Reported Trends in PISA, JOURNAL OF APPLIED MEASUREMENT, 8(3), 305-322
[12] Grisay, A., de Jong, J.H., Gebhardt, E., Berezner, A., & Halleux-Monseur, B. 2007. Translation equivalence across PISA countries. Journal of Applied Measurement, 8(3) 249266.
[13] Grisay, A., Gonzales, E., & Monseur, C. 2009. Equivalence of item difficulties across national versions of the PIRLS and PISA reading assessments. von Davier, Matthias; Hastedt, Dirk (eds.) IERI Monograph Series: Issues and Methodologies in Large-Scale Assessments: Volume 2. 2009, p63-83
[14] Head, M.L., Holman, L., Lanfer, R., Kahn, A.T., Jennions, M.D. 2015. The Extent and Consequences of P-Hacking in Science. PLoS Biol 13, e1002106
[15] Huang, X. 2010. Differential Item Functioning:The Consequence of Language, Curriculum, or Culture?, Graduate School of Education of the University of California, Berkeley.
[16] Kirsc, I., de Jong. J.H., Lafontaine, D., McQueen, J., & Monseur, C. 2002. Reading for change. Performance and Engagement across countries. Results from PISA 2000, OECD
[17] Kreiner, S., & Christensen, B.K. 2013. Analyses of Model Fit and Robustness. A New Look at the PISA Scaling Model Underlying Ranking of Countries According to Reading Literacy Psychometrika April 2014, Volume 79, Issue 2, pp 210-231
[18] Mazzeo, J.,& von Davier, M. 2009. Review of the Programme for International Student Assessment (PISA) test design: Recommendations for fostering stability in assessment results. Retrieved July, 2009, from http://edsurveys.rti.org/PISA.
[19] Michaelides, M.P. & Haertel, E.H. 2004. Sampling of common items: An unrecognized source of error in test equatingTechnical Report. Los Angeles: Center for the Study of Evaluation and National Center for Reserch on Evaluation, Standards, and Student Testing.
[20] Monseur, C. & Berezner, A. 2007. The Computation of Equating Errors in International Surveys in Education, JOURNAL OF APPLIED MEASUREMENT, 8(3), 323-335
[21] Mullis, I.V.S., Martin, M.O., Smith, T.A., Garden, R.A., Gregory, K.D., Gonzalez, E.J., Chrostowski, S.J., & O'Connor, K.M. 2003. TIMSS Assessment Frameworks and Specications 2003, TIMSS & PIRLSInternational Study Center.
[22] OECD, 2003, PISA2003 Assessment Framework, OECD
[23] OECD, 2005, PISA 2003 Data Analysis Manual, OECD
[24] OECD, 2007, PISAT M 2006 Science Competencies for Tomorrow’s World Volume 1 Analysis, OECD
[25] OECD, 2012, PISA 2009 Technical Report, OECD
[26] OECD, 2014a, PISA 2012 Results: Creative Problem Solving Students’ skills in tackling real-life problems Volume V, OECD
[27] OECD, 2014b, PISA 2012 Technical Report, OECD
[28] Sheehan, K.M., & Mislevy, R.J. 1988. Some consequences of the uncertainty in IRT linking procedures.(Report No: ETS-RR-88-38-ONR) Princeton, NJ: Education Testing Service.
[29] Stewart, W. 2013. Is Pisa fundamentally awed?, TES, 26th July 2013 https://www.tes.com/news/tes-archive/tes-publication/pisa-fundamentally-flawed
[30] Stocking, M., & Lord, F.M. 1983. Developing a common metric in item response theory., Applied Psychological Measurement, 7, pp.207-210.
[31] Wasserstein, R., & Lazar, N. 2016. The ASA's statement on p-values: context, process, and purpose, The American Statistician Volume 70, Issue 2, 2016
[32] Wu, M. 2009. Issues in Large-scale Assessments, Keynote address presented at PROMS 2009, July 28-30, 2009, Hong Kong.
[33] Wuttke, J. 2007. Uncertainty and Bias in PISA, PISA ACCORDING TO PISA. DOES PISA KEEP WHAT IT PROMISES, Hopmann, Brinek, Retzl, eds., pp.241-263, Wien, 2007
[34] Xu, X, & Davier, V.M. 2010. Linking Errors in Trend Estimation in Large-Scale Surveys: A Case Study, ETS Research Report Series, Volume 2010, p.112

*1:図5.1ではグラフ作成の都合上,関連領域の下に認知的領域を置いているが,実際にはそれぞれの内容領域について,各認知的領域を測定する問題が出題される。そのため,各関連領域についてすべての認知的領域に対応した問題が出題されるわけではない。

*2:後で確認するが,PISAではそもそも数学的リテラシー得点の有意な低下は確認できない。

*3:つまり,学力が低い集団にとっては項目aよりも項目bが難しくなっているが,学力の高い集団では項目aの方が難しいといったことである。補遺参照。

*4:説明のためこの式は簡略化している。詳細は補遺を参照。

*5:その場合にも得点が割り当てられることには留意

*6:これは基準となるテストの得点に限られる。後述。

*7:実際はテスト得点の標準誤差と呼ぶ。後述。

*8:2群の平均の差を検定する場合,本来は帰無仮説として,「二つの平均値が同一の母集団から得られた」という仮説と,「2群は平均値の等しい母集団である」という二つの仮説がありうる。前者が(2群の母集団の)等分散性の仮定を必要とするのに対し,後者は必要としない。実際に検定をする場面では,等分散性が必要となるt検定を使うことが多いため,帰無仮説としては前者の方が正確ということになるが,PISA調査のように,大標本調査の場合には正規検定を使うことができるため,等分散性の仮定は必要ない。また,同じ国の子どもの学力の分布が数年で著しく変化するということも考えられないので,もとより等分散性は仮定できる。そのため,どちらの仮説を採用しても問題はないが,ここでは分かりやすいように後者の仮説,つまり「PISA2000とPISA2003の平均得点は同じ」という仮説を採用している。

*9:ハッキリ言って全部

*10:ただし,これは各項目の困難度が一律に変化した場合である。実際には各項目ごとに困難度が変化するため,数値にはわずかな違いが出る。詳細は補遺参照。

ゆとり教育とは何だったのか―俗説に対する批判的検討 4.学力低下は「証明」されたのか

4章では主に国内の学力調査の結果とゆとり言説との関連に焦点を当てる。PISA・TIMSSなどの大規模国際学力調査や学力調査それ自体の理論的詳細は5章で扱う。

4.1 学力低下論の源流1―分数のできない大学生

市川(2002)によれば,90年代後半から盛んに主張されるようになった学力低下論にはいくつかの源流がある。その一つが「大学生の理数能力の低下」である。当初,この言説は主に理数系の大学,学部に勤める大学関係者によって主張されていた。たとえば,朝日新聞の5月24日付け朝刊では,日本数学会の前理事長であり,名古屋大学の教授でもある浪川幸彦の談話が取り上げられている。

数学者仲間の間では,九十年ころから学力低下が話題になっていた。入試の採点を担当していた浪川教授は『大学以前の教育に問題があるのでは』と感じていた。授業で一年生と接して,それを確信した。(中略)九十四年に日本数学会内に大学数学基礎教育ワーキンググループを作り,学力に関する調査を実施するとともに,大学教育の改善に乗り出した。

この記事に見られるように,既に90年代に入った頃には大学関係者による「理系大学・学部生の理数能力の低下」が主張されるようになっていた。その後,「ゆとり教育の危険性」がマスメディアを通じて大々的に宣伝されるようになると,彼らの危機感は一層つのり,1999年には,応用物理学会,日本応用数理学会,日本化学会,日本化学会化学教育協議会,日本数学会,日本数学教育学会,日本物理学会,日本物理教育学会の諸学会が,「新学習指導要領(ゆとり教育)」に対する声明を発表している。

当初は理数系の大学・学部生を対象としていた「理数能力の低下」言説の矛先は,当然のように文系の学生にも向けられることになった。そうした「大学生の理数学力低下」言説が一つのピークに達したのが,西村和雄らによって書かれた『分数のできない大学生』である。同書は,そのセンショーナルなタイトルから,学力低下議論において最も広く読まれ,引き合いに出されることの多い書物となった(市川 2002)。

同書では,戸瀬信之と西村和雄が全国の国立・私立大学の文系学生を対象に行った数学学力調査の結果がまとめられており,タイトルにもなっている『分数のできない大学生』という主張は,おそらく同書の12章に示された学力調査の結果を基にしていると思われる。西村らは私立大学の文系学生を対象に,小学校から高校までの基礎的な問題を21問出題しているが,その中には小学校レベルの分数の問題が5問出題されている。以下に示したのはその5問である。

\begin{eqnarray*}
&問題1:&  \ \ \ \cfrac{7}{8}-\cfrac{4}{5}=\\
&問題2:&  \ \ \ \cfrac{1}{6}÷\cfrac{7}{5}=\\
&問題3:&  \ \ \ \cfrac{8}{9}-\cfrac{1}{5}-\cfrac{2}{3}=\\
&問題4:&  \ \ \ 3×\{5+(4-1)×2\}-5×(6-4÷2)=\\
&問題5:&  \ \ \ 2÷0.25=
\end{eqnarray*}

この5問の結果は,同書の帯では「信じられないでしょうが,大学生のうち十人に二人は小学校の算数ができません」と簡潔にまとめられている。西村らの調査では11校の私立大学が対象となっているが,そのうち最も入学難易度の高い,ある私立大学の経済学部生のうち「受験で数学を選択しなかった組」では,この5問「全て」に正答した割合が78.3%だったという*1

仮にも私立のトップ校がこの程度の問題に8割程度しか正答できない,5問に4問程度しか正答できないのであれば,他の調査を俟つまでも無く学力低下という主張は妥当だろう。無論,この解釈は誤りである。

と言っても大して話ではないのでざっくりと説明しよう。西村らの調査では個々の問題の正答率は示されず,問題4の正答率が85.5%であったことだけが報告されている。仮に,5問の正答率が独立で均等であったとするなら,問題4以外の正答率は,0.783/0.855の四乗根で0.978となる。恐らく,西村らが問題4の正答率しか示していないのは,それが最も低い正答率だったからだろう。

それでもこれほど簡単な問題であるならば,50人に1人が解けないのは大問題であると言う人もいるかもしれない。しかし,実際のテストでは,それがどれほど簡単なものであろうと,受験者のレベルがどれだけ高かろうと,平均正答率が100%になることは滅多にない。

現実のテストでは,単純なケアレスミスによるものから,周囲の環境による集中力の乱れ,無気力による無回答,疲れ・病気などによる体調の変化,時間の制約による焦り,などの様々な誤答要因が存在している。どれほど簡単な問題であろうと100%が常に保証されるわけではない。これはわざわざ説明しなければならないことだろうか。

また,その実施目的が明確にされているような学力調査では,そもそも問4のような問題は出題されない。学力調査が測定しようとするのは「学力」であって,忍耐力でも集中力でも真面目さでもないからだ。ましてや「学力低下」を実証することが目的ではない。

たとえばPISAでは,テスト冊子の最後から連続している無回答については全て「未到達」として扱い,得点の計算には含めない(PISA 2003 p.323)。PISAの問題が測定しているのは学力であり,生徒の意欲や興味関心,問題を解く速さではないからだ。

そうした領域は質問紙調査によって個別に調査するのが望ましい。でなければ,学力テストの結果は複数の次元の「学力」に影響されることになり,調査の分析,結果の解釈が困難になるからである。

4.1.1 「びっくりするための」調査

しかし,西村らの調査の最大の問題点はその恣意的な結果の示し方にあるわけではない。この調査の最大の問題点であり,他の多くの学力調査にも共通するのは,「過去のデータがないにも関わらず,或いは経年比較が可能となるようにテストが設計されていないにもかかわらず,経年比較を行っている」という点である。『分数のできない大学生』のどこを探しても,過去に同様の調査を行った際のデータは示されていない。

それでは彼らが一体何を基準に「学力低下」を主張しているかといえば,彼らの実感である。もはや調査する必要もなかったのではないか。同書では,「きわめて低くなっている」「もっとはるかに進んできた」「誰の目にも明らかであろう」「これは一般的傾向である」「驚くほど低い」といった情緒的な記述が多用されている。西村らが学力低下を実証したがっているのは,それこそ明らかなように思える。

もちろん,調査の動機としてはそれでも構わないのだが,それが調査の手続きや解釈に影響を与えているならば,生み出されるのはゴミ*2であると言わざるを得ない。同書の冒頭では「読者は,いかに簡単な問題で調査したかに驚くであろう」との言葉があるが,驚かせる前にやるべきことがある。学力低下を主張したいのであれば,比較対象を置くことが最低限の条件である。

西村らの調査に典型的に見られるような,自分たちの「驚き」や「びっくりした」といったような素朴な実感を根拠として,何かしらの劣化や低下を騒ぎ立てる調査を,後藤(2012)は「びっくりするための調査」と呼んでいる。こうした調査の多くは経年比較調査としての体をなしていない。ただ,劣化・低下という彼らの実感に科学的な箔をつけるためだけに実施されている。

しかし,当たり前だが「驚き」も「びっくり」も学力低下を示す何の根拠にもならない。たとえば,次の表を見てほしい。これは2001年に全国の18歳から69歳までの成人男女を対象に行われた,「科学技術の基礎的な概念の理解度」を調査した結果である。この調査はアメリカやヨーロッパの研究者と協力して開始した「科学技術の公衆理解に関する国際比較研究」の一環として行われ,日本では科学技術政策研究所が『科学技術に関する意識調査』として調査を実施した。したがってその結果は各国間で比較可能なものとなっている。

衝撃的な結果である。当て推量を含んでいるのに全問平均正答率が51% というのもひどいが,特に,「性別を決定する遺伝子」「電子と原子の大きさ」の正答率など,一体何がどうすればそうなるのか。誤解や迷いの余地がある問題とは思えないし,指導要領上はどの世代も文系・理系問わず学習しているはずである。日本国民の知的水準がここまで劣化しているとは筆者も信じたくなかった……

と言うわけにはいかない。率直に言って,上記の設問は語句の定義が曖昧なものもあり,あまり良い設問とは言えない。わからない問題には素直にわからないと回答する割合が日本は他国と比較して高かったのかもしれないし,「男腹・女腹」のように文化的な差異が背景に存在しているのかもしれない。そもそも,たったの10 問では測定領域が限られている。しかし何よりも,この調査には過去と比較ができるデータが存在しない(1995年にも同様の調査が実施されているが,そちらも2001年調査と同様に,日本は「ひどい」結果であった)。

一部の人はこの調査結果を見て大層驚くかもしれないが,その驚きには何ら実証的な意義は含まれていない。周りの人が驚いていても同じことである。自分の周りにいるのは,自分と同程度の知的水準を持った人間である可能性が高い。身近な他人と驚きを共有したところで,実証性が二倍にも三倍にもなるわけではない。無意味なものは無意味である。
(ちなみに,調査実施年度と調査対象者の年齢からも分かる通り、上記の調査に「ゆとり世代」の結果は含まれていない。他方,こちらの調査では2006年度入学生を対象として上記の設問を尋ねている。結果は,ほぼ全ての設問に置いて上記の日本人平均を上回っており,当て推量の値を50%とすると平均正答率で10ポイントほどの差がついている)

4.1.2 危機感を満足させるための学力テスト

ここでは,「びっくりするための調査」の典型例として西村らの調査を取り上げたが,同様の調査はこれ以外にも数多く存在する。たとえば,「衝撃大学生のあきれた知能程度4人に1人『太陽は東に沈む』!(J-CAST 2011)」や,「大学生4人に1人,『平均』の意味理解せず(日本経済新聞電子版 2012)」などの調査もその典型だろう。前者は東海大学産業工学部の藤下光らが2011年に行った調査であり,後者は日本数学会が同じく2011年に行った調査である。

こうした調査の多くは主に大学生の学力低下を問題としている。したがって,調査の実施主体は大学関係者や,彼らによって構成される各種の学会や協会であるということになる。果たして彼らが手段も選ばずに大学生の学力低下を「実証」しようとするのはなぜか。単一の原因を想定することはできないが,少なくとも一つの原因としては「ゆとり教育に対する危機感」を挙げることができるだろう。

たとえば,「分数ができない大学生」の著者である戸瀬信之は,『理学専攻科雑誌』42巻2号に「大統領が数学と理科に力を入れるアメリカとゆとりの教育で滅びる日本: 最近の学力低下について」という論考を載せているし,西村も同様に『学力低下が国を滅ぼす』(日本経済新聞社 2001)の中で,戸瀬と仲良く「ゆとり亡国論」を提唱している。

こうした傾向は最近になって初めて生じたものではない。3章で述べたように,新教育批判の際には,雨後の筍のごとく学力調査が次々と生み出されていったという歴史があった。3章で引用した馬場は,こうした学力調査にみられる傾向について,次のように指摘している。

またかりに調査の専門家の協力をあおいだ場合でも,現場の方たちが実証的な調査研究の本質を認識されていないため,しばしば問題をひきおこしたこともございます。これは一般の社会人が調査というものに過大の信頼をよせるあまり,事実的な認識と価値判断とを厳密に区別しようとする態度ができていないからであります(中略)教育活動というものは元来,価値志向的な性格をもつものでありますので,とかく事実認識と価値判断の立場が混用されるのであります(中略)つまり教育調査ではとかく目的意識の過剰に陥りやすいのであります。(馬場他 1953)

馬場の指摘する通り,「教育」という営みは多分に価値判断が含まれている。たとえば,NHKが2008年に行った世論調査では,「学力をつける目的として,次にあげる二つのうち,あなたの考え方は,どちらに近いですか」という質問に対して,「厳しい競争を勝ち抜くため・・・7.3%,教養や良識を身につけるため・・・86.6%,わからない・無回答・・・6.1%」という結果となっている。多くの人は,学力というものを無味乾燥な,社会に適応すための単なるツールとして捉えているわけではない。かえって,その人間の人格と密接に結びついたものとして捉えているのである。

この考え方に立てば,教育というものは「よりよい人間」へと近づくための営みであると言える。教育は本来的に全人的な陶冶を志向している。だからこそ,「学力低下」という問題は,特定の問題の解決が困難になるという以上の意味を持ち,教育言説はより先鋭化し排斥的なものとなっていく。3.14が3になってしまうのは,単に実用上の問題があるだけではない。そこにはもっと情緒的で非理性的な「何か」が存在する。その何かに価値を見出している人間であればあるほど,「学力低下」に対する危機感を募らせるのである。

かくしてゴミ調査が生み出される。いくら志が立派であっても,それが調査の質を保証してくれるとは限らない。かえって,その志によって調査の手続きや解釈に歪みが齎されることもある。

科学的思考や学問の重要性を説く人間も,こと教育に関しては頓珍漢な意見を出すことも少なくない。しかしこれは矛盾ではなく,ある意味で必然的なものである。科学や学問に携わる人間はそれだけそれらの価値をよく承知している(少なくとも自分ではそう信じている)。だからこそ,その価値の危機には教養も良識も振り捨てて「何とかしなければ」という危機感が先走ってしまうのである。

4.2 学力低下論の源流2―苅谷調査

西村らの調査はそもそも社会調査としての体をなしておらず,過去との比較をすることもできなかった。しかし,学力低下論はこうしたわかりやすいゴミ調査にばかり支えられているわけではない。本節では,市川のいう「学力低下論の源流」の一つである苅谷らが行った学力調査を検討してみよう。

世間を賑わす「学力調査」はなぜか教育学,あるいは教育測定の専門家以外によってなされることが多い(「教育論」においてはそれ以上に多い)。結果としてゴミ調査が生み出されるわけであるが,元東京大学の教授であり現在はオックスフォード大学で教鞭をとっている苅谷剛彦は,教育学の専門家であり,主観的な評価を挟めば有力な教育学者であるといってよい。苅谷とそのグループが実施した学力調査(以下「苅谷調査」と呼ぶ)の結果は「ゆとり教育による学力低下」を示しており,現在でも引用されることの多い調査である。

苅谷らがこの学力調査を行ったのは,その実施を前にして「ゆとり教育」が喧々諤々の議論を巻き起こしていた2001年のことである。しかし,苅谷らはこうしたゆとり教育言説の騒乱からは一歩引いた立場をとっている。たとえば,『調査報告「学力低下の実態」』の中で,苅谷は次のように述べている。

このような現状を見ると,今必要なのは,学力が低下しているか否かに単純に一喜一憂する学力調査でも,水掛け論に終わりがちな学力の定義をめぐる学力論争でもない。ましてや,教育の実態をふまえることもなく,「確かな学力」向上策が逆戻りなのかどうかを争う議論でもない。今,求められているのは,子どもの「学力」や学習の実態から,日本の教育が抱える問題を見通していく視座と,問題解決を図るための正確な現状認識である(苅谷他 2002 pp.3-4)。

あくまで,苅谷らは子どもの学習と学力の「実態」に対する正確な現状認識を基盤として,教育議論を展開していくべきだと主張する。苅谷らの調査は「学力低下」を鮮やかに描き出すためのものでなければ,自らの実感を慰めるためのものでもない。西村らの表面的な言明と違い,苅谷らの調査では確かにこの目的意識が通底している。苅谷らが調査の主眼に置いていたのは,「学力低下」よりもむしろ「学力格差」の問題であった。

それでは,実際に苅谷らが行った学力調査の概観を示しておこう。苅谷らの調査目的の一つには,学習指導要領が学力に与える影響を調べることにあった。そこで,苅谷らは1989年に大阪大学の池田らが行った「学力・生活総合実態調査」と同様の問題,およびアンケートを利用し,二つの調査で学力の経年比較や指導要領の変化が学力に与える影響を調べている。

池田調査の調査対象は関西都市圏の小学校5年生2100名あまり,中学校2年生2700名あまりであり,苅谷調査では調査対象者,調査対象地域ともに池田調査とほぼ同様である。なお,二つのテストに含まれる問題については,指導要領の改訂にともない削除されたような問題は含まれていない。苅谷調査ではさらに調査対象者を「伝統的学力観」に基づいた授業を受けたのか,「新しい学力観」に基づく授業を受けたのかを軸として分類し,各種の分析を行っている。

苅谷らの調査は結果の提示について若干恣意的に選択した節*3があるものの,数多のゴミ調査と比較すればとりたてて問題にするところもない。一つ留意点を挙げるならば,苅谷らの調査はPISAやTIMSSのように広汎な学力を測定しているわけではない。苅谷調査で出題された問題は「当時(池田調査)の調査対象地区の教師たちが,『ひと学年前までの教育内容』からピックアップしたもの」である。その平均得点(配点の重みは各問で均等)は,池田調査では小学校が約8割,中学校で約7割となっており,得点分布にも典型的な天井効果が表れている。

付言しておくと,同調査報告書の中でも「ゆとり教育(98 年改訂)では円周率を3 として教えることになった」との記述がある(同上 p.22)。筆者が本稿を書くにあたって驚いたことの一つは,教育学者と呼ばれる人間でも,ほとんど学習指導要領の具体的内容を知らないことである。彼らは教育学の専門家であって教育課程の専門家ではないのだから,当然と言えば当然かもしれない。専門家が主張する内容が,本当に彼の専門的知見に基づいているのかは慎重に判断するべきだろう。

4.3 ゆとり教育悪玉論の弊害1―地域的限定の無視

それでは,苅谷調査の何が問題なのだろうか。それは調査結果の解釈である。まずは,苅谷調査の結果明らかになった事実を確認しておこう。苅谷らが調査の結果として特に重要視しているのは,「小学生・中学生の基礎学力の低下」及び「通塾の有無による学力格差の増大」の二つである。問題なのはこれらの学力低下,或いは学力格差の増大が何を原因としているのか,この結果が日本の公教育一般に敷衍しうるものか,という点である。苅谷はこの点については次のように言及している。

たしかに,限られた地域の,限られた数の子どもたちを対象とした調査の結果であり,これだけをもって,日本全体の教育を語ることには慎重でなければならない(同上 p.32)。

流石である。物事を正しく捉えるためには知的複眼思考が必要だ。あくまでも苅谷調査は「大阪」という単一の地域に限定された調査であるのだから,その結果を解釈するには慎重な態度が必要とされなければならない。以上の事実,及びその留意点に言及したのち刈谷報告書は第II部へと移る。その冒頭は次のような言葉で飾られている。

第I部では,過去十二年間で,小中学生の算数・数学と国語の学力が低下し,学力格差も拡大していたことを見てきた。しかも,学力の低下は,塾に行けない子どもたち,公立学校だけに頼らざるを得ない子どもたちの間でより進んでいることが明らかとなった。子どもたちの興味・関心・意欲を重視した「新しい学力観」のもとでの教育が行われた十年間で,それ以前に比べ,算数・数学,国語の基礎的学力が低下していた事実が示されたのである(同上 p.36)。

苅谷調査は大阪という一部の地域を対象としたものであり,そのため結果の解釈には留意しなければならない,と言った舌の根も乾かぬうちに大阪という地域的限定は地の果てへと消え去る。以降の記述では一度も「大阪」という言葉は出てこない。もちろん,結果の解釈には留意しなければならない,といったことも一度も言及されない。苅谷らにとって,調査の結果明らかになったのは「日本の教育」「日本の子どもたち」の問題なのである。

さらに注目したいのは,上の引用において「新しい学力観」こそが学力低下・学力格差の原因と言わんばかりに強調されている点である。他にも苅谷調査の報告書には,新学力観を支持した教育関係者・メディアに対する恨みつらみ,「子ども中心主義」という間違った教育を横行させた社会への憤り,そして「ゆとり」によって子どもを「甘やかし」てきた国や教育界に対する怨嗟の念が横溢している。たとえば,報告書には次のような記述がある。

こうした子どもたちの学習上の変化は,それが唯一の原因とは確定できないものの,近年の教育改革の動向と無縁ではないだろう。「ゆとり」を重視し,子どもたちの「よさ」や個性を重視し,あるいは主体性を尊重しようという教育界の風潮が,子どもたちの生活に対する「しばり」をゆるめた。加えて,従来型の教科学習を通じて得られる知識は将来役に立たないものだとの見解が大手をふってマスコミをにぎわせた。成績以外の「子どものよさ」を強調するあまり,宿題を減らし学習や努力の価値を否定する言説が広まった時代と,「新しい学力観」が実施され続けた十年間とは重なるものである(同上 pp.39-40)。

いずれにせよ,今日の小中学生は,十二年前に比べ,あいまいな自己イメージしか持っていないと推測できる。たしかに,受験教育からの脱却をめざした教育改革のもと,子どもたちがテストの点数に代表される業績原理だけで評価される度合いは確実に弱まった。教師や親たちが子どもたちに課す目標や要求は多元化し,結果として子どもたちにとってのハードルが低めに設定されるようになった。「子どものよさを生かす」教育,個性重視の教育の推進は,子どもたちに劣等感を抱かせないようにと,自己イメージの改善を図ろうとしたのだろう。だが,その結果,現代の子どもたちは,自分自身を試したり鍛えたりするチャンスや体験を持ちにくくなったのかもしれない(同上 pp.40-41)。

後藤(2012)の指摘する通り,これでは世に溢れる俗悪な若者論と変わるところが無い。もちろん,恨みがあろうがつらみがあろうが,それが調査の実施,結果の解釈に影響を与えないのならば何も問題はない。しかし,苅谷調査に見られるように,あるテストにおける「学力低下」の原因を短絡的に「ゆとり教育」に結びつける言説―ここでは「ゆとり教育悪玉論」と仮に名付けよう―はさまざまな弊害を生むことになる。

まずは,苅谷調査が本当に「ゆとり世代の学力」を測定できる妥当性を備えていたかを確認しよう。苅谷らは学力低下の原因を主に学習指導要領の変更に求めている。つまり,調査対象地域である大阪という地域的限定はここでは無視されている。苅谷が問題としているのは国の教育であって大阪の教育ではないのである。果たしてこれは妥当な態度だろうか。

4.3.1 全国学力調査

図4.1は,1964年と2007年に行われた『全国学力テスト』における各都道府県の平均得点をプロットした図である。ただし64年の調査には沖縄,福岡のデータは含まれていない。横軸には64年調査の平均得点,縦軸には2007年調査の平均得点をとっている。このグラフからは,各県の相対的な成績変動をある程度は把握することができる。

たとえば,ある県の散布図上の点を原点として新しい軸を作った時,第2象限に位置する県はその県よりも成績の伸びが大きく(或いは成績の低下が小さく),逆に第4象限に位置する県はその県よりも成績の伸びが小さい(或いは成績の低下が大きい)ということになる*4。もちろん,このグラフから各県の成績が実際に向上しているのか,低下しているのかを判断することはできない。しかし,平均的な学力がそれほど変化していないならば,学力変動の目安として使うこともできる。

注目してほしいのは大阪である。殆どの県は大阪を原点としたときの第2象限に含まれている。逆に言えば,ほとんどの県と比較して大阪は成績の伸びが小さい,或いは成績の低下が大きくなっているということだ。実際に,大阪は64年調査で全国6位であったにも関わらず,07年調査では急転直下の44位になっているのである。

この結果は,64年から07年の間に大阪という地域において,固有の学力変動が生じたことを示唆している。たとえば,苅谷調査のメンバーでもあった志水宏吉ら(2009)は64年調査と07年調査における得点変化のパターンを把握するためにクラスター分析を行い,各都道府県を六つのクラスターに分けている。

六つのクラスターのうち,特異な変動を示しているのは「クラスターVI. 躍進型」の秋田県と「クラスターV. 陥落型」の大阪府である。この両府県は平均的な順位の相対的変動から著しく離れている。大阪は先述した通り6位から44位,秋田県は41位から堂々の1位である。もちろん,順位の相対的変動から実際の学力変動を知ることはできない。極端な話,秋田県では学力が60年代と変わらずに他の都道府県の学力が著しく低下しただけかもしれない。或いは大阪の学力は60年代と変わらず,他の都道府県の学力が大きく向上しただけかもしれない。

しかしいずれにせよ,大阪という地域が60年代においては全国の中でも高学力の地域であったのが,2000年代の頃には下から数えた方が早い地域になってしまったのは確かである。そしてこのことから,全国共通であるはずの「学習指導要領」以外の要因によって,順位変動がもたらされた可能性が示唆されるのである。

これがゆとり教育悪玉論の第一の弊害である。日本においては60年代に全国学力調査が廃止され,2000年代になって復活するまで全国規模の学力調査は存在していない。したがって,この間に実施された学力調査は特定の地域,特定の時代に限定されたものでしかない。本来これらの調査結果は,調査が直接の対象としている集団にしか適用できないはずである。しかし,それらの調査結果に「ゆとり教育が原因だと思われる」の一言を付すだけで,その結果は直ちに全国の児童・生徒に適用可能なものとなる。「ゆとり教育」は全国で一様に行われていたからだ。

しかし,今見たように実際には都道府県という大きな区分でさえ,その学力変動は各県ごとに大きな相違を見せている。まして,さらに限定された集団を調査するならば,その結果の解釈には何重にも留保をつけておくべきだろう。地域限定的な調査の結果が,無制約に全国調査の結果として解釈されてしまうこと,これがゆとり教育悪玉論の弊害である。

4.4 ゆとり教育悪玉論の弊害2―ゆとり教育の期間

それでは全国学力調査で示唆された大阪の学力低下という現象を,苅谷らのグループはどう受け止めたのか。残念ながら苅谷自身の説明は確認できていないが,苅谷調査のメンバーの一人であった清水宏吉は2007年の全国学力調査の結果を知った時の衝撃を次のように記述している。

他方大阪では,2007年10月に第1回目のテストの結果が発表された際に,文字通りの激震が走った。ここ数年にわたって,大阪府の学力向上・学力保障の取り組みを研究者の立場からサポートしてきた筆者自身にとっても,その結果は衝撃的であった。あまりよくないだろうとは覚悟を決めていたが,まさかここまで悪いとは夢にも思っていなかったというのが本当のところである(志水 2009 p.33)。

志水にとっても大阪の学力低下の大きさは予想以上のものであったらしい。それはすなわち,苅谷調査の時点では大阪固有の学力低下要因を想定していなかったということでもある。そのためでもあるのか,志水は2013年に,池田調査,苅谷調査に続く三回目の学力調査(以下,志水調査と呼ぶ)を行っているが,その調査報告書の冒頭では「国の教育」を憂えていた前回とは違い,次のようにトーンダウンしている。

二〇一二年のPISA 調査の結果によれば,日本の子どもたち(一五歳児)の学力はかなり回復傾向にあると言われているのだが,より年少の子どもたちにはどのような変化が生じているのだろうか。『大阪』という地域的な限定はあるものの,その問いに答えようとしたのが今回の第三回調査であり,その分析結果を速報的にまとめたのが本書である(志水他 2014 p.6)

ただし志水は,苅谷調査において示されていた「学力低下」の原因がゆとり教育にあるという基本姿勢まで変えているわけではない。たとえば,『調査報告「学力格差」の実態』の中で,志水は2000年代の教育を次のように振り返っている。

文部科学省が『ゆとり教育路線』から『確かな学力向上路線』にかじを切ったのは,二〇〇三年のことであった(中略)そして今回の調査である。二〇〇一年から二〇一三年へといたるこの一二年間は,間違いなく『確かな学力向上路線』の期間であった(同上 pp.2-5)。

つまり,2001年に実施された苅谷調査における学力低下の原因が,文科省の『ゆとり教育路線』にあるという志水の主張は変わってはいない。加えて志水は,2012年に実施された第4回PISA 調査や,志水調査において確認された「学力回復」の原因として,2000年代の「確かな学力向上路線」を挙げているのである。

何かおかくしはないだろうか。本稿では一貫して「ゆとり教育」を2002年から実施された98年改訂として扱ってきた。しかし,志水が説明する「ゆとり教育路線」は90年代の教育を指しており,「確かな学力向上路線」,つまりは『脱ゆとり教育』こそ,本稿で扱ってきた「ゆとり教育」と重なってしまう。果たして,これはどう解釈すべきだろうか。この問題点こそ,ゆとり教育悪玉論の第二の弊害である。

もちろん,志水がゆとり教育の実施年を勘違いをしているわけではない。志水と同様の主張をしている論者をもう一人挙げておこう。1章で取り上げたベネッセの『学習基本調査』の代表である耳塚寛明である。『学習基本調査』では,ゆとり教育後の第3回調査(2006年)において,学習行動・態度に大幅な改善が見られたことは先述のとおりである。この「学習回帰」の傾向について,耳塚は調査報告書の冒頭で次のように述べている。

新学習指導要領は2002年に小・中学校で,翌年から高校で実施されました。同時に完全学校週5日制もはじまります。しかし,その導入の前からすでに新学習指導要領への批判が高まっていました。高等教育関係者からわき上がった学力低下への懸念の声は,メディアや世論をも席巻する勢いでした。文部科学省(以下,文科省)は2002年に『学びのすすめ』を公表して,ゆとりから脱ゆとりへと,舵を切り始めました。文科省自身は当初躍起になって否定をしていましたが,確かな学力への路線転換がどれだけ現場を動かすものであったのかは,読者の皆様がご存じのとおりです。

耳塚もまた志水と同様に,2002年,つまり「ゆとり教育」の開始時期を正に「脱ゆとり教育」の端緒とみているのである。加えて,耳塚はそうした「脱ゆとり路線」が教育現場に対し大きな影響を与えてきたことを指摘している。今まで引用してきた学習指導基本調査や学習基本調査の報告書でもこの態度は一貫している。つまり,学校外の学習時間が増えたのも,宿題の勉強時間が増加したのも,ゆとり的教育観から非ゆとり的教育観への転換も,すべてその原因を「2002年からの脱ゆとり教育」に求めているのである。

ここで明らかにしたいのは,「ゆとり教育の期間」が恣意的に選ばれうる危険性である。これまでの章で説明したように,ゆとり教育は2002年になって突如として生まれたものではない。ゆとり教育の嚆矢は77年改訂にあり,80年代以降の教育の基本方針こそが「ゆとり教育」なのである。しかし,ここで一つの問題が発生する。それは,日本において70年代以前の児童・生徒の学力を明らかにするような大規模調査の蓄積が存在しないことである。

他方,先述したように,学力低下を「実証」する調査が乱発されるようになるのは90年代に入ってからのこと,遡っても80年代のことである。つまり,これらの学力調査のほとんどは同じ「ゆとり教育」の枠組みの中で比較していることになる。必然,調査の結果がどちらに転んでも「ゆとり教育」が原因と言い得るのである。90年代から2000年代に学力低下が観察されれば,それは「ゆとり教育」が原因であり,逆に学力向上が観察されれば,それは「脱ゆとり教育」の成果である。苅谷調査でも学習基本調査でも,この論理が使われている。

苅谷調査が比較しているのは,1989年時点と2001年時点であり,この間に見られた学力低下は,苅谷らによれば90年代の「ゆとり教育」が原因となる。他方,90年代と2000年代を比較する学習指導基本調査・学習基本調査でみられた学習回帰の傾向,或いはPISA や志水調査で示された学力回復傾向は,2000年代の「脱ゆとり教育」が要因なのである。

4.4.1 「ゆとり教育以前」のゆとり言説

ここで早合点する人もいるかもしれない。「わかった,ということは90年代の教育こそが『真の』ゆとり教育なのだ」と思うかもしれない。違うのである。もう一度,5.1節の議論を思い出してほしい。ここでは,多くの大学関係者が90年代に学力低下が起こったと主張している。

この学力低下論は当初,「大学生の理数能力」という限定的な領域を対象としていた。そのため,90年代半ばまでの学力低下論は,主に大学の入試制度の変更,特に,受験に必須となる科目数の減少や推薦入学などの選抜方法をその原因とするものが多かった。

しかし,90年代後半から「ゆとりバッシング」が始まると,「ゆとり」と「学力低下」が結び付けられ,大学生以外の,小・中・高校生の学力低下論にまで発展していく。たとえば,京都大学の田中耕治(2000)は次のように指摘している。

第二次大戦後になって「学力低下」問題は教育界に何回となく登場するようになるが,このたびは「分数ができない大学生がいる」という衝撃的なメッセージに代表されるように,とりわけ大学生の学力問題を発火点にしていることが特徴である。しかしながら,その衝撃は,大学生の学力問題にとどまらずに,この間とられてきた「ゆとり」を基調とする教育課程政策の是非にまで及びつつある(田中 2000 pp.59-60)。

田中が指摘する通り,90年代後半から2000年代初めに見られる学力低下論は「大学生の学力低下」を飛び越えて,小学生・中学生・高校生の学力低下論にまで飛び火するようになる。たとえば,東京大学の飯田國廣(2000)は,学力低下の「現状」について次のように指摘している。

(筆者注:独創的な技術や能力について)そのような萌芽はもっとゆとりのある教育からでないと生まれないといった声が高まり,小学校から大学に至る授業時間割にゆとりを持たせ,しかも課目の内容を大幅に削り,空いた時間は学生の自主的な生活に充てるという方針が流行し始めた。一方少子化で人学志望者が激減することを恐れた大学は数学,英語などの受験課目を廃して受験者を獲得しようとし,また基準を甘くして無試験入学を許可する。(中略)自然の結果としていわゆる学力低下の傾向が助長される(飯田 2000 p.7)。

飯田は,受験科目の減少や入学基準の緩和といった,いわば「古典的な」学力低下論を主張しつつも,それに「ゆとり教育による学力低下」も絡めている。ちなみに,飯田は教育学者ではない。この手の学力低下論は90年代後半以降急増することになる。たとえば,近畿大学の本浪清孝(2001)なども次のように述べている。ちなみに,本浪も教育学者ではない。

一般の人が思っている以上に,最近の大学生も含めた「学力」の低下は著しい。しかも,毎年徐々に低下が加速している。基礎科目である「英語・数学・国語」の低下は,大学において深刻な問題になっている。低下の原因は,「ゆとり教育」と豊か故の価値観の変化だと思われる。最近の高校生の勉強時間は,毎年徐々に少なくなっている(本浪 2001 p.1)。

これらの,学力低下論者,或いは苅谷や志水,耳塚らが批判する「90年代以前のゆとり教育」を受けてきた子どもたちには,彼らの(一部の)理屈に従えば,「この国を蝕むほどの」「著しい」学力低下が生じているはずである。それでは,90年末と2000年代の初めに実施された国際学力調査である「PISA2000」と「TIMSS1999」の結果はどれだけ悲惨だったのだろうか。授業時数も学習内容も減らされ,かといって学校外で勉強するわけでもない,90年代の児童には甚大な学力低下が起こっていても不思議ではない。PISA2000とTIMSS1999の結果が公表されるのは,それぞれ2001年,2000年のことである。学力低下論者たちはこれらの調査結果を心待ちにしていたかもしれない。

結果は逆だった。PISA2000では,読解力の順位が,参加した31か国のうち8位となかなかの好成績,90年代に盛んに主張された理数能力の低下に至っては,数学的リテラシーが1位,科学的リテラシーが2位という結果に終わった。また,TIMSS1999についても,参加した38か国中,数学は5位,理科は4位であった。なおTIMSSにおいて日本よりも順位の高かった国は,数学ではシンガポール,韓国,台湾,香港の4か国であり,理科では台湾,シンガポールハンガリーであった。ハンガリーを除けば,いずれも近年になってから学力向上の著しい地域である。

PISA2003でみられた学力低下の傾向とそれへの反応は「PISA ショック」と呼ばれているが(5章後述),学力低下論者たちにとって何よりもショックだったのはPISA2000・TIMSS1999 の結果だったかもしれない。あれほど学力低下を喧伝しておきながら,蓋を開けてみれば日本の子どもの理数能力は世界トップレベルだったのである。

それでは,PISAとTIMSSの結果を受けて,学力低下論者たちは自説をとりさげたのだろうか。もちろんそんなことはない。TIMSS1999やPISA2000で示された「日本の高学力」は,その後のTIMSS2003,PISA2003の結果で明らかになった「日本の凋落」と比較することで,「ゆとり教育の失敗」を補強する材料として使われているのである。

もちろん,PISAの初回調査などは国際間の比較にしか使うことはできない。世界でトップレベルの成績だからといって「学力低下」が起こっていないとは断言できない。しかし,学力低下論者たちの主張を思い出さなければならない。彼らは,現在の子どもに「著しい学力低下」が起こっていると主張していたのである。「日本が亡ぶ」,「学力が崩壊した」といった主張を,誰に責められるわけでもなく自由奔放に繰り返していたのである。

彼らの主張が正しいのであれば,彼らは世界でもトップレベルの高学力をもった子どもたちよりも,なお「はるかに高い」学力を有していたことになる。何様だと言いたいところだが大学教授様がそうした言説を先導していたのだから性質が悪い。

しかし,おそらく彼らはPISA やTIMSS の結果を,本当は知らなかったのではないか。実際は調査結果を心待ちになどしておらず,調査の存在すら知らなかったのかもしれない。先ほど,ゆとり教育による学力低下論が90年代後半から見られることに言及したが,この「2002年以前のゆとり言説」は,90年代末に現れ,ゆとり教育実施直前まで勢いを弱めることなく増加し続けている。たとえば,高田喜久司(2001)は次のように指摘している。

いま「学力低下」に関する議論が活発に展開され,ヒートアップしている実情にある。「学力低下で国が滅ぶ」「学力低下―日本の深い危機」「『ゆとり教育』で日本衰亡」等々,これらは総合誌教育雑誌の刺激的な特集テーマである。その論調の多くは子どもの学力低下の原因をゆとり教育に求めている(高田 2001 p.147)。

この時期には既にTIMSS1999の結果が公表されているはずである。しかし,4位や5位といった順位では学力低下論者のお気に召さなかったのかもしれない。しかし,PISA2000の結果が公表された後もこの流れは変わっていない。この時期に主張された膨大な学力低下論においてPISA やTIMSSの扱いは実にマイナーである。ほとんど言及されていない。これらの調査が科学的真理として崇め奉られるのは,2003年調査において明らかとなった「著しい学力低下」に俟つことになるのである。

4.5 ゆとり教育悪玉論の弊害3―十人十色のゆとり教育
4.5.1 PISA報道に見られる「ゆとり教育」の事後的選択

ベネッセ学習指導・学習基本調査,PISA調査の報道において「ゆとり教育」が結果に応じて事後的に定義される問題とその結果生じる弊害を取り上げる。それぞれ以下の記事を参照してほしい。


5章

引用・参考文献

[1] Sagan.C, 1995=青木薫訳2009, "The Demon-Haunted World" ハヤカワノンフィクション文庫
[2] 飯田國廣 2000 「ゆとりの付けは何処に行く(<特集>21 世紀の若者へ)」『日本造船学会誌』858号 p.845
[3] 市川伸一 2002 「学力低下論争」 ちくま新書
[4] 岡部恒治・戸瀬信之・西村和雄編 1999 「21 世紀の日本が危ない―分数ができない大学生」東洋経済新報社
[5] 科学技術政策研究所第2調査研究グループ・岡本信司 2001 「国内外の科学技術に関する意識調査の状況について」
[6] 苅谷剛彦・志水宏吉・清水睦美・諸田裕子 2002 「調査報告―『学力低下』の実態」 岩波ブックレットNo.578
[7] 後藤和智 2012 「現代学力調査概論 平成日本若者論史」
[8] J-CAST 2011年11月21日付「衝撃大学生のあきれた知能程度4 人に1 人『太陽は東に沈む』!」 http://www.j-cast.com/2011/11/21113842.html?p=all
[9] 志水宏吉・他7名 2009 「学力政策の比較社会学(その1) : 全国学力テストを都道府県はどう受け止めたか」『日本教社会学会大会発表要旨集録』61号 pp.375-380
[10] 志水宏吉 2009 「全国学力テスト―その功罪を問う」岩波ブックレットNo.747
[11] 志水宏吉・伊佐夏実・知念渉・芝野淳一2014 「調査報告―『学力格差』の実態」岩波ブックレットNo.900
[12] 高田喜久司 2001 「ゆとりと学力(子どもの学力読本―学力の形成基盤と学力向上へのストラテジー)」『教職研修総合特集』147 号pp.147-150
[13] 田中耕司 2000 「『ゆとり』と『学力低下』の関係」現代教育科学2000 年9 月号 pp.59-61
[14] 谷岡一郎 2000 「『社会調査』のウソ」文春新書
[15] 谷岡一郎 2007 「データはウソをつく―科学的な社会調査の方法」ちくまプリマー新書
[16] 西久美子 2008 「学校教育に何を求めるか―『教育に関する世論調査』から」NHK放送文化研究所『放送研究と調査』
[17] 日本経済新聞2012年2月24日付「大学生4 人に1 人,『平均』の意味理解せず」 http://www.nikkei.com/article/DGXNASDG24024_U2A220C1000000/
[18] 馬場四郎・他19名 1953 「III 戰後の日本における社会調査の傾向(<特集>社会調査 : 座談会)」 民族學研究 17(1), 45-67
[19] 本浪清孝 2001 「学力低下と日本企業」『近畿大学短大論集』34 巻1 号pp.1-10
[20] 読売新聞ONLINE 2016年1月29日付「『ゆとり』完全脱却,高校生の学習時間が初の増加」 http://www.yomiuri.co.jp/kyoiku/special/CO021190/20160129-OYT8T50060.html

*1:なお,西村らの調査では,その調査設計,分析,結果の提示に至るまで統計学的な処理が行われた形跡が一切ない。サンプルサイズの記述すらない。

*2:谷岡(2000)参照。なお,同書で数多の調査を"ゴミ"と切って捨てた谷岡はゆとり教育反対派であり、谷岡(2006)では「西村教授を尊敬しております」と述べている。

*3:たとえば,中学生国語の得点は「新学力観型」が最も高いにも関わらず,「通塾者と非通塾者の得点差」が持ち出され,新学力観型授業の失敗を結論付けている。また,重回帰分析によって「伝統的授業」が学力に正の影響を,「新学力観的授業」が学力に負の影響を与えることを示しているが,なぜか「中学生に尋ねた小学生時代の授業経験」という回りくどい変数を使っている。苅谷調査では小学生に尋ねた小学校の授業経験,中学生に尋ねた中学校の授業経験も調べているはずだが,その重回帰分析の結果は示されていない。

*4:もちろん,64年調査と07年調査の得点がどちらも間隔尺度以上であると仮定した場合である。第1象限と第3象限との比較は原点の取り方による。

若者論の構造①―若者論のつくりかた

若者カテゴリーの系図

若者論に取り組むにあたって,最初の障害となるのはその「膨大さ」である。若者論は政治・経済・文化の諸問題から,国家論,社会論,日本人論に至るまで,ありとあらゆる分野で論じられている。しかも,それらの若者論は首尾一貫した体系を持っているわけでもなく,互いに相反する言説が対立することもなく共存している。そのため,いざ若者論を分析してみようとしても,一体どこから手をつけてよいのか途方に暮れることになる。

しかし,種々雑多な若者論にも一定の構造を見出すことはできる。その一つが若者論における「若者カテゴリーの系図」である。日本社会の研究を行っているロジャー・グッドマンは,日本の若者論における若者カテゴリーは,その根底にある「道徳的語彙(moral vocabulary)」において繋がっており,特徴ある「若者問題の系統」を形成することを指摘している(Goodman・井本・Toivonen 2013 pp.50-51)。以下の表はグッドマンが示したその一例である。

f:id:HaJK334:20220202124843p:plain

この表は1970年代から2000年代までに日本で注目を集めた若者問題,すなわち若者論のカテゴリーである。もちろん,この他にも「太陽族(50年代)」「全共闘世代(60年代)」「しらけ世代(70年代)」「新人類(80年代)」「キレる十七歳(90年代)」「ゆとり(2000年代)」など,各年代を代表する若者論は複数存在する。しかし,グッドマンがこの表で明らかにしているのは,若者カテゴリー間の類似性であり,その道徳的語彙における繋がりである。

たとえば,「登校拒否」と仕事を拒否する「ニート」,いつまでも自立せずに親に依存する「独身貴族」と「パラサイトシングル」,自己を未決の状態に留め,そこに安住する「モラトリアム人間」と「フリーター」,一種病的な特異性が強調される「オタク」と「ひきこもり」。これらのカテゴリーは異なる年代の若者カテゴリーであっても,そこには確かな類似性がある。

また,これらのカテゴリーの根底には「未成熟」「甘え」「非社会化」といった道徳的語彙が通底していることも分かる。70年代以降(もちろんそれ以前も),未成熟な若者が他者に依存し,社会から距離を置く・孤立化していくという言説は何度も繰り返されてきた。

グッドマンは若者カテゴリーについてもう一つ重要な指摘をしている。それは若者カテゴリーが過去の若者論の「組み合わせ」によってつくられていることだ。若者論は過去の若者論の単なる焼き直しではないのである。たとえば,こに示した若者カテゴリーについて,グッドマンは次のように述べている。

新しいカテゴリーの中には,おおむね二つ以上の古いカテゴリーの「リミックス版」と思われるものがある。たとえば「ひきこもり」には「モラトリアム人間」(1970年代)や「オタク」(1980年代),そして「アダルトチルドレン」(1990年代)の特徴が多く再現されている。同じ傾向として,「ニート」は「パラサイトシングル」「ひきこもり」「フリーター」の融合とみなすこともできる(前掲 p.51)。

グッドマンが指摘するように,「ひきこもり」と「ニート」という2000年代を代表する二つの若者カテゴリーは,過去の若者論に見られる若者カテゴリーの特徴を色濃く受け継いでいる。

たとえば,「ニート」は「パラサイトシングル」のように自立することもなく親に依存し,「ひきこもり」のように未成熟で歪んだ内面を持っており,時として「フリーター」のように分不相応な夢を追いかける存在として描写される。まるでこの世の全ての悪徳がニートに凝縮されているかのようである。少なくとも若者論の世界では,若者は順調に劣化している。

若者論の「言いがかかり資源」

2000年代初頭のニート論を分析した『ニートって言うな!』(光文社 2006)において,著者の一人である内藤朝雄もグッドマンと同様の指摘をしている。内藤は若者劣化言説を「青少年ネガティヴ・キャンペーン」と名付け,そのメカニズムを,「いいがかり資源」の組み合わせによる「ヒット商品」を創出するモデルで説明している。以下の図である。

f:id:HaJK334:20220202125731p:plain

内藤のモデルでは「言いがかり資源」の組み合わせによって若者論が作られるが,同じ「言いがかり資源」を利用しているからといって同じ若者論が生み出されるとは限らない。言いがかり資源とそれに対応する言説は論者によって異なっており,主に「凶悪系言説」と「情けな系言説」という二系列に派生する。

たとえば,「ヴァーチャル」という言いがかり資源からは「ヴァーチャルの世界と現実の世界の区別がつかなくなった子どもが凶悪犯罪を犯す」という「凶悪系言説」と,「ヴァーチャルの世界に逃避し現実と向き合わない子ども」という「情けな系言説」が生み出される。

加えて,内藤もグッドマンと同様に若者論の再帰性を指摘している。若者論という「ヒット商品」は同じ言いがかり資源を使いまわしつつ,「過去のヒット商品」のイメージに上乗せされる形で再生産されていく。親に甘え,自立しようとしない「パラサイト・シングル」は,その特徴を一層際立たせたものとして「ひきこもり」や「ニート」といった若者カテゴリーに受け継がれていくのである(本田・内藤・後藤 2007)。

また,「ニート」と「ひきこもり」がしばしば混同,あるいは合成されるように(「ひきニート」など),同時期に流行した言説が相互に影響を与え合うこともある。

若者論のつくりかた

グッドマンと内藤の指摘をあわせて考えると,若者論が「道徳的語彙」と「いいがかり資源」の組み合わせで成立していることがわかる。

たとえば,「共感」という道徳的語彙と「少子化」という言いがかり資源の組み合わせでは,「少子化によって他者と触れ合う経験が少なくなった現代の子どもは共感性を失った」などの言説をつくることができるし,「甘え」と「少子化」の組み合わせなら,「少子化で少なくなった子どもは親の愛情を一心に受け甘やかされている」といった言説をつくることができる。
若者論をこの二つの要素の組み合わせとみるとき,若者論が日々膨大な数うみだされている理由,またそれが短期間のうちに生滅を繰り返す理由を説明することができる。すなわち,若者論の量的拡大は言いがかり資源と道徳的語彙の組み合わせの数に対応している。
一つの言いがかり資源からは,組み合わせる道徳的語彙によって複数の異なる若者論を容易に作り出すことができる。以下の表は筆者が作成した道徳的語彙といいがかり資源の組み合わせである。ここでは,内藤が示した四つの「いいがかり資源」と四つの「道徳的語彙」を組み合わせている。生み出されたのは都合十六の若者論である。

f:id:HaJK334:20220202130128p:plain

若者論は一種の連想ゲームである。ある言いがかり資源と道徳的語彙を組み合わせたときに,直感的に浮かぶイメージをそのまま表現してやれば,それだけで一つの立派な若者論ができあがる。ある若者論が世間の支持を得ることができるかどうかは,そのイメージがどれだけ多くの人間に共有されているかによって決定される。

ただし,若者論はありとあらゆる道徳的語彙といいがかり資源の組み合わせでつくられている。その必然的帰結として,若者論は常に一貫した体系を持っているわけではなく,しばしば若者論同士が矛盾する関係にたつこともある。

それでは,この相矛盾する言説がなぜ対消滅もせずに共存することができるのか、という謎は次の記事で説明するとして,この記事では一先ず若者論の基本的な構造を示した。このページを参考にして、みんなも身の回りの言いがかり資源から自分だけの若者論をつくってみてね(教育的配慮)

その2

 

 

ゆとり教育によって格差は拡大したのか【未完】

これまで、このブログでは「ゆとり教育による学力格差の拡大」という仮説に対して、折に触れてその検討を試みてきた。個人的には一区切りがついたのだが、何分各記事に分散しており統一性に欠ける。そこで、稿を改めて各検討の略述をここにまとめることにした。

煩を厭うて簡を尊ぶ世相であるから、冒頭から結論を言ってしまうと、ゆとり教育は格差拡大を意図した、或いは容認する政策ではなく、また、ゆとり教育によって学力格差が拡大したという証拠は殆ど無い。以下、順を追って説明していこう。

ゆとり教育はエリート教育だったのか

詰め込み教育

さらに悪いことに、中学校からかなりの部分を高校に先送りするにもかかわらず、高校卒業時の水準は落とさないと明言したため、高校での内容が極端に過密なものになっている。これでは、詰め込み・未消化による一層の落ちこぼれを生むだけである。

その一方で、能力のある生徒にとっては、小学校・中学校の、すぐ終わってしまう学習は全くつまらないものでしかなく、こちらも学習意欲を失う。「落ちこぼれ」の反対で、「浮きこぼれ」現象と呼ばれるものである。今の方向でこのまま進めば、さらに学力低下がひどくなるばかりなのはもう目に見えている。

西村和雄編, 2001, 「学力低下が国を滅ぼす」, 日本経済新聞社, p.167

ゆとり教育(1998年改訂学習指導要領)が実施される直前、一部の論者が危惧していたのは、学習内容の削減による"浮きこぼれ*1"の存在であった。今では意外に思えるかもしれないが、これは当時としては自然な発想である。というのも、大量の落ちこぼれを生んだとされる70年代の「詰込み教育」への反動こそ、80年代以降にゆとり教育路線を推し進めた原動力だったからである。詰込み教育が落ちこぼれを生んだのであれば、ゆとり教育浮きこぼれを生むであろうというわけだ

補足しておくと、落ちこぼれという言葉は今でこそ一般に使われるようになったが、元々は70年代の詰込み教育バッシングの際に流行した言葉である。当時の学校教育は、膨大な学習内容を消化することだけを目的にした「新幹線授業」とも揶揄され(毎日新聞1976年10月7日付)、全国教育研究所連盟の調査では、教育課程についていける児童・生徒が小学校で7割、中学校で5割、高校では3割という結果が出た事から、「七五三教育」という造語も生まれた(「戦後日本教育史料集成」編集委員会 pp.256-257)。

ここで注意しなければならないのは、批判の過程が異なるとしても、結局のところ詰込み教育とゆとり教育は同じ批判に晒されていたということである。たとえば、1975年に日教組と国民教育研究所が共同で実施した学力調査を例に引いてみよう。この調査はその衝撃的な結果から各紙に一面で取り上げられ、結果として詰込みからゆとりへと方針が転換された契機ともなった調査なのだが、これに対して当時の日教組と文部省の代表はそれぞれ次のような談話を残している。

【基礎学力の低下明白】
日教組の今村彰教育政策部長の話「この調査で、子どもたちの読み、書き、計算といった基礎的な学力が低下、あるいは停滞し、子どもたちの学力の格差が拡大していることが明らかになった。現行の教育課程、教科書の内容について抜本的な検討が必要であることを示すものだ」

【意外な結果ではない】
文部省・沢田道也小学校教育課長の話「日教組の調査結果は意外なことではない。どこが調査してもこんな結果になるだろう。現在、教育課程の改訂に取り組んでいる文部省の教育課程審議会でも問題にしているところであり、秋の中間答申もこの方向で作業が進められているところだ」

批判する側、批判される側ともに、学力の低下、及び学力格差の拡大を共通の認識としていたことが分かる。勿論、これは日教組と文部省だけの見解ではなく、広く世間一般に膾炙していた認識である。そのことを示すために、当時の国会議事録をいくつか引用してみよう。ただし、長いので読み飛ばしてもらっても構わない。

これによりますと、小学校の五、六年の子供の約五七%は、学校での勉強全体が「わからない」と答えています。半分以上がわからないと答えています。この数字は決してこれだけの問題だけではなしに、昭和四十五年に発表された全国教育研究所連盟の調査においても、ほぼこれは一致しております。私はこの小中学校の半数以上の子供が日々の授業にはついていけないで、置いてきぼりにされておるという事柄について、これはきわめて重大な問題だと、こう思いますけれども、このような事実について、大臣、どうお考えになるでしょうか。

69 - 参 - 文教委員会 - 閉1号 昭和47年09月29日

まず、最初の一つの問題ですけれども、これは行き届いた教育を保障するという点です。いま母親たちにとって一番ショッキングな問題として語られている一つが、いま義務教育でクラスの半分以上の子供たちが授業についていけないという調査報告の結果なんです。これは文部大臣も御存じだと思いますけれども、一昨年全国教育研究所連盟が出した調査の報告ですけれども、義務教育においてすら半分以上の子供が授業についていけない。自分の子供も、そのついていけないほうに、もしや入っているのではないだろうか、そういうことがあったのではたいへんだし、大切な基礎学力を身につけさせるためには、何としてでもこういう子供が落とされていく状態を改善しなければならないというのが親の熱心な願いになっております。

71 - 衆 - 文教委員会 - 3号 昭和48年02月23日

これはもうすでに御承知でございますけれども、教育内容の理解程度について全国教育研究所連盟の調査が出されておるわけであります。(中略)これは学校の先生方の判断の場合ですが、指導主事の判断によりましても、約二分の一の子供が理解をしておるというのが五〇・五%、すなわち逆にいたしますと、約半分の子供がわからない状態に置かれている、こういうきわめてショッキングな数字が出てまいったわけです。(中略)「学習のわからない子がふえてきた」という声は、全国のどこからでも出ています。現場の教師は勿論のこと、子どもたちも、父母たちもみんな困ってしまっています。」というふうなこの説明がつくわけですね。こういう事態をどうするかということ、これはほんとうに重要なことだと思います。

71 - 衆 - 文教委員会 - 16号 昭和48年05月09日

かくて、わが国の文教予算の総予算に占める比率は、本年に至ってついに一割を割ったではありませんか。このような貧弱な教育諸条件の上に、財界の要求する労働力養成のための差別と選別教育の強引な推進は、いま何を生み出しているでしょうか。全国教育研究所連盟の調査が示すとおり、半数以上の子供が教科を理解できないでいるという衝撃的な報告となってあらわれております。また、ことしは児童生徒の自殺件数は、戦後最高を記録しているではありませんか。かかる教育の荒廃をもたらした文教行政上の失政の責任もまた、のがれることはできないのであります。

71 - 衆 - 本会議 - 61号 昭和48年09月21日

この調査を見ますと、学力の落ちこぼれといいますか、私はこれは落ちこぼしと言った方がいいのじゃないかと思うのですけれども、いずれにしても、その落ちこぼれが物すごく多い、学力の質というものが停滞しておる、あるいは低下をしておる、さらに、学力の格差が増大しておる、こういうことがこの調査ではっきり出ておるわけでございます(中略)巷間教育課程についていける子供のことを、七五三教育だ、こういうことも言われたことがあるわけでございますけれども、この調査は大体そういうことをあらわしているような気がするのです。

77 - 衆 - 文教委員会 - 7号 昭和51年05月19日

以上の記述を読んで察しが付いているかもしれないが、落ちこぼれと学力格差の拡大が問題視されたということは、必然的に詰込み教育もまたエリート選別教育の誹りを免れなかったということである。たとえば、東京地学教師グループは1968・69年改訂指導要領に対し、次のように直截な言葉で批判している。

しかしその内容は,われわれ民間教育運動のなかで追及されてきた『自然科学をすべての国民のものに』という,教育内容を科学的に,大衆的にというものとはいちじるしく異なる。具体的には少数(年令人口の約3%)の『ハイタレント』と多数の『非タレント』を『選別』しようという教育政策にうかがうことができる。少数の『ハイタレント』には『英才教育』を,多数の『非タレント』には『能力』・『適性』に欠けるとして,それらにみあった低い教育を与えようとしているのである(東京地学教師グループ 1969 p.25)。

三浦発言

ここまで、詰込み教育において落ちこぼれや学力格差の拡大が問題視され、更には意図的なエリート選別教育と批判された経緯について説明してきた。しかし、これは詰込み教育を批判するためではない。ここで示したかったのは、実証を伴わない主張には価値が無いということである。なんとなれば、詰込み教育とゆとり教育という正反対(とされる)教育政策が、全く同一の批判を受けているからである。理屈と膏薬は何処へでも付くということだ。

ところで、98年の学習指導要領の改訂に際し、作家で教育課程審議会会長であった三浦朱門は「戦後五十年間の教育は落ちこぼれの救済に血道を上げてきた。それに代わってゆとり教育ではエリート教育をすすめる。落ちこぼれには道徳性だけを養ってもらえばよい」という趣旨の発言を行い話題となった。この発言は、ゆとり教育が格差拡大を齎すエリート選別教育と誤認された最大の原因かもしれない。

ただし、先にも述べたように、そもそも「落ちこぼれ」という言葉自体が詰込み教育の産物である。それ以前に学校教育の文脈でこの言葉が使われた事例は、寡聞にして知らない。三浦の認識はあくまでも三浦の認識であり、文部省の統一された見解ではない。そして、詰込み教育もまた"政府・財界の要求する労働力養成のための差別と選別教育の強引な推進"と批判されたことは、先の議事録の引用に示した通りである。

また、こうした関係者の発言から学校教育の真実が分かるというのであれば、反対の事例を出すことも容易である。たとえば、元文科省次官である小野元之は、2006年に行われた講演の中で、ゆとり教育には三つの誤解があると言い、その三つ目について次のように述べている。ただし、小野は三浦とは違い、これは個人の見解であるときちんと断っている。

それから三つめには、このような教育内容の大幅削減*2を決定したということで、文部科学省は学力向上をあきらめたのか、学力向上政策を放棄したのかと、世の中に思われてしまったことがあります。十八歳人口が減ってきて、大学さえ選ばなければ全員が進学できるような全入時代に入るのだから競争しなくてもいい、学校ではそんなに一生懸命勉強しなくていい、こういう間違ったメッセージを与えてしまったのではないかということです。

「基調講演:日本の子どもに求められる読解リテラシー東京大学大学院教育学研究科 教育測定・カリキュラム開発<ベネッセコーポレーション>講座国際研究会 2006年8月6日

結論

ここで「ゆとり教育はエリート選別教育だったのか」についてひとまず結論を出しておこう。結論は不明である。というより、そうであるとも言えるし、そうでないとも言える。当たり前だが、一国の教育政策が決定するまでの過程には、様々な利害関係者の思惑が複雑に絡み合っており、一個人の思想や信条で決定されることはない。

たとえば、90年代の公教育を方向づけた87年の臨教審について、宇野(2015)は、臨教審において使われる「個性」という言葉は、画一的な教育が愛国心を喪失させたと主張する「国家派」と、硬直化した日本の行財政に改革を求める「自由化派」という、対立する二つの派閥を統一するためのシンボルであったと説明している。

ゆとり教育も同様に、国家・社会の立場からゆとり教育に肯定的なもの、否定的なものがいれば、児童・生徒の立場からゆとり教育に肯定的なもの、否定的なものがいたのであり(山内他 2005)、一国の政策とはそれぞれの論者がそれぞれの立場で主張を繰り返した結果として生じた、歴史的・社会的産物なのである。

補足

念のため補足しておくと、ゆとり教育がエリート教育であったとするならば、その制度的裏付けは「選択教科」の拡充を措いて他にない。授業時数の削減は社会経済的地位による格差を拡大する可能性はあるが、能力による選別機能はむしろ弱まってしまう。学習内容の削減も同様であり、加えてゆとり教育では授業時数の削減以上に学習内容が削減されたため、格差の拡大や固定化を意図していたとも考えにくい。学習の効果は一般的に(そして実証的にも)逓減するため、学習内容を削減すると追加の学習による便益が減少するからである。

ゆとり教育によって格差は拡大したのか

律儀に読んでいただいた方には本当に申し訳ないのだが、以上の記述は全くの無意味である。先にも少し触れた通り、実証を伴わない主張は無価値であり、重要なのは実際に格差が拡大したのかどうか、していたとすればその原因は何か、ということである。上の記述は、あたかも一国の教育政策がまるで統一された意思や目的を持っているかのように思いなす人*3に向けた記述であり、そうでなければ読む必要はない。

というわけで、早速「ゆとり教育による学力格差の拡大」を検討していこう。とは言っても、冒頭に述べた通り、既に別の記事において検討は済ませてしまっているので、ここでは簡単にその結果を紹介するに留める。

PISA

良く知られているように、1956年から開始され、その後10年程実施された全国学力テストが日教組の反発によって終了して以来、日本には全国的な学力調査の蓄積が殆ど存在しない(袰岩 2016; 川口 2020)。加えて、日本の学校現場では子どもの家庭環境を訊ねることがタブーの一つとされていることもあり、教育格差に関するデータを入手することは、研究者でも困難となっている(志水他 2019)。

他方、2000年前後から開始されたPISA・TIMSSのような大規模国際学力調査は学力の経年比較が可能となるように設計されており、加えて(生徒質問紙であるため精度には欠けるものの)、生徒の家庭環境に関するデータも収集していることから、親の社会経済的地位(SES)による子供の学力格差を経年比較することができる。PISAでは、これらSES設問の各得点を合成したESCSという変数を用意している。

というわけで、ESCSと各領域(読解力,数学的リテラシー,科学的リテラシー)の得点(PVs)を回帰分析した結果が以下である。分析に当たってはRのintsvyパッケージを利用した。なお、PISA2000の結果が含まれていないのは、当該調査ではSESに関る設問に日本の生徒が回答していないからである。詳細については後述する。

f:id:HaJK334:20210505051006p:plain

普通に読めば、この15年間ESCSが学力に与える影響はほぼ一定であり、少なくとも特定の教育制度の変更と係数の変化を結びつけることはできない。付言すると、ゆとり教育が実施されたのは2002年(小・中学校で一斉実施)であり、脱ゆとり教育が実施されたのは小学校で2011年、中学校では2012年からである。

以下は、各年度のPISA受験者が「ゆとり教育」を受けた年数を表にしたものである。網掛けの部分がその年数となっているが、2009年から実施された移行措置については新指導要領(08年改訂)の前倒しという性格が強かったためグレーにしている。

f:id:HaJK334:20191204041809j:plain

仮に、PISA2003においてESCSの影響力が強まっていたとして、続くPISA2006-2012の結果はゆとり教育との因果関係を否定している。98年改訂では年間70コマ削減されているため、当然にPISA2006-2012の受験者の方が削減された授業時数が大きくなるからである。

むしろ、敢えて係数の変化と指導要領の変更を結び付けたいのであれば、PISA2003-2015までの結果は「ゆとり教育による格差縮小」「脱ゆとり教育による格差拡大」と解釈する方がまだ合理的である。ただし、PISA2018では再び格差が縮小していることから、結局指導要領の変更が学力格差に与える影響は、それほど大きくないのかもしれない。

補足―川口大司による格差拡大説

Daiji, Kawaguchi. (2013) "FEWER SCHOOL DAYS,MORE INEQUALITY", Global COE Hi-Stat Discussion Paper Series 271

ゆとり教育による格差拡大」を実証するものとして頻繁に引用される川口論文だが、この論文には(というかこの論文を軽々に引用するには)いくつかの問題がある。第一に、川口が二次分析に利用した社会生活基本調査が示しているのは(親の学歴が)中卒の子供と大卒の子供の学習時間差拡大であり、実際には論文に示されていない「親の学歴が高卒」の子供の学習時間が最も伸びている。したがって、中卒と大卒の格差は拡大したと言い得るが、高卒と大卒の格差はむしろ縮まっていると言える。詳細については以下の記事を参照してほしい。

第二に、川口論文ではPISA調査のデータを利用してSESと学力の関係がゆとり教育の前後でどのように変化したのかを調べているのだが、そもそもPISA2000では日本の生徒は家庭の社会的・経済的地位に関る設問に回答していない。そこで、川口は家庭の蔵書数や自室の有無等の変数を用いて親の学歴を予測し、その予測された親の学歴を利用して学力との関係を調べている。

ただし、PISA2003以降は日本も(親の学歴含む)SESに関わる設問に回答しており、それらの結果を合成したESCS(Economic Social Cultural Status)という変数が用意されている。そのため、川口の利用した手法を採用する必要はなく、より直接的に学力とSESの関係を調べることができるようになっている。

社会生活基本調査のデータと違い、PISAデータは万人に公開されているため誰でも容易に検証することが可能である。そして、検証した結果が上記である。

TIMSS

次にTIMSSについて検討していきたのだが、残念ながらTIMSSではPISAほどSESに関するまとまった情報は得られない。保護者に対する調査が実施されるようになったのはTIMSS2011からであり、それ以前の結果については「家庭にある本の冊数」がSESの代理指標としてしばしば利用されている(同上 https://a.co/8NryTdE)。

ここでは『日本と世界の学力格差――国内・国際学力調査の統計分析(以下、「世界の学力格差)』から、川口の分析を引用しよう。以下はTIMSS2003-2015を対象に、蔵書数が「0-10冊」のグループと「201冊以上」のグループの得点差を分析した結果である。特に学力格差に関する部分を抜粋した。なお、TIMSS2003以降の比較となっている理由はPISAと同様である。

はじめに、表5-3の日本のデータを確認しておこう。2000年以降、日本では学力の低下が騒がれたが、TIMSS2003から2015までの数値を見る限り、この間の学力の低下は確認できない。むしろTIMSS2011や2015で見られるのは、学力の向上である。得点差を見ても、TIMSS2007で得点差が拡大する傾向が見られたものの、その後のTIMSSではやや縮小傾向にある。また「0-10冊」のグループの成績のみ、TIMSS2003から2007で低下したものの、それ以外の箇所は回を重ねるごとに得点が上昇している。要するに、日本のTIMSS第4学年の数学の成績については、この間、全体的に向上する傾向を示しており、明らかな学力低下や学力格差の拡大は認められないということになる。

(中略)

表5-13をみるとわかるが、TIMSS2003からTIMSS2012まで日本の第8学年の得点差は、第4学年のそれと同じか、やや大きい程度の数値である。ただここで注意したいことは、TIMSS2003から2007にかけて得点差が拡大しているという点である。この得点差は2015年にさらに拡大し、90点を超えるまでになっている。この傾向がたまたま生じた一過性のものなのか、それとも今後続くのかは、今後のデータの蓄積を待つ他ないが、一貫して得点差が拡大傾向にあるというのは気なる点である。

(中略)

ここまでの分析を総括すると、日本についてはTIMSSから明らかな学力低下の傾向は見られなかった。日本の平均点は、今回分析対象とした10の地域・地方の中ではむしろ高い方である。第4学年に関して言えば、得点差も比較的小さく、理想的な状況に近いとすら言える。日本より得点差の小さな国・地域は、香港(HKG)やオランダ(NLD)くらいである。

一方、第8学年においては、この間に得点差が拡大していく傾向が見られた。この拡大傾向が今後も続くのかどうかは定かではないが、TIMSSの日本の成績を読む際は、平均点の高低のみならず、格差についても引き続き注視していく必要があるといえるだろう。

TIMSSでは、第4学年数学においては学力格差の拡大が確認されず、第8学年数学において格差の拡大傾向が確認されている。ただし、川口が指摘する通り、格差はTIMSS2015において一層拡大している(2003-70.9点,2007-78.4点,2011-77.0点,2015-90.5点)。TIMSS2015では第8学年数学で過去最高の得点を記録しており、それが「脱ゆとり教育の成果」と喧伝されたことは周知の通りである。ちなみに、この後は川口もPISAデータのESCS変数を用いた回帰分析を行っている。結果は筆者と変わらないのでここでは省略する。

刈谷・志水調査

「世界の学力格差」の冒頭で、監修者である志水宏吉は次のように述べている。

学力低下の実体は学力格差の拡大である」という主張を、監修者らのグループが行ってから15年あまりが経過した。小中学生の「学力の2こぶラクダ化」という言葉で表現したが、そうした見方は今日では日本の学校現場の常識となっている。

志水の自負も故無しとはしない。市川(2002)が指摘するように、苅谷・志水らが行った調査は学力低下論の源流の一つでもあり、その白眉はそれまで学校現場においてタブーとされてきた学力格差の実態を明らかにしたことにあるからだ。

ただ、ここで注意しておかなければならないのは、志水が明らかにした学力格差の実態はゆとり教育が実施される前のものであり、2013年に志水自らが実施した後継調査では、学力格差は縮小しているのである。

これがまた何ともややこしいのであるが、志水は80年代を前ゆとり教育の時代、90年代をゆとり教育の時代、そして一般にゆとり教育が行われていたとされる2000年代を脱ゆとり教育の時代と考えているのである。事の詳細についてはいくつかの記事に書いているので、参照していただければ幸いである。

ちなみに、(学力低下や学力格差の拡大はゆとり教育が原因であるという)この志水の認識は「世界の学力格差」にもそのまま引き継がれているのだが、川口が執筆した章では、ゆとり教育による学力格差拡大の懸念を紹介した後、「一方で、こうした学力格差の拡大を懸念する声とは、逆の現象を指摘する研究も存在する」として志水の研究を紹介している。読者が混乱するので志水先生はそろそろ何らかの注釈を付けてほしい。

 

色々と加筆修正予定

引用・参考文献

市川伸一(2002).「学力低下論争」. ちくま新書

宇野由紀子(2015).「臨教審答申における『個性』の意味: 学校教育を通じて養成しようとする人間像」. 『教育論叢』58 巻pp.55-64

川口俊明(2020). 「全国学力テストはなぜ失敗したのか――学力調査を科学する」. 岩波書店

志水宏吉(監修)・川口俊明(編著).「日本と世界の学力格差――国内・国際学力調査の統計分析」. 明石書店

東京地学教師グループ(1969)「地学教育の諸問題と今後の方向」地球科学 23(1) 

袰岩晶・篠原真子・篠原康正(2019).「PISA調査の解剖 能力評価・調査のモデル」. 東信堂

山内乾史 ・原清治(2005).「学力論争とはなんだったのか」. ミネルヴァ書房

 

*1:山内他(2005)では、ゆとり教育に批判的な言説の一類型として"吹きこぼれ論"としている。

*2:一般には三割削減と言われているが、これも小野によれば一割の削減に留まるという。ゆとり教育における学習内容の削減はこちらを参照のこと

*3:一例 https://twitter.com/fsansn/status/1476534516533858311

それでゆとり教育ってのはどこのどいつだよ

Wikipedia

今日、何の気なしにWikipediaの「学力低下」の項を眺めていると、とんでもない記述が目に入ってきた(既に修正済み)。

苅谷他が行った学力調査では、89年と01年の同一問題との比較では、小学国語で78.9%→70.9%(-8.0%)、小学算数で80.6%→68.3%(-12.3%)、中学国語で71.4%→67.0%(-4.4%)、中学数学で69.6%→63.9%(-5.7%)へと下がっていることがわかっている(調査報告「学力低下」の実態(岩波ブックレット))。

01年と13年の同一問題との比較では、小学国語で70.9%→56.3%(-14.3%)、小学算数で68.3%→68.0%(-0.3%)、中学国語で67.0%→72.4%(+5.4%)、中学数学で63.9%→53.3%(-10.6%)と学力が低下傾向にある。

苅谷剛彦らは2002年に『「学力低下」の実態』で、1989年と2001年とで同じ問題を小中学生に答えさせる学力に関する調査を比較し、基礎学力の低下を指摘した(学習指導要領は、1991年に「知識詰め込み型」から「自ら学び、主体的に考える型」に改訂されている)。

同調査では

* 1989年と2001年では、小中学生の学力は明らかに低下している

* 2001年と2013年では、小中学生の学力は更に低下している

何がとんでもないのか、大方の人は良く分からないだろうから、ここで簡単に説明しよう。苅谷剛彦が行った調査(以下、苅谷調査)というのは、01年に大阪を対象として実施した学力調査であり、1989年に大阪大学の池田らが行った『学力・生活総合実態調査』(以下、池田調査)と同様の問題・アンケートを利用することで学力の経年比較を行っている。

そして、13年に行われた調査というのは(Wikipediaには一切記述されていないが)苅谷調査のメンバーでもあった志水宏吉が実施した後継調査(以下、志水調査)であり、池田調査・苅谷調査に続く3回目の調査として、過去の調査と同一の問題を使うことで経年比較を可能としている。

簡単にまとめると、次のようになる。1989年実施:池田調査, 2001年実施:苅谷調査, 2013年実施:志水調査。それぞれ12年の間隔で実施されていることから、学習指導要領の影響を測定するには格好の学力調査となっている。それ故、Wikipediaではこの調査が「ゆとり教育による学力低下」を示す証拠だとされていたわけである。

で、何がとんでもないのかという話だが、実は13年に実施された志水調査の報告書ではWikipediaとは正反対のことが書かれている。つまり、志水調査においては明らかな学力向上傾向が確認されているのである。誤読したという可能性はあり得ない。当該報告書では13年調査の学力向上傾向は一貫して分析のテーマとなっているからだ。そもそも、Wikipediaに記述されている数字は報告書のどこにも現れない謎の数字である*1

志水調査

で、まあこれだけならばWikipediaはやっぱりカスだなという話で終わるのだが、事はそう単純ではない。この志水調査で確認された学力向上傾向、当の報告書でどのように分析されているのかと言えば、何と03年から始まった脱ゆとり教育の成果とされているのである。具体的に該当する箇所をいくつか引用してみよう。

文部科学省が『ゆとり教育路線』から『確かな学力向上路線』にかじを切ったのは,二〇〇三年のことであった(中略)そして今回の調査である。二〇〇一年から二〇一三年へといたるこの一二年間は,間違いなく『確かな学力向上路線』の期間であった(志水他, 2014, pp.2-5)。

本書の最大の特徴は、三時点での学力調査の結果を比較したことにある。その三時点は、「ゆとり以前」(一九八九年)→「ゆとり時代」(二〇〇一年)→「ポストゆとり」(二〇十三年)のそれぞれの時期に小・中学校生活を送った子どもたちを対象にしていると、大まかに見積もることができる。つまり、第一回調査はゆとり教育の前の状況を、第二回調査はゆとり教育の影響を、そして今回(第三回)の調査はゆとり教育以降の「確かな学力向上路線」の影響をそれぞれ反映していると見ることができる(同上, p.64)。

また、以下の引用にも示すように、報告書ではゆとり教育からの脱却こそが学力を向上させた要因であると何度も力説されている

まず、指摘しなければならないのは、政策の重要性である。私たちの調査結果が示しているのは、「ゆとり教育路線」から「確かな学力向上路線」への政策転換が、子どもたちの学力形成に大きな影響を与えたという事実である。(同上, p.66)

のだが、肝心の「脱ゆとり」や「確かな学力向上路線」の具体的内実には一切触れておらず、当然ながら、苅谷調査にあったような「伝統的学力観」「新しい学力観」を軸とした分析なども皆無である。ついでに言うと槍玉に挙げられている「ゆとり教育」や「新しい学力観」についての記述も無い。ちなみに、志水自身はその実施前からの強硬な反ゆとり教育派である。

このように、本来「ゆとり教育による学力低下」説の反証となってもおかしくはない結果(01-13年間における学力向上傾向)が、二重にその説を支える証拠として扱われているわけである。

ベネッセ教育調査

で、まあこれだけならばそういうこともあるでしょ、と終わらせてもいいのだが、実のところこの論法、つまり論者の都合によってゆとり教育の時期が(事後的に)変わってしまうというのは、ゆとり教育言説に広く見られる問題点なのである。

たとえば、ベネッセがゆとり教育の前後に実施した学習基本調査・学習指導基本調査がそれだ。この調査では(2002年から実施された)ゆとり教育の後に、学習時間の増加、学習習慣の定着などが確認され、教員の指導観も個性尊重から画一性重視へ、自主性尊重から強制重視へ移行したことが分かっている(いずれも2006・2007年の結果である)。

この結果を調査者達がどのように解釈したかと言えば、「ゆとり」から「脱ゆとり」への変化と解釈したのである。その理屈は志水と同じである。曰く、我々教育学界の強烈な批判により*2が、文科省はその実施前にゆとり教育路線を放棄したのであり、我々の調査結果に表れたのは「脱ゆとり」の結果であり「確かな学力向上路線」の成果である、というわけだ。

PISA

研究者をしてこの様であるのだから、況や我々一般人においてをやである。この手のいつの間にか始まる謎の事後的脱ゆとり教育実例*3は挙げればキリ*4が無いが、中でもやはりPISAに関する報道は抜きん出てカスである。あるのだがもう疲れたし別のページにこれ以上なく詳細に記しているのでリンクだけを貼っておこう。

PIAACを含む、PISA2006以降の全ての調査で「ゆとり教育による学力低下」に反する結果となっている。それが如何にして学力低下の揺ぎ無き証拠となったのか、興味がある方はご一読いただきたい。

以下はその簡易版である。

 

結語

ゆとり教育とはいつの時期を指すのか」

この問いに自信を持って即答できる人はそう多くはないだろうが、それも無理からぬことである。これほど(恐らく日本人の9割以上に)知られている教育制度が、その定義すらもイマイチ判然としない原因の一つは、論者によってその定義が都合よくコロコロと変えられてしまうからであり、何故変える必要があるのかと言えば、一般に思われているほどゆとり教育による学力低下を示す証拠は存在しないからである。

志水にしろ、耳塚*5にしろ、もし学力低下や学習離れを示す結果が出てきていれば、喜んでゆとり教育と結びつけたはずだ。PISAの報道にしたところで、ゆとり教育の実施時期と得点が低下した時期が綺麗に重なっていれば、意味不明な主張を紙面に展開する必要は無かったのである。これらは全て望んだ結果を出せないゆとり教育が原因なのであり、ともあれゆとり教育は滅ぶべきである。

関連記事

以下のページではベネッセ調査・志水調査についてもう少し詳細に説明している。

参考文献

苅谷剛彦・志水宏吉・清水睦美・諸田裕子 (2002). 「調査報告―『学力低下』の実態」. 岩波ブックレットNo.578

志水宏吉・伊佐夏実・知念渉・芝野淳一 (2014). 「調査報告―『学力格差』の実態」岩波ブックレットNo.900

ベネッセ教育研究開発センター (2007a). 「第4 回学習基本調査・小学生版」. http://berd.benesse.jp/shotouchutou/research/detail1.php?id=3228
ベネッセ教育研究開発センター (2007b). 「第4 回学習基本調査・中学生版」. http://berd.benesse.jp/shotouchutou/research/detail1.php?id=3227
ベネッセ教育研究開発センター (2008). 「第4 回学習指導基本調査」. http://berd.benesse.jp/shotouchutou/research/detail1.php?id=3247

*1:刈谷(2001)と志水(2014)では使われた共通問題数が異なることから、後者の報告書では89,01年の結果を改めて100点換算した上で13年調査の結果と比較しており、当然にその数値は前者とは異なっている。

にもかかわらず、Wikipediaの記述では89,01年の数値として苅谷調査時点の数値がそのまま使われていることから、少なくとも志水(2014)を参照していないことは間違いない。

恐らく、志水調査で新設されたB問題(いわゆるPISA型問題)を含む正答率と勘違いしたのではないかと思われるが、あいにく報告書ではB問題について詳細な数値は記載されておらず、Wikipediaの記述にも出典が全く示されていなかったため、真相は藪の中である。

*2:ちなみに志水も「我々の前回調査(苅谷調査)が文科省をしてその方針を撤回させたのだ」と全く同じことを言っている。

*3:07年度から始まったのは文字通りただの見直しであり、指導要領が改訂されたのは08年、それが実施されたのは小学校で11年、中学校で12年である。また、小学校では移行措置により授業時数が増えているが、中学校での変化は無い。

以上のことを本川先生にも教えて差し上げたのが返信は無かった。ちなみにこのページについても返信は無かった。理由は不明である。

*4:江見氏からの返信も無い。

*5:学習基本調査・学習指導基本調査の代表者

p値に関するASA声明とその解説

以前書いた「ゆとり教育とは何だったのか―俗説に対する批判的検討」という私的な論説に、補遺として付けていた「p値に関するASA声明(The ASA’s statement on p-values)」の拙訳と解説です。本文を参照する形で書かれているため、一部要領を得ない記述がありますが、特に問題は無いと判断しそのまま載せています。何分、素人の書いた文章ですから、誤った記述も多々あると思われます。お気づきになられた方はコメントにてご教授いただけますと幸いです。

1. p値は,あるデータと特定の統計的モデルがどれだけ「不一致」しているかを示すことができる

p値は,ある特定のデータとそのデータについて提案された特定のモデルの間にみられる不一致性を要約する一つのアプローチを提供する。p値が使われる最も一般的な状況は,帰無仮説と呼ばれるものと,その仮定に基づいたモデルが存在する場合である。多くの場合,帰無仮説は「2 群の間に差がない」というように効果が存在しないこと,或いは,要因と結果の間に(因果的な) 関係性がないことを前提する。p値を計算するときの仮定が真であるという前提の下では,p値が小さくなるほど帰無仮説と(観測された) データとの統計的不一致性は大きくなる。この不一致性は,帰無仮説,或いは前提された仮定に対して,疑問を投げかけているか,反証を提供していると解釈することができる(Wasserstein and Lazar 2016 p.8)。

解説

これはp値についての過不足ない説明である。ここでいう「特定のデータ」と「特定のモデル」というのは,観測されたデータと,帰無仮説に従うと仮定した場合にそのデータが従う確率分布を意味している。たとえば,6.4 節でみたように,大標本調査における「2群の平均の差」という現実に観測されたデータは,帰無仮説が正しいと仮定した場合には特定の正規分布に従うことを説明した。或いは小標本の場合にはt分布と呼ばれるものに従うし,平均ではなく分散を検定する場合には,その統計量は\chi^2分布と呼ばれるものに従う。このように,p値というのは,現実に観測されたデータと,帰無仮説が真という仮定に基づいてつくられた統計モデルがどれだけ「一致していないのか」を示すものであり,それ以外の何物でもない。

ここで注意しなければならないのは,p値,或いは検定と呼ばれるものは,帰無仮説を棄却する判断材料を提供するのであって,帰無仮説が真であること,或いは対立仮説が偽であることについての積極的な判断材料は提供しないということだ。帰無仮説が棄却されなかったということは,単に観測されたデータと帰無仮説は矛盾しないということが示されただけである。帰無仮説が真であることを証明したいならば,他の全ての対立仮説を否定しなければならない。しかし,先にも少し触れたように対立仮説というものは無数に存在するため,検定ではもっぱら帰無仮説を棄却するかしないかが問題となる。従って,帰無仮説が棄却されなかった場合には,判断は保留される。帰無仮説は正しいとも正しくないとも言えない。

2. p値は対立仮説(studied hypothesis) が真である確率,或いはデータが偶然に生成されたものである確率を測定しない

研究者はしばしばp値を,帰無仮説が真であるかについて,或いはデータが偶然に生成されたものであるかについての指標として利用したがる。しかし,p値はどちらにも使えない。p値はあくまでも,特定の仮説的説明に関するデータについての言及であり,説明それ自体についての言及ではない(同上p.9)。

解説

おそらくこれは,p値についての最も一般的な誤解だろう。たとえば,あるデータについてp=0.01という結果を得たとき,この結果はしばしば「対立仮説が真である確率が99%である」,或いは「その結果が偶然によるものである確率は1%である」のように誤って解釈される。こうした解釈はデータの「基準率」を無視している。基準率とは簡単に言えば,ある事象が起きることについての,何らの条件も加えない「素の」確率である。ベイズ統計でいうところの事前確率だ。

たとえば,1000種類の「癌に効果がある」とされる薬の効果を検定したいとしよう。このとき,1000種類の薬のうち,本当に効果がある薬が1種類しか含まれていないなら,基準率は1/1000であり,つまり0.1%となる。この基準率と有意水準0.05の下で検定を行うとどうなるだろうか。999種類の薬には癌について何の効果も発揮しない。しかし,有意水準は0.05と設定されたので,約50種類の薬は棄却域に入ることになる。では,この50種類の薬の一つ一つが本当に癌に効く薬は何%になるだろうか。もし,本当に効果がある薬が正しく棄却域に入っているとしても,それぞれの薬の効果が偶然ではない確率はたったの,1/50 =0.02,つまり2%しかないのである。

仮説検定はあくまでも,帰無仮説が真であると仮定した場合に,ある特定の統計モデル(正規分布t分布や\chi^2分布など) と観測されたデータがどれだけ一致しないか,或いは驚くべきかを示すのであって,その仮説自体が真であるのか,偽であるのかについての確率を提供するわけではない。今見たように,基準率が低くなればなるほど,「まぐれ当たり」の可能性は高くなる。「95%の確率で正しい」と「2%の確率で正しい」では余りにも懸隔がある。

3. 科学的な結論やビジネス,政策上の決定は,p値が特定の閾値を超えたかどうかのみに基づいて判断されるべきではない

科学的主張や結論を正当化するために,「bright-lineルール(p < 0.05 のような)」を機械的に適用することは,データ分析や科学的推論を縮小させる慣習を生み出している。こうした慣習は誤った信念や,浅薄な意思決定につながる。ある結論は,特定の閾値を超えた時点で直ちに真となるわけではないし,逆に特定の閾値を超えなかった時点で直ちに偽となるわけでもない。

研究者は科学的な推論を引き出すために,調査のデザイン,測定方法の質,研究で示された現象についての外部的な証拠,データ分析の前提となる仮定の妥当性などの,多くの背景的な要素を利用すべきである。

現実の検討事項はしばしば「はい―いいえ」という二分法的決断を要求する。しかしこのことは,p値が(それ単体で) ある決定が正しいのかどうかを保証できることを意味しない。「統計的有意差(一般的にp < 0.05 と解釈される)」というものは,ある科学的発見(或いは示唆される真理) を主張するライセンスとして広く使われてしまっている。このことは,科学的プロセスに深刻な歪みをもたらすことになる(同上p.9)。

解説

基準率の無視がp値についての最も一般的な誤解であるなら,こちらはp値についての最も問題のある誤解である。p値が二分法的に使われることの問題点は,第一にそれが二分法的な思考をもたらすこと,或いは,それ自体が二分法的な思考の結果であることだ。現実には二分法的な判断が要求されることはいくらでもあるだろう。その判断の基準としてp値が使われることもあるかもしれない。しかし,二分法的な判断は,容易に二分法的な思考をもたらす。つまり有意差があれば「正しく」,有意差がなければ「正しくない」という誤った断定へと陥ってしまう。

第二に,p値それだけでは仮説の正しさについては何も判断できない。「有意差がある」という主張だけでは何も言っていないに等しい。先にも少しだけ触れたが,有意差というのは,どんなに小さなものであっても,標本サイズを大きくすればいずれは検出される。そのため,「A とB の間に有意差がある」という主張は,それだけでは「A とB は違う」と言っているだけである。この世に全く同一の存在は(殆ど) 存在しないという当たり前の主張を繰り返しているに過ぎない。そのため,p値を利用するのであれば,その効果がどれほど大きなものであるのかという情報も必要になる。或いは,事前に望ましい効果の大きさを想定して,その効果を検出できる確率から標本サイズを決定することもできる。

第三に,科学的な主張をするためにはp < 0.05が必要とする強迫観念は,科学的手続きに深刻な歪みをもたらす。たとえば,Head et al. (2015) は次のように指摘している。

今,(論文や雑誌で) 刊行された結果の多くで偽陽性が見つかることに関心が集まっている。現在の科学的慣行が,統計的に有意な結果をだすことの強烈なインセンティブとなっていることは多くの人間が主張している。そして,ジャーナル,特にインパクトファクターの高い名門では,不自然なほどに多くの統計的に有意な結果が掲載されている。研究者を雇用しようとする人間や研究のスポンサーは,しばしば研究者の論文数やそのインパクトファクターによって研究者の能力を評価しようとする。これらの要因によって研究者は,何とか統計的に有意な結果を出そうと,選択的に特定の問題を追及するか止めるかを決定し(selectively pusue),また選択的に研究アプローチを決定する(selectively attempt) のである。

p < 0.05なら正しく有用な結果であり,p ≧ 0.05ならば誤った無用な結果であるという二分法的判断は,研究者が「pハッキング」に手を染める誘因となる。p値という判断の手段それ自体が,求めるべき目的になってしまうのである。

4. 適切な推論は完全な報告と透明性を要求する

p値とそれに関連した分析は選択的に報告されてはならない。データについて複数の分析を行い,その分析の中から特定のp値(典型的にはある閾値を超えたp値) のみを報告することは,そのp値についての解釈を本質的に不可能なものにする。有望な結果だけを「つまみ食い」する行為は,「データのさらいあげ(data dredging)」「有意性の追求(signi cance chasing)」「有意性の探求(signi cance questing)」「選択的な推論(selective inference)」,或いはまた「p ハッキング」とも呼ばれる。これらの行為は公刊された文献における統計的に有意な結果の氾濫をもたらす。

それゆえ,これらの行為は厳に慎まなければならない。しかし,正式な手続きに則って行われる複数の統計的検定が必ずしもこうした問題を起こすわけではない。問題は,研究者がそれらの統計的結果に応じて,提示する結果を選択する点にある。もし,読者がそうした選択とその根拠を知ることができなければ,調査結果に対する解釈の妥当性は著しく損なわれてしまうのである。

そのため調査者は,研究において検討した帰無仮説の数,全てのデータセットについての決定,実施された全ての統計的分析,計算された全てのp値を公開しなければならない。p値とそれに関連した統計に基づいて科学的に妥当な結論を引き出すためには,少なくとも,どれだけ多くのどのような分析が実施されたのか,それらの分析(p値を含む)が報告の際にどのように選択されたのかを知らなければならない(同上pp.9-10)。

解説

統計的に有意な結果を出すのは難しい事ではない。統計学的分析は複雑ないくつもの手続きを経ているため,一つの問題に対して,複数の分析手法が存在しうる。もし,ある手法で有意差が検出されないならば,別の手法を使えばいい。それでも望む結果が出ないならば,別のアプローチをとることもできる。しかし,有意な結果を生み出すためのもっとも原始的で,かつ「有用な」方法は帰無仮説の数を増やしてやることだ。

たとえば,血液型が人のパーソナリティに与える影響を調べたいとしよう。そうすると帰無仮説はA,B,O,AB のそれぞれの血液型について四つの帰無仮説が存在することになる。このとき,偽陽性が得られる確率は何%になるだろうか。もし,有意水準が0.05ならばその確率は1-(0.95)^4*100 ≒ 18.5%,2割弱は有意な結果が出てしまうのである。しかし,不幸にも有意な結果が出なかった場合はどうしようか。条件を追加してみよう。幸い人の血液型にはRh因子というものがある。したがって,A ±,B ±,O ±,AB±の血液型に対応して,八つの帰無仮説が存在する。そうすると,偽陽性が得られる確率は1-(0.95)^8*100 ≒ 33.7%になる。3 回に1回は望む結果が得られる。

「血液型診断を信じるのはバカだけだ」と信じている人間も,この手の誤謬には鈍感である。たとえば4章でみた,「分数のできない大学生」などもこの応用例の一つだ。一つ一つの事象が起こる確率が極めて高いものであったとしても,それを何度か繰り返せば「例外」が生じる確率は案外高いのである。もし,ガンの原因を統計学的に調べたいのならば,原因と思われるのものを50種類ほどリストアップしてやればいい。そのうち1つ以上が「統計的に有意である」と言える確率は(片側検定の場合)9割を超える。

それゆえ,ある研究においてどれだけの帰無仮説が検討されたのか,その仮説がどのようなものであったのかを知ることが重要になってくる。また,このことは帰無仮説の数の問題だけではなく,調査の数の問題にも拡張できるはずだ。もし,何らかの事実を知りたい(証明したい) という,強い個人的・社会的欲求が存在すれば,それはそのまま,多くの調査を生み出す心理的・社会的インセンティブになりうる。また,こうして生み出される膨大な調査について,調査者の望むような結果の出なかった研究の公開が差し控えられるようになると,もはやこれらの調査群から何か有意味な推論を引き出すのは不可能となる。

5. p値,或いは有意差は,効果の大きさや結果の重要性を測定するものではない

統計的有意差は,科学的,人間的,或いは経済的重要性と同じではない。より小さいp値がより重要な,或いは大きな効果の存在を示唆するわけではないし,より大きなp値が重要性や効果の欠落を示唆するわけでもない。どんなに小さな効果であっても,十分な大きさのサンプルサイズを確保しするか,測定の精度を高めてやれば小さいp値を得ることができる。逆に,大きな効果であってもサンプルサイズが小さかったり,測定の精度が低ければ,それほど小さなp値は得られない。同様に同一の推定値であっても推定の精度が異なれば,p値の値は異なる(同上p.10)

解説

これまでにも何度か言及してきたがp値の大きさは,効果の大きさと標本の大きさに依存している。どちらが大きくなってもp値は小さくなる。p=0.0001 だとしても,それが「実質的」な違いを意味しているのかはp値だけでは判断できない。そこで,そうした違いの大きさを表現する指標が必要になることがわかる。この指標のことを「効果量」と呼ぶ。効果量は大別すれば,変数間の差の大きさを表現するものと,変数間の関連の強さを表現するものに分けることができるが,ここでは,一般にイメージされやすい変数間の差の大きさについての効果量を説明しよう。たとえば,あるテストにおける二つの集団の平均点の差といったものである。

今,二つの集団に対して同一のテストを実施したとき,その平均点の差が10点だったとしよう。下の図はその得点分布を示している。さて,この10点という差は大きいのだろうか,小さいのだろうか。そもそも基準がなければ判断はできないと思うかもしれないが、基準ならばある。それは元の集団の得点のバラつきである。たとえば,日本人成人男性の平均身長は170cm ほどである。これに対し,身長が150cmの人,或いは190cm の人というのは,一般に「小さい」或いは「大きい」と判断されないだろうか。それは,標準的な身長のバラつきに対して20cmという差があまりにも大きな差であるからだ。成人男性の場合,その身長の標準偏差は6cmほどである。20cmというのは標準偏差の3 倍以上にもなる。

img358

この図 の場合,さらに極端な分布となっている。それぞれの集団の標準偏差が1であるのに対し,平均点の差は10点にもなっている。一方の集団の最上位が,他方の集団の最下位程度の水準にも達していないのである。分かりやすいように,もう一つのパターンも示してみよう。

img359

こちらも平均点の差は10点となっている。しかし先ほどの図とは違い,二つの集団が重なり合っている部分が大きくなっていることがわかる。それぞれの集団の標準偏差は10 である。つまり,10点の平均の差というのは標準偏差1個分に収まるわけである。平均点の差は同じでも,明らかにその効果の大きさは違っている。

今まで見てきたように,異なる二つのテストの得点は,仮に同一の受験者集団のものであっても,そのままでは比較ができなかった。異なるテストではその平均点も標準偏差も異なるからである。同じことが効果の大きさについても言えるのである。

それでは,効果量を計算するにはどうすればいいのだろうか。これもテスト得点の意味付けの場合と同様である。つまり,平均点の差を標準化すればいい。異なる二つのテストの得点は,そのテストの標準偏差を利用して標準化した。二つの集団の平均点の差の場合は,それぞれの集団のデータをプールしたものから標準偏差を計算する。つまり,以下のような式になる。ただし, \bar{X}は標本平均,\sigma^2は標本分散,nは標本サイズである。

Cohen's\ d=\cfrac{\bar{X}_A-\bar{X}_B}{\sqrt{(n_{A}\sigma_{A}^2+n_{B}\sigma_{B}^2)/(n_{A}+n_{B})}}

分散の定義は,偏差平方和をデータの数で割ったものだった。ということは,分散にデータの数をかければそのデータセットの偏差平方和に戻すことができる。(n_{A}\sigma_{A}^2+n_{B}\sigma_{B}^2)/(n_{A}+n_{B})は,AとBという二つのデータセットの偏差平方和を全てのデータ数で割っている。これがプールされた標準偏差であり,効果量はこの標準偏差の何倍という数値で表される。上式のように,不偏分散ではなくそのまま標本分散を使った式を特にCohenのd などと呼ぶ*1。実際には不偏分散を使うことの方が多いだろう。その際は分母の自由度が-2になることに注意すれば後は同じである。

6. p値それ自体は仮説やモデルに関する良い尺度とはならない

研究者は,文脈や他の証拠が存在しないp値は限定された情報しか提供しないことを認識しなければならない。たとえば,0.05に近いp値それ自体は帰無仮説に対する弱い反証にしかならない。同様に,比較的大きいp値は帰無仮説を支持する証拠を示唆するわけではない。他の多くの仮説の方が,観測されたデータと同じか,或いはより一致したものであるかもしれない。したがって,他のアプローチの方がより有望そうであるならば,データ分析をp値の計算だけで終わらせてはならない。

p値に関する誤解や誤用の流行を鑑みて,何人かの統計学者は他のアプローチによってp値を補完したり,代替しようとしている。これらのアプローチにはたとえば次のようなものがる。信頼区間や信用区間,予測区間といった検定よりも推定を強調する手法。ベイズ統計学。尤度比やベイズファクターといった代替的な証拠の測定法。決定理論モデリングや偽発見率(FDR)などである。これら全ての測定法やアプローチは,より多くの仮定に依存している。しかし,これらの手法は,効果の大きさ(加えてそれに関連する不確実性)や,仮説が正しいかどうかについて,より直接的に検証できる(同上 p.11)。

解説

こうした代替的な手法については,一部の研究者や統計学者のみが考えていればいいわけではない。確かに,上記で挙げられた手法で統計学の入門書に出てくるものは少ない(というか私もよく知らない)。しかし,全く存在しないわけではない。たとえば,信頼区間などの母数の「推定」は,「検定」と並んでほとんどの統計学の教科書に出てくる手法だ。

信頼区間とは,真の平均点が含まれる範囲を,一定の確率を基準として計算したものである。たとえば,あるテストの真の平均\muについて,信頼係数95%の信頼区間50 \leqq \mu \leqq 60だったとしよう。これは,95%の確率で真の平均点\muが50~60点の中に入ることを意味している。より正確に言えば,95%区間推定とは,(ランダムに得られた観測値を使って)何度も区間推定を行ったとき,そのうちの95%の区間が真の平均点を含んでいるということだ。

信頼区間の利用を勧めているのは,単にそれが簡単だからという理由だけではない。区間推定のいいところは,検定と違って二分法的な判断に比較的陥りにくいことだ*2。テストAとテストBの平均点はこれこれで,その差は有意差がありますと言っただけでは,そこで思考が止まってしまう。とかく,教育を巡る議論は二分法的な判断に陥りがちだ。区間推定のように確率的な幅をもった議論ならば,思考にもゆとりが生まれるというものだろう。

信頼区間の推定

もう忘れてしまったと思うが,有意性検定の節で,「対立仮説は無数に存在するため,直接の検定対象にはできないが,棄却されない対立仮説の『範囲』を表現することはできる」と述べた。それが信頼区間である。

たとえば,ある母集団から抽出した100人に学力テストを実施したところ,その平均点が60点,標準偏差が15点だったとしよう。それでは,この母集団の「真の」平均得点は何点だろうか。ここで,「真の平均点は61点である」という控えめな仮説を立ててみよう。この仮説の検定は,帰無仮説の検定と全く同じようにできる。つまり,真の平均点が61点という仮定の下での分布に,60点という現実のデータが一致するかしないかを調べればいいのである。仮説を棄却する基準としては検定と同じように0.05としておこう。

それでは実際に計算してみよう。既に説明したように,標本平均の標準偏差は標準誤差とも呼ばれ,その値は母標準偏差を標本サイズの平方根で割ったものだった。また,標本平均は母平均の不偏推定量である。したがって仮説が正しいとき,その得点の分布は,平均が61点,標準偏差15/\sqrt{100}=1.5正規分布になるはずだ*3。それでは,この分布において得点が棄却域に入ってしまう境界はどこになるだろうか。正規分布において,有意水準0.05の境界点となるのは,\mu±1.96\sigmaであることが分かっている。今問題にしている正規分布は平均が61,標準偏差が1.5なのだから,境界点は58.1,64.0となる。以下の図は,「平均が61,標準偏差が1.5」のときの正規分布である。

img363

つまり,この分布において「60点」という現実の結果は十分にありうる結果だということだ。したがって,「平均が61点」という帰無仮説は棄却されないことになる。では次に,もう少し欲張って「真の平均は62点である」という仮説を検定してみよう。この場合,境界点は59.1,65.0となり,この範囲にも60点は含まれている。したがって「平均点が62点」という仮説も棄却されない。ではさらに,「63点が真の平均である」と主張してみよう。そうすると境界点は60.1,66.0となり,60点という現実のデータは棄却域に入るため,残念ながらこの仮説は棄却せざるを得ない。

このように棄却されない仮説(平均が61点,平均が62点,......)を残していくと,一つの不等式が出来上がるはずである。これを一般化してみよう。現実に観測された60点に対し,真の平均を\mu,標本平均の(母)標準偏差\sigmaとすると,その標準化量は=\cfrac{60-\mu}{\sigma}になる。この標準化量は標準正規分布に従っているので,次の不等式を満たす\muが棄却されない仮説ということになる。

-1.96 \leqq \cfrac{60-\mu}{\sigma} \leqq1.96 \Leftrightarrow60-1.96\sigma \leqq \mu \leqq 60+1.96\sigma  \Leftrightarrow58.04 \leqq \mu \leqq 61.96

これが「95%信頼区間」と呼ばれるものだ。この区間に含まれる母平均の推定値はそれぞれが,有意水準0.05の検定に生き残ることができる。たとえば,真の平均が61点であれば,60点という現実のテスト結果は,棄却域には含まれず,したがって「真の平均が61点」という仮説は無事生き残ることができる。しかし,真の平均がもし,65点であれば,現実の平均点が60点というのは,5%以下の確率で起こったまれな事象ということになり,したがって,「真の平均が65点」という仮説は残念ながら(真であるにも関わらず)棄却され,信頼区間の範囲には含まれないことになる。つまり,95%信頼区間とは,95%の確率で「当たる(真の平均が信頼区間の中に含まれる)」ような区間なのである。

参考文献

[1] Wasserstein, R., & Lazar, N. 2016. The ASA's statement on p-values: context, process, and purpose, The American Statistician Volume 70, Issue 2, 2016
[2] Head, M.L., Holman, L., Lanfer, R., Kahn, A.T., Jennions, M.D. 2015. The Extent and Consequences of P-Hacking in Science. PLoS Biol 13, e1002106
[3] Belia, S., Fidler, F., Williams, J., & Cummin, G. 2005. Researchers misun-derstand condence intervals and standard error bars., Psychol Methods. 2005 Dec;10(4):389-96.
[4] Cumming, G., & Finch, S. 2005. Inference by Eye Condence Intervals and How to Read Pictures of Data, American Psychologist, Vol. 60, No. 2, 170 180
[5] Cumming, G., Fidler, F., & Vaux, L.D. 2007. Error bars in experimental biology, The Journal of Cell Biology. 2007 Apr 9; 177(1): 711.

*1:不偏分散を使ったものをCohen′s dと呼ぶこともある。どっちが正しいのか分からないので教えてほしい。

*2:ただし,区間推定(というよりもエラーバーの読み方)にも誤解・誤用はつきものである。詳細はBelia.S et al(2005); Cumming et al(2007); Cumming and Finch(2005)等を参照のこと。

*3:ここではn=100が十分に大きいとして,(標本平均の)標本標準偏差を母標準偏差としている。