PISAの結果まとめ PISA2000~PISA2022 - 若者論を研究するブログ

前提
結果
読解力の低下
ゆとり教育との関連
PISA調査の設計
※PISA2015・2018の読解力低下について取り急ぎメモ
※PISA2022の成績向上について取り急ぎメモ

前提

①PISAでは各年度の調査ごとに重点的に調査される主要分野(main domain) が切り替わっている。経年比較が可能となるのはその分野が主要分野となった後のことである。ただし、一部の領域では主要分野となる前も比較が可能である。

②PISAの得点スケールは平均500・標準偏差100である。それぞれ基準となるのは読解力では2000年調査、数学的リテラシーでは2003年調査、科学的リテラシーでは2006年調査の得点スケールである。

③PISAでは平均得点の検定にLink Errorの値を必要とする。Link Errorの算出方法については何度か修正が加えられているが、ここでは適宜最新のTechnical Reportに記載された数値を用いた。ただし、一部の比較にはPISA2003・2006時点のLink Errorを使っている。

④PISA2003以降は調査対象母集団が異なる。PISA2000における調査対象は高等学校の全日制学科の一年生であり、以降の調査ではこれに定時制学科、中等教育学校後期課程、高等専門学校の一年生が対象に加えられている。

⑤検定統計量は次式で求める。 $\hat{\mu}_{a}, \hat{\mu}_{b}$ はそれぞれ調査年度a,bの平均得点、 $SE_{a}, SE_{b}$ はその標準誤差である。

$\frac{\hat{\mu}_{a}-\hat{\mu}_{b}}{\sqrt{SE^2_{a}+SE^2_{b}+LinkError^2}}$

それぞれの分野について、下表に各年度の平均得点、標準誤差、Link Errorの一覧を示した。矢印のついている箇所は成績が有意に変動した箇所である（p<.05）。斜線は比較不能であることを意味している。

結果

読解力

数学的リテラシー

※PISA2018-2022の変動について、PISA報告書では有意差は無いとされている。上表の数値を用いた検定統計量は-2.02888になるため、恐らく端数処理による誤差と思われる。

数学的リテラシーでは「変化と関係」「空間と形」「量」「不確実性」の四つの領域が調査されているが、PISA2000では前二者しか調査対象となっていないため、その後の調査と直接比較することはできない。ただし、「変化と関係」「空間と形」についてはPISA2000とPISA2003のLink Errorも報告されているため検定が可能である。どちらの領域でも有意な変動は確認できなかったため、表中では空欄としている。PISA2006以降はPISA2000とのLink Errorは報告されていない。

科学的リテラシー

科学的リテラシーが主要分野となったのは2006年のため、それ以前との比較はできない。ただし、PISA2000とPISA2003、PISA2003とPISA2006の（暫定的）Link Errorは報告されているため検定が可能である。それぞれ以下の通りである。いずれも有意な変動は確認できなかったため、表中では空欄としている。PISA2000とPISA2006のLink Errorは報告されていない。

PISA2000-PISA2003

PISA2000の平均得点は550点, PISA2003の平均得点は548点、それぞれの標準誤差は5.5, 4.1、Link Errorは3.112である（ただし全てPISA2000を基準とした尺度）。検定統計量は0.27であり有意差は無い。

PISA2003-PISA2006

PISA2003の平均得点は547点, PISA2006の平均得点は548点、それぞれの標準誤差は4.4, 4.1, Link Errorは4.963である（平均点の算出、基準となる尺度についてはOECD 2007 pp.369-370, OECD 2009 pp.246-247を参照）。検定統計量は-0.13であり有意差は無い。

読解力の低下

数学的リテラシー・科学的リテラシーでは得点の有意な変動は殆ど無い。他方、PISA2003・PISA2006では読解力が大きく低下している。この点についてはPISAの報告書にも記述があるため紹介する。

PISA2000とPISA2003の比較では日本を含む多くの国で有意な読解力得点の変動が起こっているが、これについてPISA2009のTechnical Reportでは、テスト項目の出題順が変更されたこと、問題ユニットからいくつかの項目が削除されたこと、PISA2000の問題クラスターから新しい問題クラスターが作られたこと等をその原因として挙げている。これらの変更はすべて項目母数の推定にも影響を与える。したがって、PISA2000 とPISA2003 の得点を等化した結果は、本来不確か(unclear) なものである(OECD 2012 pp.215-216)。

これはPISA2000とPISA2006との比較においても同様である。PISA2000では読解力問題が129問出題されているが、PISA2003とPISA2006で出題されたのは、この129問のうち同一の28問であり、テストのフレームワークも変更されていない。また、PISA2009 では再び読解力が主要分野となったため（出題数は131問）、テストのフレームワークも再設計されているが、その目的の一つにPISA2000との整合性を持たせることが挙げられている(OECD 2009 p31)。

日本の得点の変化はPISA の全体的な傾向と一致している。PISA2000とPISA2003の比較では15か国の得点が有意に変化し、うち10か国が低下、5か国が上昇している。PISA2003とPISA2006の比較では7か国の得点が有意に変化し、うち5か国が低下、2か国が上昇である。そして、PIS2006とPISA2009 の比較では14か国の得点が有意に変化し、うち4か国が低下、10か国が上昇となった。PISA2000からPISA2003にかけて得点が低下し、続くPISA2006では変化が小さく、そしてPISA2009では得点が上昇するというのは、PISA の読解力調査の傾向、そしてテスト設計変更の時期と一致する。この点は留意すべきである。

より重要なのは、PISAの設計者でもあるMargaret Wu(2009)の指摘である。WuはPISA2003の日本の読解力低下を例にして、PISA調査における差異項目機能（Differential item functioning=DIF)の存在を明らかにしている。項目反応理論では受験者によって項目の困難度が変わらないことが前提されるが、実際には様々な理由により困難度は変化する。これがDIFである。

以下の図は、PISA2000の読解力調査について、OECD参加国のデータから計算された困難度と日本のデータのみから計算された困難度をプロットしたものである。項目母数の推定にはRのTAMパッケージ（Kiefer et al. 2016)を利用した。IRTモデルは1PLモデル(部分得点モデル) であり、母数の推定法は周辺最尤推定法である。また、OECD27か国のデータは国によって受験者の数が異なるため、それぞれの国に均等の重みをつけて計算した(OECD 2005 p.132)。 f:id:HaJK334:20191204065129j:plain

仮に、困難度の不変性が完全に保たれているならば、上図のプロットは完全な直線となる。実際、日本の項目困難度とOECD の項目困難度は概ね一致しており直線に近づいている。しかし、個々の項目を見ていくと、困難度の著しく異なる項目が存在していることが分かる。たとえば、散布図の第2象限にはOECDの困難度が-1, 日本の困難度が1となっている項目が存在しているが、2logitの差はPISAのスケールに換算すると約200点に相当する差である。また、1logit以上の差を示す項目は129問中10問存在しているが、これらの項目も明らかなDIF項目である。

つまり、PISA2000では日本にとって著しく難しい、或いは簡単な問題が含まれていたということであり、これはPISA2003で共通項目として何が選ばれるのかによって日本の成績が大きく変動しうることを示唆している。Wuによれば、PISA2003で選ばれた共通項目28問は、日本にとって平均0.08logit難しいものとなっていた。Wuの推定方法とは若干異なるが、筆者の推定でも平均0.082logit難しい問題が出題されており、これはPISAのスケールに変換して約8点に相当する差である。

DIF項目を計算に入れても24点の低下が説明できるわけではないが、国ごとに調査の条件が異なるというWuの指摘は重要である。たとえば、PISAでは各国のサンプルから得られた一つの値をLink Errorとして用いているが、これに対しMonseur and Berezner(2007) はジャックナイフ法を利用して各国ごとのLink Errorを計算しており、結果、PISA2003における日本の読解力低下にも有意な差は確認できなかったことを報告している。

いずれの問題も共通項目の数を増やすことで解決できる。実際、再び読解力が主要分野となり、出題項目が131問に増えたPISA2009では日本の成績がPISA2000と同水準にまで回復している。また、PISA2015以降はminor domainの受験者を減らす代わりにそのカバー範囲（共通項目）がmain domainと同等になるようテスト設計が変更されている(OECD 2017 pp.30-32)*1が、この選択には日本の読解力低下（とそれによって引き起こされた「PISAショック」）が少なからず寄与していたであろうと思う。

ゆとり教育との関連

PISA2003・PISA2006における読解力低下がテスト設計の変更による可能性が高いことは上述の通りである。ただし、得点をそのまま受け入れたとしても、PISAの結果から「ゆとり教育による読解力低下」という解釈を導くことはできない。

以下は各年度のPISA受験者が「ゆとり教育」を受けた年数を表にしたものである。網掛けの部分がその年数となっているが、2009年から実施された移行措置については新指導要領（08年改訂）の前倒しという性格が強かったためグレーにしている。

f:id:HaJK334:20191204041809j:plain

「ゆとり教育による読解力低下」を支持するのはPISA2003の結果のみである。PISA2006ではテスト設計の変更が行われておらず、従ってPISA2003と全く同一の問題が、同一の対象母集団に実施されているが、ゆとり教育を受けた年数に関わらず得点に変化は無い。（読解力が再び主要分野となりテスト設計が変更された）PISA2009では逆に得点が向上し、義務教育期間の全てがゆとり教育であったPISA2012では過去最高の得点を記録している。一転、PISA2015, PISA2018以降は得点が低下している。むしろ「ゆとり教育によって学力が向上した」と言った方が自然な解釈である（OECD 2013 pp.124-125）。

つまり、PISA2006以降の5回の調査全てがゆとり教育による学力低下説を否定しているのだが（ちなみにPIAACでも否定されている）、文科省の見解とそれに追従するマスメディアの報道はこれに真っ向から戦いを挑んでいる。以下はPISA2012の結果に対する典型的報道の一例である。

脱ゆとり成果「レベル維持し教育再生」

　２０１２年実施の経済協力開発機構（ＯＥＣＤ）の国際学習到達度調査（ＰＩＳＡ）では、日本の１５歳の学力回復傾向が明確になった。０９年の前回調査より順位も得点も大幅にアップした最大の要因は、ゆとり教育からの脱却であるといえる。教育関係者からは「このレベルを維持し、向上させるためにも、教育再生の施策を着実に進めるべきだ」との声が上がる。

　「９年前のＰＩＳＡショックで日本は目が覚めた。教職員組合の要望も強く、それまではゆとり一色だったが、このショックで潮目が大きく変わり、省内からもゆとり政策への批判が出るようになった」と、文部科学省幹部が打ち明ける。

　ＰＩＳＡショックとは、平成１６年に公表された２００３年調査のことだ。初回の００年調査で日本の国際順位は数学的応用力が１位、科学的応用力が２位、読解力が８位とトップクラスだったが、０３年調査で数学６位、読解１４位と急落。教育政策の見直しを求める声が高まった。

　文科省では昭和５０年代後半から、学習内容を徐々に削減する路線をとってきた。平成１４年には授業時間の３割削減と完全週５日制が導入され、本格的なゆとり教育が始まった。

だが、ＰＩＳＡショックを受けて政策を変更し、平成１７年に中山成彬（なりあき）文科相（当時）がゆとり路線の学習指導要領見直しを中央教育審議会に要請。この間にも学力は低下し続け、ＰＩＳＡ０６年調査で日本の順位は数学１０位、科学６位、読解１５位まで落ち込んだ。

　学力低下に歯止めをかけたのは、平成１９年から実施された全国学力テストだった。民間教育臨調の村主真人（むらにしまさと）事務局長は、「生徒の学力状況が明らかになり、学校現場に教育改善の機運が高まった」と分析する。ＰＩＳＡの０９年調査で日本の順位は数学９位、科学５位、読解８位に回復した。

　平成２１年からはゆとり脱却を掲げた新学習指導要領が一部実施され、学習内容が大幅に拡充した。そして迎えた今回のＰＩＳＡ－。

　ベネッセ教育総合研究所の新井健一理事長は「ＰＩＳＡショック以降、ゆとりか詰め込みかの二者択一ではなく、学力向上に向けたバランスのいい施策が行われてきた成果が出たのではないか」と話している。

http://www.sankei.com/life/news/131203/lif1312030003-n1.html

先にいくつか訂正しておく。既に示した通り、数学的リテラシー・科学的リテラシーにおいて有意な得点の変動は殆ど無い。相対的順位の低下から学力低下を導くことは不可能である。また、ゆとり教育の象徴とされる「3割削減」にも定量的な根拠は全くない。そもそも3割の削減が目標とされたのは授業時数ではなく学習内容である*2。

それはともかく、この記事で学力向上の要因とされているのは、PISA2009では「全国学力テスト」であり、PISA2012では「一部実施された新学習指導要領」である。7年間に及ぶゆとり教育の弊害（490時間の削減）を無効化するほどの全国学力テストの偉大さは措いておくとして、ここではPISA2012の結果に集中する。

記事中にある一部実施というのは、実際には指導要領の「移行措置」のことである。08年改訂は小学校で2011年に、中学校では2012年から実施されているが、その移行措置は09年4月から11年3月（中学校では12年3月）まで実施されていた。この移行措置は指導要領の前倒しという性格もあり、小学校では新指導要領に基づいた授業が行われていただけではなく、総授業時数も増やされている*3。

結果として、PISA2012の好成績には二つの解釈が与えられた。一つが移行措置を脱ゆとり教育に含める立場からの解釈であり、この場合、PISA2012の好成績は3年間の「脱ゆとり教育の成果」となる。もう一つが移行措置を脱ゆとり教育に含めない立場からの解釈であり、この場合、PISA2012の好成績は9年間の「ゆとり教育の成果」となる。

どちらの解釈がより妥当であるのかは、PISA2012の結果だけでは分からない。そこでPISA2015以降の結果を確認する。PISA2015では読解力が大きく低下、数学的リテラシー・科学的リテラシーでは有意な差ではないものの、僅かに得点が低下している。つまり、PISA2015では「PISAショック」と全く同じ得点変動が起こったということになる。

それでは、この結果をメディアはどのように伝えたのか。全てを引用すると余りにも冗長になるため、ここでは最も典型的な記事として日経の記事を引用する。

理数系で学力改善続く　日本の15歳、読解力は低下

経済協力開発機構（OECD）は6日、72カ国・地域の15歳約54万人を対象に2015年に行った学習到達度調査（PISA）の結果を公表した。平均得点でみた日本の国際順位は科学的応用力が2位、数学的応用力が5位で、ともに前回12年調査を上回り、トップレベルの水準を維持した。半面、読解力は8位で順位が4つ下がるなど、弱点も浮かんだ。

3年に1回実施されるPISAで、日本の「科学」と「数学」の順位は06年を底に3回連続で上昇。11月に公表された15年の国際数学・理科教育動向調査（TIMSS）でも日本の小中学生の国際順位は過去最高を更新しており、「ゆとり教育」の転換後、理数系学力の回復傾向が続いていることが確認された。

今回のPISAは初めて、手書きではなくコンピューター（パソコン）を使って解答する方式で行われた。日本の平均点は3分野とも前回を下回り、特に読解力は大きく下がった。文部科学省は解答方式の変更が主因としており、「特に文字数の多い読解力の問題で、紙の試験に慣れた日本の生徒が混乱したようだ」と説明している。

他の参加国・地域をみると、シンガポールが全3分野で首位を独占。香港が2分野で2位となったほか台湾やマカオ、韓国などアジアの国・地域がこれまで同様上位に入った。09、12年と3分野でトップだった上海は今回、北京・江蘇・広東と合同で参加しいずれの分野でも順位を下げた。

PISAは今回で6回目。03年調査では日本の順位が急落し「PISAショック」が広がった。学力低下への批判が集まり、文科省は脱・ゆとり路線を本格化。学習指導要領を改訂し、小中学校の授業時間や学習内容を増やすなどした。

https://www.nikkei.com/article/DGXLASDG30HH0_W6A201C1CR8000/

日経の記事では文科省の見解をそのまま引き写し、読解力低下の原因を「解答方式の変更」に求めている（ちなみに、本題では無いので詳説はしないが、PISAでは解答方式の変更に際して経年比較可能性が失われないよう相当に配慮しており、PISA2015のTechnical Reportでは、解答方式の変更が習熟度の推定に影響を与えることは考えられないとしている（OECD 2017 p.152））。

つまり、PISA2015の結果を「信頼するに値しないもの」として斥けたのである。PISA2012の結果を「脱ゆとりの成果」と断言してしまった以上は仕方がない。それはそれで構わないのだが、ただし、その場合は当然に過去のPISA調査に対しても同じ基準が適用されなければならない。テスト設計の変更はPISA2003から毎回行われており、しかもその影響は初期の調査ほど大きいからである（OECD 2016 p.172）

たとえば、PISA2015における読解力低下の主因とされるCBAの導入であるが、これは少なくとも現時点では何の根拠も無い。ただ文科省がそう口走っているだけであり、有体に言ってしまえばそうであってほしいという願望である。他方、PISA2003・PISA2006における日本の読解力低下については、PISAの報告書にも記述されており、その原因は共通項目の減少によるLinking Errorの増大であると具体的に推定されている（同上 p.161, p.172）。PISA2015の結果が信頼できないとすれば、PISA2003・PISA2006の結果はそれ以上に信頼できない。

従って、合理的な態度は二つに一つである。PISA調査の結果を信頼すればPISA2003・PISA2006の学力低下を主張できる一方で、PISA2015の学力低下も受け入れなければならない。或いは、PISA調査を信頼しないとすれば、当然にPISA2003・PISA2006の結果を学力低下の根拠とすることはできない。二つに一つであり、両立はしない。

PISA2018でも引き続き低下傾向が見られたことで、流石に文科省の言い分に疑問を持つメディアも散見される。とはいえ、PISA2018の結果を過大に評価するのはそれはそれで問題がある。以下にPISA2015・2018の読解力低下について簡単なメモを残しておいた。PISAの読解力調査についてはそれなりに研究の蓄積があるので、これから紹介していく予定である。

PISA調査の設計

※PISAの調査設計については長らく日本語の文献が存在しなかったのだが、先日ついに刊行された。著者らは日本におけるPISA調査の実施にも関わる研究者であり、主に日本のデータを用いて標本の抽出から能力の推定に至る一連の流れを解説している。ExcelとRのスクリプトも付属しているため（そしてPISAのデータは無料で公開されているため）、研究者に限らず誰でもこのテキストを用いてPISAの調査設計を勉強することができる。

PISA調査の解剖―能力評価・調査のモデル

作者:袰岩晶,篠原真子,篠原康正
出版社/メーカー: 東信堂
発売日: 2019/10/03
メディア: 単行本

ところで、同書ではPISAの結果とゆとり教育の関連について「『ゆとり教育』とPISA調査の得点の関係については袰岩2016を参照」と指示されているだけである。ひょっとするとタイトル（大規模教育調査とエビデンスに基づく政策）だけを見て勘違いしてしまう人もいるかもしれないので、ここでその要点を簡単に示しておこうと思う（エビデンスに基づかないからゆとり教育は失敗したと盛んに主張する割に失敗のエビデンスは頑なに提示しない学者先生もいるので…）。

袰岩（2016）は①PISA2000とPISA2003以降の母集団は異なっている②主要分野となる前の得点は比較できない（「空間と形」「変化と関係」については有意差が無い）③ゆとり教育の実施時期とPISA得点の変化に整合性は無い、という三点を指摘した上で、より多くの人々が「調査リテラシー」を身に付けられる教育こそが、「エビデンス」に基づく政策に必要なものであると結語している。

※PISA2015・2018の読解力低下について取り急ぎメモ

・本を読まなくなったから→2000年代以降に児童・生徒の読書習慣は劇的に改善、近年悪化したという報告は無い（学校読書調査）

・スマホのせい→スマホは全世界的に普及したのだから日本だけではなく他国の成績も低下しなければならない。論理的思考能力の無いアホ。PISAの読解力調査では正にこのような能力が問われる。

・授業時数が短い→授業時数は以前より増加、家庭での学習を含めた学業時間全体はこの四半世紀で最長（ベネッセ学習基本調査、社会生活基本調査）

・CBAを導入したから→当然だが予備調査を行っている。解答方式の違いにより難易度に差が出る項目は等化に使われていない。ただし、日本にのみ特異的に作用した可能性はある。

・その他テスト設計の変更のせい→可能性はある。現時点では不明。

学習内容や授業時数が増加し、しかも児童・生徒の家庭学習時間や学習態度も改善している中で下がったのだから本当に原因は分からない（少なくとも分かりやすい原因は見当たらない。どうしても分かりやすい原因が欲しいなら「ゆとり教育で上がった読解力が脱ゆとり教育で低下した」というのはどうでしょうか皆さん）。

新井紀子の研究はPISAの読解力調査と同じものではないし経年比較調査でもないので持ち出さない方が良い。議論が混乱する。私の知る限り「教科書が読めない子供」の存在が初めて明らかになったのは1975年に実施された日教組と国民教育研究所による共同学力調査においてである。同調査の結果は各紙の一面を飾り77年指導要領改訂にも大きな影響を与えた。

基本的に非インドヨーロッパ語族ではPISAの読解力調査においてDIFが大きくなる傾向にある（Grisay et al. 2009）。それが原因かは分からないが日本だけではなく香港や韓国もこれまでに大きな読解力低下を経験している（日本のように騒ぎ立ててはいないが）。読解力は他の分野に比べてより密接に言語能力と結びついているのだから、母語を異にする受験者の結果を解釈するには慎重の上にも慎重を加えなければならない。PISAの報告書も読まない人間が読解力について議論するのは無駄どころか有害なのでやめてほしい。

※PISA2022の成績向上について取り急ぎメモ

・他の国が下がっただけ→全分野で前回調査の得点を有意に上回っている

TIMSSの結果まとめは以下

PISA調査のさらなる詳細は以下

ゆとり教育による格差拡大説について

参考文献

Grisay, A., Gonzales, E., & Monseur, C. (2009). Equivalence of item difficulties across national versions of the PIRLS and PISA reading assessments. von Davier, Matthias; Hastedt, Dirk (eds.) IERI Monograph Series: Issues and Methodologies in Large-Scale Assessments: Volume 2., p63-83
Monseur, C. & Berezner, A. (2007). The Computation of Equating Errors in International Surveys in Education, JOURNAL OF APPLIED MEASUREMENT, 8(3), 323-335
OECD (2005). PISA 2003 Data Analysis Manual
OECD (2007). PISA 2006 Science Competencies for Tomorrow’s World Volume 1 Analysis
OECD (2009). PISA 2009 Assessment Framework
OECD (2012). PISA 2009 Technical Report
OECD (2013). PISA 2012 Results:Creative Problem Solving Students’ skills in tackling real-life problems Volume V.
OECD (2016). PISA 2015 Results:Excellence and Equity in Education Volume I.
OECD (2017). PISA 2015 Technical Report.
Wu, M. (2009). Issues in Large-scale Assessments, Keynote address presented at PROMS 2009, July 28-30, 2009, Hong Kong.

*1:受験者の負担とコストの制約がある限り、受験者数減少による偶然誤差とカバー範囲の減少による系統誤差はトレードオフの関係にあり、PISA2015以降は後者を縮小させる選択をとったということである。

*2:授業時数を1割程度削減することを決定したうえでゆとりの時間を確保するために考え出されたのが3割という数字なのだから、これはお話にならない誤りである。完全に数字が一人歩きしている。付言すれば、3割削減（を目指したのは）はあくまで義務教育期間中の話である。実際には多くの学習内容が高校へ移行・統合されている。

*3:中学校では総授業時数に変化は無い。選択教科の時数を主要教科の時数に充てることになっていたからである。ただし、元々移行措置前から選択教科の時数は150コマほど主要教科に充てられていた。仮に、これを平均して数学・理科について30コマ、或いは週当たり1コマとして35コマずつ割り当てられていたとするならば、PISA2012受験者の「移行措置による数学・理科の時数増加分」はそれぞれ35~40コマ、60~65コマである。この分を計算に入れても、PISA2012受験者が最も授業時数を削減された世代であることに変わりはない。