若者論を研究するブログ

打ち捨てられた知性の墓場

MENU

はてなコロッセオ

まえがき
はてなブックマークコメントで気になる方がいればここに呼んでお話をする予定です(ブログからはIDコールが機能するので)。いちいち記事を書くのは面倒なのでお話は全てこのページにまとめることにしました。なお、議論後は次の方のためにコメント欄を全削除しなければなりませんので、相手方のコメントはここに逐一引用しながら議論を進めます。また、観客席からのご乱入は歓迎いたします。まえがきは以上です。

opnihcさん

id:opnihc

全国学力テスト 行き過ぎた事前対策 トップクラス石川県で何が | NHK

良問を解く時間を増やして良問が解けるようになってるのは成果と解釈するのが妥当。ゆとり教育で世代の学力落とした失敗が活かされてる。中学受験組との勉強量の差がそのまま格差に繫がるのはよくない

2022/10/14 18:01
管見の限り、ゆとり教育の影響を測定できる学力調査において系統的な学力低下は確認されておりません。私には見えないものが見えておられるようなので詳細をご教授いただけますと幸甚に存じます。
加えて以下の記事も参考になるかもしれません。学力調査についてお詳しくないようですから…

stracciatellaさん

id:stracciatella

「氷河期世代」なんてくくりで団結できるわけ無いだろ

ゆとり世代も同様で、この世代は個体差が激しい。というこの意見もゆとり世代を一括りにしている。

2022/10/24 02:34
自分のことを客観的で誠実な人間だとでも思ってそうな書きぶりにイラッときたので、差し支えなければ御高説の客観的根拠をお教えいただけると助かります。ちなみに「学力」という狭い領域ではありますが、ゆとり世代の郡内格差については以下の記事にて詳説しております。

businessartさん

id:businessart

前川喜平、安倍元総理殺害に「悲しいとは思わなかった」武蔵野政治塾会場から拍手と笑い、立憲の五十嵐えり都議も肩を揺らして笑う | KSL-Live!

そりゃアベシネ、ニホンシネやったたんやし、この連中はそうやろ。武蔵野市長とゆとり教育寺脇が仲いいのも日本が滅びればいいと思ってるからやろ。

2022/11/09 14:20
ゆとり教育売国政策だった」と仰る方にそうではありませんよと説明する度に何故か嫌な顔をされるのですがbusinessartさんはどのような反応をしてくれるのでしょうか。
ゆとり教育が実施されるに至った歴史的経緯についてまとめていますが長いので下の記事の方が分かりやすいかもしれません。
こちらは「ゆとり教育は格差拡大政策だった」というある種の陰謀論的主張を歴史的かつ実証的に検証しています。上の記事より短いのでおすすめです。
恐らくこうした主張は「ゆとり教育によって学力(or 何か)が低下した」ことを前提していると思うのですが、実際にゆとり教育の影響を調べた実証調査では残念ながらそのような結果は出ておりません。

正体不明の「ゆとり教育」 / 「ゆとり教育の失敗」はどうつくられたのか - 若者論を研究するブログ

PISAもTIMSSもレベルが低すぎるから測定でけへんだけや。短い定規しか持ってないからわからんのやろ。

2022/11/10 13:50
[2022/11/12]申し訳ございません。ブコメでの言及だったので気付くのが少し遅れてしまいました…恐縮ですが当記事のコメント欄をご利用いただけますと幸いです。

「レベルが低すぎる」「短い定規」というのが具体的に何を意味しているのか全く分からないのですが(businessartさんにも分からないかもしれませんが)、PISA・TIMSSのような大規模国際学力調査は項目反応理論と呼ばれるテスト理論に基づいて運用されており、広範な領域を測定することが可能となっております。

たとえば、PISAの場合その年の主要分野となる領域(main domain)の問題は100問以上が出題され、その他2分野と合わせた問題数は200問近く出題されています。また、TIMSSでも数学(算数)・理科のそれぞれで200問ほどが出題されており、合計400問が出題されています。加えて、いずれの調査も(莫大なコストを投じて予備調査を実施しているので当然なのですが)、各テスト項目は十分な識別力があり天井効果も確認されておりません。

差し支えなければ、businessartさんが何を根拠に「レベルが低すぎる」「短い定規」と考えるに至ったのか浅学菲才の身にお教えいただけますと幸いです。ちなみに、基本的な調査設計すら知らずにケチをつけるようなチンパンジーレベルの馬鹿ではないbusinessartさんには無用と承知しておりますが、PISA・TIMSSの調査設計については以下の記事にて詳述しております。

sisyaさん

id:sisya

ゲーム・ネット・スマホが発達障害的な児童を増やすとする文科省調査報告書への学会声明文 – 日本行動嗜癖学会

まず「発達障害的」という表現がうさんくさいし、潜在的差別意識を感じる。発達障害は後天的になるものではないので、そこから学び直してきてくれという気持ちになる。

2023/01/20 18:12
発達障害的」という表現は日本行動嗜癖学会の声明文の中でしか使われていないのですが…本文も別に誤解が生じるような書き方ではないですし、単に見出ししか読んでいなかったのかそれとも高度な皮肉だったのか或いは何らかのギャグだったのかお教えいただけると助かります。

はてなコロッセオ - 若者論を研究するブログ

初手から嫌味を言いながら絡んでくる人間が現実にいたとして、あなたならどういう対応をするでしょうか。が、答えです。

2023/01/21 05:04
HaJK334のブックマーク - はてなブックマーク

精神が歪んでいる人。対話不能

2023/01/21 05:08
対話を拒否されてしまったので真相は藪の中ですが嫌味に思われたということは残念ながら皮肉でもギャグでもなかったようです。

社会生活基本調査における在学生の学業時間推移について

ここでいう「学業」とは、「学校(小学・中学・高校・高専・短大・大学・大学院・予備校など)の授業や予習・復習・宿題 校内清掃 ホームルーム 家庭教師に習う 学園祭の準備 学習塾での勉強」を指す*1(令和3年社会生活基本調査 用語の解説 別表2)。

なお、「大学・大学院生」の数値はそれぞれの推定母人口による加重平均値だが、なぜか平成28年版報告書より在学生の学業時間推移が掲載されなくなったため、平成28年, 令和3年の数値は自分で計算しなければならない。それぞれの数値はH28:大学生231分・2,843千人, 大学院生333分・214千人, R3:大学生204分・2862千人, 大学院生196分・257千人である。というわけで、令和3年の大学院生の数値が明らかにおかしい。



単純に大学生より少ないという時点でおかしいのだが、その内訳を見るとますます意味不明である。上表の通り、スマートフォンの使用者:198分/不使用者:226分に対し何故か総平均は196分である。加えて、スマートフォン使用者のうち「1時間未満」から「12時間以上」の学業時間を見ても明らかに計算が合っていない。

なお、「総数」には「分類不能」「不詳」も含まれるため、サンプルサイズの内訳と総数は一致しない。また、表中「…」となっている箇所はサンプルサイズが10未満で、結果精度の観点から表章していない箇所とされている。

そこで、スマートフォン使用者のうち(分類不詳の)選ばれし17名(307-290)の学業時間を0、表章されていない8名の学業時間も0とすると、スマートフォン使用者の学業時間加重平均値は231.4分…と、やはりどういじくっても計算が合わない。「…」が何か悪さをしているとしか思えない。現在問い合わせ中である。

↓以下返信

お世話になっております。
総務省統計局の〇〇と申します。

ご連絡が遅くなり、申し訳ありません。

ご質問いただきました、
大学院(在学者)の学業時間が少ない件につきまして、
具体的な原因についてはわかりかねますが、
大学院(在学者)は発生件数が少なく、
これに関する数字は誤差が大きいと考えられます。

また、スマートフォン等の使用時間による加重平均値との乖離の件ですが、
「総数」及びスマートフォンなどを「使用した」の総平均時間は、
総平均時間を算出する分母の属性別人口にスマートフォンなどを
「使用した」「使用しなかった」の不詳が含まれるため、
スマートフォンの使用時間別総平均時間の加重平均値と乖離が
生じることも考えられます。

ちなみに、スマートフォン等の使用時間の結果につきましては、
前回とスマートフォン等の使用についての定義が異なる
(前回は学業や仕事として使用した場合を除いている)ため、
比較できないことにご留意ください。

そんなわけで総務省的には特に問題はないという認識らしい。うーんこの。
id:businessart

*1:必修科目として行うものでないクラブ活動・部活動はその内容により「趣味・娯楽」または「スポーツ」に分類される。

【メモ】ダンプカー規制の歴史的経緯について

この増田に同意するわけではないが、実際日本における(恐らくは海外も)交通規制は、実証的な調査に裏付けられた建設的な議論…ではなくして専らマスコミの扇情的な報道とそれに首尾よく煽られた市民感情によって推し進められてきたという経緯がある(それが悪いと言っているわけではない)。

最新の事例としては「ながらスマホ」や「暴走老人」、一昔前なら「飲酒運転」、最古の事例としては「神風タクシー」が挙げられる(栗山 1994)。ここでは、かつて「一姫、二虎、三ダンプ」と呼ばれ、交通戦争の主役でもあったダンプカーが規制された経緯について簡単にメモしておく。

というわけで、読売新聞データベース(ヨミダスパーソナル)から、60~80年代におけるダンプカー報道の見出しを確認する。検索期間は大雑把に1950~1989年、検索キーワードは「交通戦争 ダンプ」「暴走 ダンプ」「殺人 ダンプ」とした。ある一時期に報道が集中していることが分かる。

酔いどれダンプが暴走 停電や交通マヒ騒ぎ 板橋でバーの“つけウマ”乗せ 1961.06.24
無免許ダンプ暴走 雨ですべり工場こわす/東京都大田区 1961.06.26
ダンプ、バスに追突 暴走し店先もこわす/東京・杉並 1961.08.16
無免許ダンプ暴走 浦和、2人死に2人ケガ 1961.09.04
[交通戦争]=11 ダンプに特別免許(連載)1961.12.18
祝い酒で暴走4件 ひき殺し、追突、食堂へ▽無免許ダンプ 店に突っ込む 1962.01.03
酔いどれダンプ暴走 江戸川 電柱折り1000戸停電/東京都江戸川区小松川 1962.01.09
“交通安全日”雨でさんざん トラック衝突、死ぬ▽ダンプに追突して死ぬ/東京 1962.01.10 
ダンプ斜めに暴走 突っ込み2軒こわす/東京・板橋区 1962.01.19
ひき逃げ見物の6人ひき逃げ 平塚でダンプ2台暴走 1962.03.18
パトカーの“壁”も突き破り 盗んだダンプで暴走 横浜-都内35キロ 1962.03.19
ダンプが歩道暴走 街灯、標識折り2人ケガ/東京・五反田 1962.06.10
坊やダンプにひかる 葛飾 1962.12.21
酔いどれダンプ暴走 車6台に接触や衝突/東京都渋谷区 1963.02.01
杉並の“殺人ダンプ”つかまる 板橋でも学童ひき逃げ▽お手柄の通行人/東京 1963.02.16
愛されるダンプ運転手に 70人が安全運転誓う 会社側も負担かけぬよう協力 1963.03.14
交通安全運動 さんざんな最終日▽ひき逃げして追突▽酔っぱらいダンプ/東京都 1963.05.21
[キミだけの世の中ではない]第4次交通戦争=2 スピードに酔って(連載)1963.09.10
ダンプ、民家への無情の暴走 内職の主婦即死 東京・墨田 通行女性らも死傷 1963.10.15
居眠りダンプが暴走 車に衝突、信号機こわす/東京都品川区 1964.01.20
ダンプ暴走3人死傷 2晩連続運転の末 居眠りで屋台なぎ倒す/東京都目黒区 1964.02.08
こんどは無人ダンプ暴走 京橋の工事場/東京 1964.05.08
[気流]中小企業の倒産に思う▽暴走ダンプに根本的対策を 1964.05.09
[気流]お手盛り撤回区議会見習え▽「ダンプの走らない日」提唱 1964.05.22
暴走ダンプとタクシー 深夜のオニごっこ 電柱折ったり砂まいたり/東京 1964.07.11
また歩道へ暴走 小岩でダンプ 黄色い旗もつ少女重体▽神田では乗用車衝突 1965.09.13
バス停の11人死傷 大阪 ダンプ衝突し暴走 1966.07.10
ダンプが奪った始業式 黄旗の少女ひかれる 青梅街道 夏休みの作品が散乱 1966.09.01
相乗り幼女即死 おかあさんも気をつけて 自転車から転落 ダンプにひかれる 1966.10.07
園児や学童3人死ぬ 横浜 横断の列へダンプ/横浜市 1966.12.05
違反常習のダンプ 横浜の園児らなぎ倒し/横浜市 1966.12.06
「歩道橋すぐ作れ」 横浜のダンプ事故現場 建設相、異例の指示 1966.12.08
園児ら10人が死亡 20人重軽傷 愛知 横断の列へ殺人ダンプ 1966.12.15
あまりにむごい 愛知の交通惨事 行儀よい園児の列へ 襲いかかる“凶器” 1966.12.15
ダンプ取り締まれ 警察庁が緊急通達/園児交通惨事 1966.12.15
ダンプの規制強化 免許年齢引き上げ 通学路は通さぬ 首相きょう指示 1966.12.16
[あとをどうする]=7 殺人ダンプ 事故の元凶、零細企業(連載) 1966.12.16
無法、殺人もう許せぬ ダンプ緊急取り締まり けさ38か所で警視庁 1966.12.17
[サイドライト]野放しダンプカー 1966.12.20
ダンプ、こんどは登校の列へ 学童4人がケガ 雪の県道で“暴走”/青森市 1966.12.21
[吹きっさらしのまちかど]=6 おそすぎた信号機 母が涙の渡りぞめ(連載) 1966.12.21
暴走ダンプを追放 警察庁が通達 殺人罪も適用する 市民の通報制設け検挙 1966.12.23
さっそく市民通報 ダンプ取り締まり ナンバーの確認を 1966.12.23
ダンプ業者立ち入り監査 1966.12.23
街頭抜き打ち検査つづける/ダンプ・砂利トラ取り締まり 1966.12.28
違反は管理者も責任 取り締まり当局の態度/ダンプ・砂利トラ検査 1966.12.28
またダンプが殺人 2人にケガ 巣鴨の横断歩道、札つき運転手/東京 1966.12.28
“新入りが運転”と偽証 雇い主ら口裏あわせ/足立ダンプ惨事 1966.12.28
ダンプ暴走に自主規制 トラック協会 1966.12.28
ダンプ対策に1億円 政府 きょう閣議で支出決定 1967.01.06
[果たせ公約]=5 ダンプには岩を(連載) 1967.02.10
それでもダンプは笑う 「罰則?!関係ないネ」 助手台の同乗記 1967.02.27
子供の死、ムダにしないで 愛知ダンプ事故のおかあさんら 佐藤首相に涙の訴え 1967.03.30
横断歩道橋 もう待てない 同じ場所で幼女重傷▽中学生3人を殺す 暴走ダンプ 1967.05.14
あすから春の交通安全運動 暴走ダンプ追放 通学の安全守ろう 1967.05.21
ダンプ事故業者 入札しめ出す 福井で7社処分 1967.05.25
ダンプ規制立法は絶望 交通戦争絶滅の期待よそに 与野党が調整難 1967.07.12
ダンプ規制なぜできぬ 望み薄の法案成立 建設業者が圧力? 1967.07.12
酔いどれダンプ暴走 地下鉄工事の3人死傷/東京・千駄木 1967.10.04
突入ダンプと3か月 泣き寝入りしないぞ 師走のすき間風にたえて/熊谷 1967.12.12
暴走ダンプ締め出し 1日から規制法実施 車の長期使用禁止も 1968.01.30
“無法ダンプ”相変わらず 非力な警察の摘発 「規制法」1か月 1968.02.29
バス停の3人死傷 東京・練馬 大型ダンプが暴走 1969.01.08
ダンプ規制強化 10月から 1969.07.11
[気流]積載オーバーの暴走ダンプ 1970.04.11
横断歩道へ暴走ダンプ 老女と孫即死 南品川 車を縫って突っこむ/東京 1970.09.17
[気流]ダンプが憎い 1970.11.07
[気流]ダンプの走行規制で提案 1970.11.15
歩道の3人はね飛ばす ダンプ暴走/東京都葛飾区亀有 1971.05.15
ミキサー車に衝突、死ぬ▽幼女、ダンプにひかれ死ぬ/東京 1971.09.05
ダンプ交差点で“大の字” 九段 信号待ち2台に砂利の雨 1972.12.26
11トンダンプ、2店刺す 居眠り暴走 スナック客けが/東京都板橋区 1974.03.31
捜せ!人殺しダンプ つぶれた自転車と坊や 立川/東京 1975.04.16
狭い市道でダンプ暴走事故 「坊やの死、市も責任」 千葉地裁 親の訴え認める 1975.06.26
下り坂駐車のダンプが暴走 アッ子供が…、仁王立ち死ぬ/横浜市鶴見区 1975.12.15
ダンプ暴走 1500世帯停電/東京都大田区 1977.04.20
[気流]夜道、暴走のダンプ 1978.06.21
狂気のダンプ大暴走 民家壊し、主婦殺す パトカーなど14台に衝突 鹿児島 1979.09.05
暴走ダンプ12台壊す 妄想の運転?9人重軽傷/東京都文京、豊島区 1982.04.26
バスに暴走ダンプ 36人けが/神戸 1982.08.20
暴走ダンプが信号へし折る/東京・調布市 1985.07.15
ダンプ暴走、1人死ぬ 信号無視で衝突/東京都練馬区 1988.06.30
青梅街道ダンプ暴走 街路樹なぎ倒す 1988.12.10

注目するべきは1966年12月に起こった横浜市と愛知県の事故からの一連の流れである。印象的な事故が世論を大きく動かし、それによって法規制が進んでいくプロセスが見出しにも表れている。(ちなみに、後者の「猿投ダンプ事件」はダンプ規制の要因となった歴史的事故として今でも言及されるが、その10日前に横浜市で起こった前者の事故は今では殆ど知られていない)

また同時に"ダンプ規制立法は絶望"だとか、"ダンプ規制なぜできぬ"だとか、マスメディア様の逆張り悲観無責任煽りテクニックも確認することができる。もちろん、その後の展開を見ても分かる通りダンプ規制法は問題無く成立しているわけであり、当時の関係者もこの報道には大いに困惑したようである。第055回国会 交通安全対策特別委員会 第14号

石井光太 『ルポ 誰が国語力を殺すのか』におけるゆとり教育に関する記述について

同書では「ゆとりに至る道」「ゆとり教育の裏で何が起きていたのか」「社会が求める要求の肥大化」と三節にわたってゆとり教育が論じられているのですが、例によって例の如しだったので、いつものように一人虚しく添削していこうと思います。

ゆとりに至る道

さらに、教科書の内容が三割削減されるとか、円周率を「およそ三」として教えるといった話まで飛び交うようになると、文科省のへのバッシングは一層厳しいものになっていく。

三割削減

ゆとり教育を説明する上で必ずと言って良いほど言及される「三割削減」だが、一方でその出典が明示されることは稀である。それもそのはずであり、実は三割削減を明記した公式な資料は存在しない。それではどこからそんな数字が出てきたのかと言えば、以下の記述がその大本である。

児童生徒にとって高度になりがちな内容などを削減したり,上級学校に移行統合したりなどして,授業時数の縮減以上に教育内容を厳選する。例えば,算数・数学,理科などは,新授業時数のおおむね八割程度の時数で標準的に指導しうる内容に削減(『教育課程の改善のポイント』 教育課程審議会 1998)


この「新授業時数のおおむね八割程度」というのは具体的にどの程度なのか、という問いに対する答えが「三割削減」なのである。たとえば、読売新聞が三割削減について初めて言及した記事では次のように書かれている。

学校週五日制時代の幼稚園から高校までの教育内容について検討してきた教育課程審議会(文相の諮問機関、三浦朱門会長)は二十二日、審議のまとめを公表した。小中高校とも授業時間数を週当たり二時間(単位時間)削減するとともに、基礎・基本を確実に身につけさせるため、小中学校では教育内容を厳選し、現在の内容から約三割削減する。

(中略)
これについて文部省は、「約三割の削減となる。五日制で減る授業時間数以上に内容が削減されており、現在の八割程度の時間で教えられる内容(ママ)」と、子供たちのゆとりの確保になることを強調している。

読売新聞, 1998.06.23, 朝刊, (1)7


ただし、三割削減が実行されたことを示す定量的な根拠や何らかの実務的基準は存在していない。たとえば、文科省次官であった小野元之は、ゆとり教育による三割削減説について次のような証言を残している。

二つ目の誤解は、教育内容の三割削減という話です。これは、たしかに文部科学省も三割削減と言ったのですが、私が事務次官の時に、教科書の活字の大きさなどを含めていろいろと調査しましたところ、私の結論では一割削減なんです。削減したということには間違いないのですが、三割もの削減ではありません(岡本・佐藤 2014 p.131)。


小野の発言は調査手法が明示されていないため、その信憑性には疑問が残るが、同じように三割削減という数字も定量的な調査が行われた結果としての数字ではない。ちなみに、教科書のページ数はゆとり教育の前後で殆ど変化は無く、中学校国語で採択率一位となっている光村図書の教科書では、三学年合計で948ページ(1997~2001)から970ページ(2002~2005)へとむしろ増加している。

円周率が三

「円周率がおよそ三」については端的に言ってデマである。断定的な記述ではないので著者がデマと承知していたのかどうかは判然としないが、仮に承知の上で当時の世相を客観的に記述したのだとしても、デマには何かしらの注釈が付されてしかるべきだろう。

ゆとり教育の裏で何が起きていたのか

ゆとり教育における選択教科

「選択の授業が増えたのも困りました。国語力をつけるには国語の授業だけでは不十分で、そこで培った共感性を社会や理科の授業で活かすなど他の教科とのつながりの中で成長するものです。でもそれらの授業時間が軒並み減ったのに加えて、選択が増えたため、午前中勉強したら、午後は体育や美術ばかりでほぼ遊びという状態になったんです。国の言い分では、体育や美術でも国語力を伸ばせるということなのでしょうが、実際は体育館や美術室で騒いでいるだけでした」

この証言が事実ならば極めて特殊な事例である。選択教科と言えば一般に主要五教科以外の教科だと思われているが、ゆとり教育では全ての教科を選択教科として設置することが可能となっており、中教審が平成十九年に出した指導要領改訂の「審議のまとめ(中間報告)」によれば、平均して約三分の二(144/225)の選択教科時数が主要五教科に充てられている。

PISAショック

日本の子供の学力の低下を示したのは、二〇〇〇年からはじめられたPISAだった。図11を見れば、ゆとり教育の開始と同時に順位が低下しているのがわかるだろう。特に読解力の低さが著しく、これは「PISAショック」と呼ばれた。この点数とゆとり教育の因果関係は定かにはなっていないが、教育業界を震撼させるには十分な結果であり、これが後の国語教育の改革へとつながっていくのである。

国際順位の変動によって学力を経年比較することは不可能である。また、著者の作成した図には数学的リテラシー・科学的リテラシーの結果も併せて提示されているのだが、得点の経年比較が可能となるのはその分野が調査の主要分野(main domain)となった後に限られる。著者はPISAの基本的な設計も理解していなかった可能性が高い。

また、PISA2000-2006サイクルの日本の読解力低下について、PISA調査の設計者からはテスト設計の変更が原因である可能性が指摘されており、これを受けてPISAの報告書では日本の読解力得点低下について慎重に解釈する必要があることが注記されている。

PISA調査の設計やその結果、特にゆとり教育との関連については以下の記事で詳述している。

社会が求める要求の肥大化

最低基準性と確かな学力向上路線

社会的には批判を浴び、成果も乏しかったゆとり教育だが、文科省の中でいの一番に反対の狼煙を上げた人物がいた。時の文部科学大臣遠山敦子(在任は二〇〇一年四月~二〇〇三年九月)だ。〔…〕彼女は文科省のトップにいながら、ゆとり教育の行き過ぎに危機感を募らせ、それがはじまる直前の二〇〇二年一月に、文科省の方針と逆行するかのような発表を「学びのすすめ」と題して行った。〔…〕これまでは学習指導要領の内容を再現するのが授業だったのだが、遠山はそれを「最低基準」とした上で、そこからの上積みを「確かな学力」という表現で現場に求めたのである。

市川(2002)が指摘する通り、指導要領の最低基準性は学力低下論に押された文科省が事後的に打ち出した方針ではなく、ゆとり教育を巡る議論のごく初期の時点で文科省側が積極的に明示していた方針である。

また、著者の認識に反してゆとり教育前後に実施された経年調査は総じて学習態度の改善や学力の向上を示しているのだが、これを「(90年代)ゆとり路線」から「(00年代)確かな学力向上路線」への変化と(事後的に)解釈することで、それらの調査結果が「ゆとり教育失敗の証拠」とされたことは以下の記事に示す通りである。

実感至上主義

実は、今回インタビューをした人物、特に大学の研究者の中には、「国語力が落ちているかどうかはわからない」と回答する人もいた。東京学芸大学の犬塚美輪教授が、その一人だ。〔…〕犬塚は次のように答えていた。


「子供たちの能力が劣っているかどうかはわかりませんし、そうしたデータがあるわけではありません。少子化が進んでいて、学力的に劣っている子がそれなりの大学に進学してくる現実はあるので、そういう意味で教員の側が大学のレベルが低くなったと感じることはあるかもしれませんが、だからといって全体的に能力が低下しているとは断言できないのです(後略)」


現代の子供たちの能力が落ちているのかどうかを定量的に立証するのは実質不可能だ。東京学芸大学に進学できるのは、トップレベルの成績の子供たちだ。中でも私立の中高は公立との差別化を図って創意工夫を凝らした教育を行っているため、そこから上がってきた生徒を中心に見れば、大して変化しているようには感じられないだろう。

どのような命題であろうと定量的に「立証」するのは実質不可能だと思うが、定量的に評価・測定することは十分可能である。特に教育分野におけるそれは教育測定と呼ばれており、その専門的知見に基づく経年比較可能な学力調査の結果は上掲記事の通りである。教育測定の理論については以下の記事を参照されたい。


また、「教員側が能力低下を(必然的に)実感していたとしても、そこから(世代)全体の能力低下は導けない」という説明に対して「学芸大に進学できるのはトップレベルの成績の子供たちだから大して変化は感じられない」という主張は噛み合っていない。先のPISA調査に関する説明もそうだが、著者の論理的思考能力を疑わせる記述である。

好意的に解釈しようにも、別の箇所では

各界からの批判に呼応するように、一般の人々もゆとり教育を頼りにならないものとみなし、わが子を私立中学へ進学させる傾向が高まった。実際一九九九年からリーマンショックの二〇〇八年までおおよそ一〇年にわたって中学受験率は右肩上がり、私学側もあの手この手をつかって生徒集めに躍起になった。

という記述を残しているため擁護ができない。大学のレベル低下と同様に、中学受験率が上昇すれば私立・公立ともに学力低下が生じるのは必然であるにも関わらず、それについての説明が一切見られないからだ。犬塚氏の説明を理解していないと考えざるを得ない。

氏が説明しているのは"サブグループの水準から全体の水準を導くことはできない"という事実であり、中でも"全てのサブグループの平均水準が低下(向上)しているにもかかわらず、全体の平均水準は向上(低下)する"ような状況は「シンプソンのパラドックス」と呼ばれている。それほど難しい話ではないのだが、理解できないという方がいれば以下の記事を参照してほしい。

引用文献

市川伸一. (2003). 学力低下論争. ちくま新書.
岡本智周・佐藤博志. (2014). 「ゆとり」批判はどうつくられたのか―世代論をときほぐす. 太郎次郎社エディタス.

「先輩と青年は如何にして調和す可きか」, 1909, 大隈重信, 『実業の世界』6巻4号

現代の大問題
社会に於ける先輩と青年との関係は恰かも一家に於ける夫婦関係の如くなり。夫婦相軋轢すれば到底円満なる一家の発達を望まれざるが如く先輩と青年と相調和するにあらざれば完全なる社会の発達は期し難し而も今の先輩と青年との関係を見るに青年は先輩を頼むに足らずとなし先輩は青年を用ゆるに足らずとして両々相反目せり。此の如くんば国家の前途如何誠に憂慮すべき次第ならずや。吾徒幸に其調和策に就きて社会の先覚者たる伯爵大隈重信氏の意見を聞き得たり掲げて以て江湖反省の資となす。

(※引用にあたり、旧字体新字体へ、歴史的仮名遣いは現代仮名遣いへ改めています。また、下線部は原文で強調されている箇所です。)

△徒らに過去を追懐するは健全なる思想と云う可からず

如何にして社会の先輩と、後輩とが円満に調和す可きかと云う問題と、私が平素信じて居る人間の長寿法との間には実に密接な関係がある。ツイ近頃の事である、ナイアガラ瀑布保存会の会員が来訪して、私の長寿法に就いて種々質問する所があった。

それは其人の父なるものが私と同じように人間の長寿法と云う事に就て信ずる所があって、九十九箇年、九箇月九日目まで生きて、遂に熟した林檎が地に堕るように自然の大往生を遂げて仕舞った。其老人が、自分の信ずる長寿法を小さい冊子に綴って、死ぬ少し前、即ち九十九箇年八箇月目に出版した。

其子供が私に其小冊子を呉れて貴下の長寿法と、自分の父の説とは殆ど符節を合するが如くに一致して居ると云うて、非常に喜んで帰った。今其小冊子を見ると成る程、私の信ずる所と少しも違はない、う云う点が似て居るかと云うと先ず第一、人間が徒らに過去を追懐顧望して其処に生ずる一種眷恋の情に耽るのは決して健全な思想ではないと云う事が全然同じである。

△余が長寿法の根本は将来に希望の光輝を認むるにあり

私の長寿法の根本義は即ち之である。止むを得ない場合の外は決して過去を語って愚痴らしい事を云わない。過去の歴史は、過去の歴史として、人間は常に将来に美しい愉快なる希望を持って進まなければならない。それには先輩が常に時代の推移、社会の進歩という事に注意して居なくてはならぬ。

即ち一定の見識がなくてはならぬ。凡そ、社会に善を為そうと云うものは、時代や社会の黙移暗遷もくいあんせんする状態に通達して居なければならぬ。それが分らないで唯、昔の儘の智識で現在の社会に事を為そうとすると其処に間違が生じて来る。即ち過去の事は非常に美しく立派に見えるけれども、現在の事は何うも面白くない。

其処で愚痴が生じて来る。ヤレ現代の青年は腐敗したとか、堕落したとか云う。うかと思えばもう澆季の世であるというような嘆声を発する。う云う先輩は社会に何事をもなし得ないで早く死んで仕舞う。爾うして徒らに先輩と後輩との間を益々隔離せしむるに過ぎないのである。

其処で人間は常に将来に美しい希望の光輝を認めて、終始、愉快に、幸福に進んで行かなくてはならぬ。社会に處して青年と調和して行き得ないような老人は到底長く此世に生存する事は出来ない。

△今日の先輩は毫も時代の変遷を知らず

社会に於ける先輩と、後輩との関係は恰も一家に於ける夫婦の如きものである。夫婦和合しない家庭は到底繁昌して行く事が出来ないように、老人と青年とが調和しない社会は所詮進歩しない。

今日の先輩はややともすると、現代の社会は澆季であるとか、青年が腐敗したとか、学生が堕落したとか云うて罵倒する。其処で青年の方でも、老人に対して非常な反感を持って来ると云う有様であるけれども、之は要するに今日の先輩が時代の推移社会の変化という事を知らないからして生ずる感情の齟齬に相違ない。

例えば或る人の云う今日の青年は維新当時の書生に比べて大に退歩した、意気地が無くなったと云うような事でも、先ず時代と云う事からして考えて掛からなければならぬ問題である。維新の当時は社会に秩序の無い、新習慣、新道徳が固定しない一種の動揺時代であった。

此動揺時代に處した青年の気概と、今日のように社会の秩序、組織が固定した時代の青年の素行とを比較して昔の書生は元気があって偉かったけれども、今日の書生は意気地がないと云うのは甚しい短見浅慮と云わなければならぬ。

実際維新当時の書生が行ったような事を、今日多数の学生が演じたならば、それこそ警視庁が十あっても二十あっても足らない訳である。それを何処までも志那流儀に解釈して、昔は好かったけれども、今は駄目である。最早世も末だというのは畢竟先輩が無学である所から生ずる誤謬に外ならぬ。

昔から隣村の庄屋を悪いと云うた事は無い云うが、真に爾うで社会が腐敗した、堕落したと云う慨嘆の声は蓋し何時の世、如何なる時に於ても絶ゆる事は無いのである。素より此の嘆声は大に喜ぶ可きである。けだし嘆声は向上を欲する声である。人間はべて前途の光を認めて現在の進歩を計って行かなければならないのである。

△先輩の干渉度に過ぐるは社会の進歩を阻害するもの也

無病の時に服薬すれば、何んな良薬でも其人を毒する事になる。先輩が余りに青年の事を心配し過ぎて、必要もないのに干渉するようであると、青年は決して発達しない。爾うしてそれが延いて社会の進歩を阻害する事になる。青年は例えば草木の若芽の生い立つようなものであって、自然の儘に生育させて置けばそれで好い。別に大した欠点はない。それが古い大木になるとナカ/\爾うでない、欠点が多い。

之は要するに自然の勢である。見給へ、若芽は常に、古い幹の上に生ずる。爾うして古い幹の上に緑の葉を広げる。此英気勃々このえいきぼつぼつたる青年は非常に進取の気象に富んで居る、破壊力も強い、喧嘩もすれば、だだも捏ねる、此天性を教育と云うものが或る程度までめるのである。

それを余り干渉し抑圧し過ぎると遂に不良少年を拵える事になる。之には四辺の境遇とか、家庭の事情とか、教育の圧迫というような事が非常に影響するものであって、要するに自然の心に随って青年を導けばそれで好い。例えば水の流れるのを見ても分かる。自然に流れる水を強て堰き止めようとすると其水が氾濫して恐ろしい洪水となる。

又熟ら自然界を見ると、年老ったものは何の点から云うても若い者には勝たれない。第一腕力が弱い。如何に常陸山でも七八十になれば二十位の子供にも負かされるようになる。又如何なる学者でも老ゆれば自然に記憶力というものが減退してくる。

例えば、同じ百頁の冊子を読んでも、記憶は若い者の方が強い、何うしても物質上から老人と青年との競争は出来ない。それを無暗に偉がるから、其処にお互の間に感情の齟齬が生じて来る。殊に老人は記憶力が減退して居るから一度云うた事を二度も三度も繰り返して云う。

其処で青年の方でも大に癪に障って黙って居られなくなる。人間と云うものは、自然に長老を尊敬する気風を備えて居るものである。それを強て長老に反抗させるように仕向けるのは、先輩の方に悪い所が多いからであろうと思われる。

△先輩は新思想を了解する為常に読書を怠るべからず

前にも云うた如く、老人は動ともすると、希望を将来に持たずして徒らに過去を追懐して愚痴をこぼすという傾向を有して居る。床に入って寝ると、昔はこうであったとか。ああ云う事を遣った為に、今はこんな事になって仕舞った、彼の時にうまく遣って居れば、今頃は立派に出世が出来て居たろうとか、金も出来て居たろうとかいうような事ばかり考えて居る。

之が現在の社会にとって、何うも有害無益の事である。自分も働こう、若い人と一緒に働こう。何でも将来は好くなり、好く為そうと云うような覚悟がなくてはいかぬ。凡て先輩と青年とが一緒に働かなくては到底国家社会の経営は出来ない。

例えば、家を建てるにも大工ばかりではいけない。大工も左官も植木屋も共同して働かなくては、完全な家が出来ないようなものである。其処で老人も奮起して青年と一緒に働かなくてはいかぬ、それには、時代の推移に連れ、社会の進歩に伴うて青年と一緒に進んで行こうと云う用意がなくてはならぬ。

であるから常に心掛けて新聞も見るが好い。雑誌も読むが好い・爾うして読書と云う事を怠らぬようにして行かなければならぬ。年を老るに連れて身体は漸々衰えて行く、けれども頭脳には常に新思想、新智識を注射して行かなくてはならぬ。頭脳は使わないと固くなって、記憶力が減退する。記憶力が減退すれば自然、愚痴が多くなる。繰言が多くなるという訳である。

其処で常に新智識を注射して、研究的態度をとって行かなくてはならぬ。爾うして青年の言うことを喜んで容れて行くと云う態度でなくてはいかぬ。自分の気に入らぬ事を云う青年を愛して、それを用いて行く位の雅量がなくては社会に處して先輩としての義務を果たして行く事は出来ない。

△青年も亦服従の美徳を修養せざる可からず

私は以上、重に社会の先輩を鑑戒して青年に対する道を説いた。けれども、私が恁う云うたからと云うて、青年は妄りに起って先輩に反抗する事を以て得意とするような傾向があってはならぬ。全体物には秩序というものがある。此秩序を無視して事を行っては社会の善良なる組織が保たれない。其処で青年は或る点まで服従という美徳を修養して行かなくてはいかぬ。

即ち如何なる境遇に在る者と雖、一度は人に使われて見なければ将来人を統御する才能を得る事が出来ない。人に使われて奉公の苦労を甞める。其処で経験と云う無形の資産が得られる。此無形の資産は、何ものにも代え難き個人の財宝である。

斯くの如くにして、青年は或る点まで先輩を尊崇し服従して行くようにする。又先輩は前に私が述べたような点に注意して行ったならば、ここに渾然相互の感情が融和して、社会国家の発達は期して俟つ可きものがあろうと思われる。


若者論の歴史・概略版 そして劣化言説へ…

まえがき

若者論にはどこか牧歌的な雰囲気が付きまとっている。小説やドラマに登場する若者に管を巻く哀れな中年という手垢のついた表現がその一因かもしれない。いつの時代も大人たちは若者論によって溜飲を下げ,当の若者自身はそれを右から左に聞き流す。そうであれば,若者論も取るに足らない日常の営為というものだろう。

しかし,現代の若者論はフィクションで描かれるほど牧歌的ではない。現代社会における若者はれっきとした「社会問題」であり,彼らの「実態」を明らかにする若者論は確たる「証拠」と「社会的意義」をそなえた現代社会論なのである。

飲み屋のおっさんが思いつきに若者を愚痴るというステレオタイプなイメージは通用しない。学識や年齢,社会的立場といった垣根は若者論にはない。誰もが若者を語り,日本の将来を悲憤慷慨し,或いは時に優越感を満たす。若者論において言及されている,当の若者自身すら例外ではない。

一方,若者の「問題」は侃々諤々に議論されながら,その解決が真剣に目指されることは殆どない。若者の問題性が自明視されている一方で,彼らの振る舞いは面白可笑しく喧伝される。「俺が若者の根性を叩き直してやる」と息巻く人間が,若者の問題を社会構造や経済的要因から仔細に検討することはない。

現代の若者は憂慮すべき社会問題であると同時に,社会に笑顔と活力を与えてくれる一服の清涼剤なのである。若者の問題は次から次へと「発見」されるが,それらの問題はいつまでも解決されずに積み上げられ,「劣化した若者」という認識だけが強化されていく

こうした若者論の性質は一朝一夕に形成されたわけではないが,かといってそれほど歴史が古いわけでもない。そこで本稿では,若者論の歴史を概観することで現代の若者論が備えている性質を明らかにしてみようと思う。糞の役くらいには立つだろう。

60・70年代の社会学的青年論

若者論の誕生,すなわち,「若者」が社会的存在として認識され主題化されたのは60・70年代以降とされることが多い。その原因には,産業社会や脱産業社会への転換にともなう若者の社会化過程の非連続化,中等教育の普遍化や高等教育の大衆化によるモラトリアム期間の延長,戦後経済成長にともなう若年労働力に対する期待と危惧,この時期に世界的に普及した若者の「異議申し立て」に対する心理学的説明の必要性,等々が挙げられている(乾 2005; 岩佐 1993; 片瀬 1993; 坂口 1994)。

しかし,とどのつまりはこの時期に,先行世代とは異なる若年世代が社会的に「発見」されたということである。たとえば,二関隆美は70年代において,学問的な研究領域としての「青年」に関心が集められていた背景を次のように指摘している。

かような青年の逸脱性によって,あらためて青年存在が発見され,世代関係の不調が実感される。つまり,青年は成人に対して「こまった連中」という狼狽,「手がつけられない」という困惑,「理解しがたい」という慨嘆をおこさせ,これらの青年性の新型が社会組織に不適合であり,社会体制の統合と安定をおびやかすように成人の眼に映ずるところから,成人社会は何らかの対策にのりださざるをえなくなり,福祉・教育・刑罰などの施策によって調整をこころみようとする。

(中略)
現代におけるかなりの規模(ただし,現代青年のうち多数派をしめるまでにはいたらず,つねに少数派なのである)の青年にみられる逸脱的な新型の出現は,青年史上未曽有のことのようにおもわれ,その発生に関する社会的・心理的カニズムはもっとも重要な研究問題なのである(二関 1975 pp.191-192)。

しかし,若者論の勃興期にみられる「青年像」は決して,今日の若者論にみられるように差異性を強調するものばかりではなかった。特に社会学の領域においては,いかに若者と社会を架橋するのかという目的意識が通底していたのである。

この時期の若者論・若者研究が「若者」という言葉ではなく,子どもから大人への過渡期というニュアンスを含む「青年」という言葉を一般に使用していたのもその表れだろう。いずれは「われわれ」の社会の成員となることが前提されていた。

こうした目的意識は社会学における青年研究の手法にも見て取ることができる。青年を社会との関わりにおいて分析しようとする試みは,必然的にそれぞれの社会構造・社会階層における若者の動態を把握することを要求する。

この時期の青年研究では,家庭や職場,地域における青年,或いは都市部と農村部の青年などがその社会構造・階層との関わりにおいて個別具体的に分析され,それらの「総合」として青年の「実像」を描き出す試みが目指されていた。

岩佐淳一はこうした社会学的青年論に見られた分析枠組みについて次のように言及している。

こうした分析枠組みは当時の社会学的分析の主流をなしている。井上俊は「対象たる『青年』のそうした多様性,異質性を過不足なく押さえ,したがってまた歴史的な連続性―非連続性にも十分に目をくばりながら,現代青年の総合的な姿を描き出すという方向を「『総合的』アプローチ」と呼んだが(井上 1971 p31),この時期の実証調査ベースの社会学的青年論,青年の社会学には,全体として井上のいう「『総合的』アプローチ」への指向が認められる(岩佐 1993 p.15)。

この時期の青年論は社会や大人と断絶した異質な若者を前提してはいない。若者が変化しているというのなら,それがどこに,どのような態様で表れているのか。また,それらの変化が社会と遊離した局所的・逃避的なものであるのか,或いは「対抗文化」のように既存の社会構造に根ざした変化であるのか。何が同じで,何が違っているのか,またその違いをどのように区分しうるかが,この時期の青年論の関心領域であり,その目的でもあったのである。

70・80年代の心理学的若者論

しかし,こうした実証的・社会学的アプローチが以降の若者論に引き継がれることはなかった。代わって,70年代半ばから台頭する心理学的アプローチが以降の若者論を規定することになる。中でも,中野収の「カプセル人間」と小此木啓吾の「モラトリアム人間」が現代の若者論に与えた影響は大きい。これらの言説は若者に「社会から隔絶された異質な存在」と「社会の変化の代表者・先駆者」という地位を与えたのである。

社会から断絶された存在と,社会の変革者という存在は一見矛盾しているように思える。しかし,この二つが結び付けられるところにこそ,現代若者論の特徴がある。まずはモラトリアム人間とカプセル人間について,小此木や中野がどのように説明していたのかを確認しよう。

しかし今や青年は,既存社会のいかなるものに対しても,同一化するよりは一歩距離をおいて隔たり,論評者,批判者,局外者たろうとする。

(中略)
青年たちは,現実社会に対して,魔術的な力をもつマスコミに同一化して自己を全能視し,既成社会の継承者であるよりもむしろ論評者であることを理想像にする。その社会の中に自分も存在しているという自己の現実を否認し,実行力を伴わぬ口先の論評にたけて批判力ばかり肥大するという,マスコミと同様の自我分裂が,青年たちにも共通した心理構造になっている(小此木 1975 p.25)。

若者は,個室を装置化し,自分を外界から遮断する。他人を,密室の入口をあけて招き入れることは稀である。むしろ,人間関係は,装置ごとのドッキングの状態である。心理的にも,隔壁を用意した上で関係をとり結ぶ。
若者の好むコミュニケーションは,こうした結合の集合体であって,赤裸々な自我の直接的結合の総体ではない。隔壁を介した結合こそが望ましく,それは「やさしさ」ということなのだ。したがって,ほとんどの人間関係において,密室性が保持される(中野・平野 1975 p113)。

社会から孤絶する若者という概念が登場したのは,歴史上初めてではない。たとえば,先述の二関(1973)は,現代の青年期特性に見られる特徴の一つとして「『局在』的な青年性―大衆社会のなかで浮遊する自閉的な独自性」を挙げている。

しかし,こうした青年特性はあくまでもあり得る青年類型の一つとして記述されているに過ぎず,他にも「『役割』的な青年性」,「『脱出』的な青年性」,「『反抗』的な青年性」などと並置されている。また,局在的な青年性がもたらす社会的影響については「消極的には一過性の泡沫効果。積極的には第一次集団場面から第二次集団への進入における準備経験,あるいは中継ステップ」としているに過ぎない。

しかし,モラトリアム人間論やカプセル人間論に見られる若者の特異な心性は,青年期特有の一過性のものではなく,かえって社会全般に敷衍された「社会的性格」として主張されるのである。たとえば,小此木は次のように述べている。

彼ら青年たちは,実は,今現在われわれの心に浸透し汎化し日常化してしまった「モラトリアム人間」を,きわめて敏感な形で先取りしていたのである。ヒッピーも全共闘運動も,他動的・受身的にわれわれを「モラトリアム人間」化する,現代社会のもの的な動向を”言葉”にし,能動的・主体的なものに選び返す一つの表現行為,一つの象徴的実現であった。またそれは,「モラトリアム人間」の存在権を,この社会に確立しようとする先駆的努力をも意味していたのである。本来は,現代の青年心理の特性として,その認識が得られた「モラトリアム人間」は,今や現代人の心性全般を規定する「社会的性格」になろうとしているのである(小此木 1975 p.13)。

また,1975年に「カプセル人間」を提唱した中野収も,80年代の半ばには小此木と同様に,「カプセル人間的性格」が既に日本社会の一般的性格になったとしている。

とにかく,人と人との間は,間接化し疎遠になった。人にとって孤絶状態が常態になろうとしている。この傾向は,少なくとも,この二十年間,遅滞することなく,着実に進行している。さまざまなリアクション,回復の試みはあったが,今のところ進行は停止しないばかりか,むしろ加速されている。

(中略)
つまり,孤立・擬人化・間接化は,正常な人間の状態からの病理的逸脱ではないし,パソコンとの「対話」は「情報化」の必然的な帰結であり,今日における人間の条件,ということである。こうして,新しい形態の情報・メディアとのかかわりと孤立化は一体であり,そして,ライフスタイルになった(中野 1984 pp.310-311)。

小此木や中野の言説に見られるような現代社会論と若者論の密接な結びつきは三つの副産物を生み出した。

一つ目は,若者論から「社会に接続されるべき青年」という視座を奪ったことである。小此木も中野も,現代の若者に見られる心的傾向がもはや「社会的性格」と呼べるまでに普遍化していることを指摘している。

発達段階的な「青年」という概念には必然的に,既存社会の成員である「大人」という概念が対置されていなければならない。しかし,社会の成員がみな「モラトリアム人間」になり,「カプセル人間」となったのであれば,もはや青年が移行すべき対象は失われてしまう。

二つ目は「社会と青年の架橋」という視座が失われた結果として,大人と若者の非連続性が強調されるようになったことだ。70年代以前の社会学的青年論が若者と大人の連続性・共通性にも注目していたのは,ひとえに若者と社会の接続を円滑にすすめるためであった。しかしその目的が失われた今,もはや若者論にとって先行世代との連続性・共通性は必要とされなくなったのである。

そして三つ目が,若者が社会を説明しうる存在としてクローズアップされるようになったことだ。若者という存在はもはや社会における単なる一集団ではなく,現代社会の変化を直接的に反映する写し鏡としての役割を期待されるようになった。社会の変化(とされるもの)は、すなわち若者の変化であり、若者の変化(とされるもの)もまた、社会の変化と同一視されることになったのである。

ここにおいて青年論は,現代社会の説明装置としての「若者論」へと変質した。小谷敏(1993)によれば,70年代以前に一般的に使われていた「青年」という言葉は,80年代に入って「若者」という言葉に置き換えられることが多くなったという。若者論においては若年層の発達段階という問題はもはや問題とはされず,代わって,彼らの「生態」にその注目が集まるのである。

80年代半ばの若者論―新人類言説

こうした差異性を強調する若者論は,わかりやすく明快であり,また,大衆の好奇心と恐怖心を刺激するものでもあった。若者論が通俗化するのは必然であったと言える。その結果が80年代に爆発的に流行する「新人類論」である。

2000年代以降,膨大な若者論が日々生み出されては死滅していく様は別稿で述べることになるが,その萌芽は新人類論にある(もっと遡れば大正青年論にある)。ゆとり言説以前において新人類ほど「研究」されつくした世代はいない。

一方で(或いはだからこそ),新人類という言葉に明確な定義を与えるのは難しい。一般に1960年以降に生まれたのが「新人類」とされていたが,そこに何らかの根拠があったわけでもない。「新人類」という言葉は80年代に自然発生的に誕生し,86年に流行語大賞を受賞することで一つのピークに達した流行語であり,そこには実に雑多な意味内容が含まれていた。

そこでここでは,若者に対する社会の認識が最も端的に表れるであろう「新入社員」へのまなざしから,「新人類」が当時どのように認識されていたのかを確認しよう。以下の表は論文,図書・雑誌データベースである『CiNii』を利用して,80年代に出版された「新入社員としての新人類」について記述されたと思われる論文,雑誌のうち,一部のタイトルを出版順に並べたものである。

どこか見慣れたタイトルである。実際に,「新人類の価値観」言説には以降の若者論とほぼ同様の主張が見られる。「社会よりも個人」「競争よりも協調」「仕事よりもゆとり」「強制よりも自由」を重んじているとされたのが新人類だったのである。

或いはまた,「困難な課題を与えられると,すぐにくじけて逃げ出す」(今井 1988),「それ以前に生まれた者より圧倒的に骨が弱く,特に顎の強度が弱いという共通点」(小林 1988)など,新人類の精神的・身体的「弱さ」「情けなさ」を強調する言説が多い。

こうした「情けな系言説」に対する考察もまたいつかどこかで書くとして,ここでは新人類言説の顕著な特徴であり,また,以後の若者論にも引き継がれることになった「企業と若者論の結びつき」に焦点を当ててみよう。

非常識な,理解できない新入社員といった言説はもちろん新人類言説以前にも見られたが,新人類言説におけるそれは,以前のものとは質・量ともに圧倒している。多くの企業で「新人類をどう扱うか」が主要な問題となり,その解決策が模索されたのである。

たとえば,小谷敏は「カプセル人間」の主唱者であり,新人類を「エイリアン」とも呼んだ中野収に,「新人類言説」が流行した原因を聞いている。それによれば次のような答えだったという。

中野収は,80年代に「新人類論」が流行した背景を,かつて次のように筆者に語ってくれた。
「80年に入ると,明らかに若者は変質していった。それを最も敏感に感じたのが,企業の人たちだった。何の挨拶もなく,唐突に会社を辞めていく。そんな若者の出現に戸惑った企業人のなかから若者論への需要が生まれ,それが新人類論のブームにつながっていった」(小谷 1997 p.28)

先にも述べたが「新人類」という言葉自体は自然発生的に生まれ,ブームとなったものである。モラトリアム人間やカプセル人間のように社会学者や心理学者の主張によって定義が与えられていたわけではなかった。

新人類言説の場合,企業がその火付け役(と「実感」する場所)となり,それをマスメディアやジャーナリズムが煽り,ボードリヤールバタイユ,或いはマクルーハンなどの舶来の理論が後付けでそのお墨付きを与えたのである。

企業と若者論の結びつきは若者論を実体化させるのに一役買うことになった。それは「対策」が「問題」を実体化させるという意味においてである。80年代半ばには多くの企業で新人類の「問題」が認識されると同時に,その「対策」も盛んに議論された。

曰く「厳しく躾けて甘えた根性を叩き直してやれ」,曰く「今の若者は怒られると萎縮するから優しくしてやれ」といった具合である。そこでは「新人類問題」の真偽が疑われることはなく,問題を所与としてその対応に迫られていた。

しかし,これらの解決案が真に問題の解決を目指していたのかは疑わしい。この時期に見られる「新人類の取り扱い方」言説に見られる特徴の一つは「若者の不在」である。新人類と上手く付き合うにはどうすれば良いのかが盛んに議論されながら,当の新人類はその議論から疎外されていた。まるで恋愛セミナーである。

或いはまた,こうしたセミナーは「ネタ」として消費されていた可能性もある。セミナーの「先生」や他の受講者との間で,いかに我が社の新人類がおかしな生き物であるのか,その対応にいかに苦慮しているのか,そうした体験談に花が咲いている光景は想像に難くない。微笑ましい交流だ。

こうして実体化された「新人類」という存在は,必然的に若者論者の低年齢化をも引き起こした。新人類言説において何よりも強調されていたのは,そのネーミングからもわかる通り「差異性」である。「新人類」と「旧人類」は一切の連続性を持たない,完全に異質な存在と認識されていたのである。

そこに「1960年以降に生まれた若者」というわかりやすい了解事項が加わった結果,わずかな年齢差しかない人間でも新人類言説を主張することが可能となり,またそう主張することこそが「旧人類」であることの「証明」となった。

たとえば,NHK世論調査部が1985年に行った『日本の若者―その意識と行動』という調査の報告書では次のような描写がある。

「近ごろ入社の若いもんは……」と,みれば三十歳前の入社七,八年の若者がいう。ものの考え方が,すでに違っている,という。そうなると,今の中・高校生とは,もっと違いが大きいことだろう。そこで企業の人事・労務担当者を集めて,「新人類をどう活用するか」というテーマのセミナーが行われている時代である(NHK世論調査部編 1986 p.80)。

1980年代は新人類言説百花繚乱の時代であった。老いも若きも,猫も杓子も,「新人類」に期待し,失望し,恐怖し,軽蔑した時代だったのである。この時に生み出された若者論の類型は今日においてもその命脈を保っている。

しかし,大抵の若者論には賞味期限というものがある。問題のある若者もいつかは大人になる。新人類言説が真実であろうとなかろうと,新人類は既に日本社会の中核を担う「スタンダード」となった。かつては異星人と揶揄された彼らも,年月が過ぎた今では地球人の一員と認められたのである。

90年代の若者論―劣化言説

それでは新人類亡き後,90年代以降の若者論では誰が主役となったのだろうか。小谷は新人類言説も落ち着いてきた90年代前半において,以降の若者論の展望を次のように示している。

今後の若者論はどういう方向に進むのだろうか。(中略)九〇年代においては,若者論が大きなブームを起こすことは,もうないのではないか。若者に関心の向かう社会は,若く活力に富み,成長の可能性をもった社会である。しかし,一.五〇という合計特殊出生率が示すように,今後の日本社会は,好むと好まざるとによらず,停滞と成熟に向かわざるをえないだろう。だから若者が切り開くフロンティアに期待をかけ,彼らに熱いまなざしを注ぐ時代では,もはやないと思うのだ(小谷編 1993 p.141)。

現在の目から見れば小谷の展望は半分は正解であり,半分は不正解だったと言えるかもしれない。新人類言説は小谷がいうように「大人たちの,若者への畏怖と侮蔑と羨望の念をあらわす」(同上 p.84)ものであった。

新人類の特徴と信じられていた,従来の伝統に縛られない価値観,高度化する情報メディアへの対応力,消費社会に適応する洗練された感性,これらのものは新人類の否定的側面であると同時に肯定的側面でもあり得たのである。それは若者に対する羨望でもあったし,また未来の社会に対する期待でもあった。

しかし90年代以降,こうした若者の肯定的側面が語られることは少なくなっていく。この点は小谷の予測が当たった。90年代以降,もはや若者に「熱いまなざし」が注がれることはなくなったのである。少子高齢化が喫緊の,かつ解決困難な社会問題とされ,「日本の停滞」が自明のものと認識されている現在,日本社会がかつての繁栄を取り戻すことはもはや不可能だと考えている人間も少なくない。現在では若者の活力に期待する者も,若者を羨ましがる者もいない。若者に対する「畏怖」も「羨望」もなくなったのである。

かくして「侮蔑」だけが残った。90年代以降の若者論を支配するのは「若者劣化言説」である。90年代における若者劣化言説の成立とその背景については,後藤和智の『「あいつらは自分たちとは違う」病』(日本図書センター 2013)や,同書でも引用されている,立教大学の是永論のグループが行った『日本社会「劣化」の言説分析―言説の布置・展開およびその特徴と背景に関する研究』を参照してほしい。(丸投げ)

2000-2010年代の若者論

2000年代半ばから2010年代に猖獗を極めたゆとり言説については当ブログで屡述の限りを尽くしているのでここでは割愛する。

2020年代の若者論

「進行中の事象を歴史として記述することはできない」みたいなことを偉い学者先生が言っていた気がするので,ここでは2020年代に入り2年ほど経過した現在の,私個人のしょうもない雑感でも書いておこう。糞の役にも立たないと思う。

まず確実に若者にとって良かったと思えるのは,彼らに「Z世代」という名前が付けられたことである。この用語は日本独自のものではなく,アメリカにおける主流の世代論である"Boomers", "GenerationX", "GenerationY(=Millennials)"に続く世代として定義された"GenerationZ(=Zoomers)"をそのまま借用しているだけである*1

そのため,大方の日本人はZ世代という言葉から何かを想起することはないし,むしろ言葉それ自体は何やらカッコよくて先進的な響きすら伴っている。これが「さとり世代」なら否応にも「ゆとり世代」を想起させるし,「デジタルネイティブ」もこの四半世紀に大量生産された(そしてされ続けている)「デジタル」に関するネガティブな言説を想起させてしまう。

その点,「Z世代」はこれまでに考案されたどの若者ラベルよりも価値中立的な用語である。とは言っても,懸念が無いわけでは無い。言葉自体から意味を引き出すことはできなくとも,意味を付与することは如何様にもできるからだ。というか,基本的に世代論とは(或いはあらゆる言論は)その名前に意味を付与する行為である。

たとえば,日本の某掲示板に影響されたアメリカの某掲示板では,"Zoomer"という言葉がかつての2ちゃんにおける「ゆとり」と殆ど同じ意味あいで使われている。2ちゃんでは韓国人や女性に対する蔑称と「ゆとり」が蔑称三種の神器であったのと同様,某掲示板では黒人と女性に対する蔑称と「zoomer」が三位一体の蔑称となっている。

とはいえ,私も小谷が90年代に予想したように,これからは若者論が大ブームを起こすことは無いのではないかと思っている(流石にゆとり言説の大流行までは小谷も予想できなかったろう)。その理由は小谷と同じ部分もあれば,違う部分もある。それをこれから説明しよう。

若者論の本懐とは

"エジプトの壁画には若者を嘆く古代のエジプト人が描かれている"という小噺が嘘か真かは知らないが,少なくとも本邦においては今と変わらない若者論を一世紀以上前から見出すことができる*2ある程度持続的な社会共同体において,若者論は必須の要素だったのではないか。

だとすれば,その意義は(60・70年代の青年論が目指したように)恐らく若者を「われわれ」の社会へ馴致させること,もう少し妄想をたくましくすれば,「われわれ」がそうだと信じ込んでいる妄想の理想社会に,若者を導くことだったのではないか。

日本語がややこしくなったので直截に書こう。基本的に「われわれ」は「勤勉で節度を保ち,他者への共感と感謝は常に忘れない,優秀で道徳的なわれわれ」を多かれ少なかれ,心の内に飼っている。若者論とはその理想を実現させる方途の一つなのではないか。

学業時間,犯罪件数,交通事故,飲酒トラブル,喫煙マナー,性的モラルの低下,大量消費,ブランド信仰等々(他にも多分あるが思い出すのが面倒くさい),一度は「若者問題」として立件されたこれら各種の問題について,統計が示しているのは現在においてそれらの問題が劇的に改善しているという事実である。

以前,若者論には「矯正的若者論」「娯楽的若者論」の二つがあると書いたことがある。この言葉が何を意味するかは字面から分かると思うので説明は割愛するが,恐らく若者論の本義は前者の矯正的若者論だろう(娯楽的若者論はそのおまけみたいなものである)。私が言いたいのはその「矯正するべき若者」が最早いなくなってしまったのではないか,ということだ。

もちろん,これは単なる誇張表現であってゼロになるはずはないが*3,今の若者がかつての若者問題の多くを克服しているのは確かである。つまり,今の若者は理想(妄想)としての「日本人らしい日本人」に史上最も近づいた世代ではないのか。その意味において,現代の日本ほど若者論の本懐が遂げられた社会はないのかもしれない。

引用・参考文献

[1] 浅岡隆裕 (2012) 「メディア表象の文化社会外―<昭和>イメージの生成と定着の研究」, ハーバスト社
[2] 井上俊 (1961) 「青年の文化と社会意識」『社会学評論』, 22巻2号 pp.31-47
[3] 岩佐淳一 (1993) 「社会学的青年論の視角―一九七〇年代前半期における青年論の射程」, 『若者論を読む』, 世界思想社
[4] 乾彰夫 (2005) 「青年期ルネッサンス?: 若者・青年研究をめぐる今日の問題点と課題」, 『日本教育学会大会研究発表要項』64回, pp.250-251
[5] 今井靖親 (1988) 「『新人類』考」『保健センターだより』11号, 奈良教育大学保健管理センター, pp.2-3
[6] 小此木啓吾 (1978) 「モラトリアム人間の時代」, 中公叢書
[7] 片瀬一男 (1993) 「発達理論のなかの青年像―エリクソンとコールバーグの理論を中心に」, 『若者論を読む』, 世界思想社
[8] 小谷敏編 (1993) 「若者論を読む」, 世界思想社
[9] 小谷敏 (1997) 「若者文化のハルマゲドン: あるいは,『新人類』たちの運命について」, 『季刊社会学部論集』, 16巻1号 pp.1-44
[10] 後藤和智 (2013) 「『あいつらは自分たちとは違う』という病―不毛な世代論からの脱却」, 日本図書センター
[11] 小林恭二 (1988) 「新人類の職業意識(先端産業と産業保健, 第61 回日本産業衛生学会・第44回日本産業医協議会)」, 『産業医学』, 30巻7号 p.579
[12] 坂口里佳 (1994) 「現代青年論再考: 多元的生活世界における青年社会学に向けて」, 『本教育社会学会大会発表要旨集録』, 46回 pp.30-31
[13] 中野収 (1984) 「高度情情社会と文化変容」, 『社会学評論』, 35巻3号, pp.308-318
[14] 平野秀秋中野収 (1975) 「コピー体験の文化―孤独な群衆の後裔」, 時事通信社
[15] 二関隆美 (1973) 「現代社会状況への青年の反応パターン」, 『日本教社会学会大会発表要旨集録』25回, pp.61-62
[16] 二関隆美 (1975) 「青年文化の問題: 青年社会学のための序説」, 『大阪大学人間科学部紀要』第1巻, pp.187-249
[17] 本田由紀内藤朝雄後藤和智 (2006) 「『ニート』っていうな!」, 光文社新書
[18] NHK 世論調査部編 (1986) 「日本の若者―その意識と行動」, 日本放送出版協会

*1:ちなみに,Millennialsに続く世代概念としては他に"i-Gen", "Post-Millennials"などが考案されていたが,最終的にはGenerationZが圧倒的勝利を収めた。

*2:一例を挙げる。「然るに近年西洋の教育風俗の我邦に入来たりしより,誰言ふなく,少年を抑制する時は其活動の気力を失ふを以て,厳格なる規則を以て之を制せざるを善しとすと云へる議論起り,此説いつとなく世間に行はれ,是より父兄師長も子弟を検束すること従前の如くならず,子弟の父兄師長に仕ふることも大に其恭敬を欠き,従って我儘驕恣の風を長じたることは,以前に比すれば著しき相違あり,偖,此の如くして成長したる子弟の状態如何なるかと察するに,其父兄の望みたる所とは全く反対の結果を来し,活発有為の気力は少しも発せず,唯我儘勝手のみ増長し,学問は勉強せず,父兄師長の言は聴かず,他人に対しては傲慢となり,成るたけ我身を逸楽せんことを欲し,或いは美食美服を好み,或は悪友を求めて之と交はり,遂に学業は成就せず,遊蕩を以て財産を浪費し,其極は社会に軽蔑排斥せられて止むに至る」 学習院生徒進業式の演説(明治二十年七月) 『泊翁叢書. 第2輯』 p.172

*3:たとえば,戦後最低を記録した2011年の少年犯罪検挙人員は77,696件だが,これが2020年では更に17,466件まで減少している。恐ろしいほどの減少率だが,それでも1日50人の少年が検挙されているわけである。 年間の犯罪|警察庁Webサイト

ゆとり教育とは何だったのか―俗説に対する批判的検討 5.教育測定とはなにか・補遺

標準偏差

標準偏差というのは,得点分布の「バラつき」のことである。たとえば100人が受験した平均50点のテストがある場合,全員が50点であることはまずないだろう。ある人は40点かもしれないし,ある人は60点かもしれない。こうしたデータのバラつきは,あらゆる統計的推測の基礎となるものであり,以降の説明でも繰り返し出てくることになるので,ここでは標準偏差の定義をしっかりと確認しておこう。

平均点が50点である同じテストでも,その得点の分布は図1のように異なったバラつきを持っている。テスト1 では35~65点の範囲にほぼ全ての得点が含まれるのに対し,テスト2では20~80,テスト3では0~100の範囲までにすべての得点が含まれている。こうした得点のバラつきを数値化するためにはどうすればいいだろうか。

おそらく図1を見た人は,明らかにテスト1よりもテスト2が,テスト2よりもテスト3の方がバラつきが大きくなっていると直感的に判断するのではないだろうか。その判断の基準は,おそらく,平均値を軸とした分布の広がりであるはずだ。この平均からの差こそがバラつきの指標になるのである。

たとえば,平均が50点のテストに対する30点という得点は,平均値から20点のバラつきを持っているし,逆に70点の場合でも,平均値からは20点のバラつきを持っている。こうした個々の得点と平均値との差を「偏差」と呼ぶ。この偏差を使ってあるテストにおける得点分布のバラつきを表現したい。

しかし,ここで受験者の偏差を足し合わせていっただけでは,バラつきの指標にはならない。バラつきという概念に正負は関係ないからだ。30点も70点も平均値から20点バラついているというのは変わらない。しかし,個々の得点から平均を引くにせよ,或いはその逆にせよ,偏差を同じ式で計算すると,正の値と負の値で打消しあってしまう。そして平均の定義上,偏差の総計は必ず0 だ。

そこで,正負の符号を揃えるために,個々の偏差を2乗したものを足し合わせよう。たとえば,100人のテスト得点をそれぞれx_1, x_2, ......, x_{100},その平均得点を\muとした場合,偏差を2乗したものの総和は,\sum_{i=1}^{100}(x_{i}-\mu)^2と表現される。これは偏差平方和と呼ばれる。

しかし,偏差平方和だけではバラつきの指標にはならない。単純に受験者の数を増やすだけでその値が大きくなってしまうからだ。そこで偏差平方和の平均をとったもの
 \begin{equation}
\sigma^2=\cfrac{1}{n} \sum_{i=1}^n (x_{i}-\mu)^2
\end{equation}\tag{1}
これが,分散と呼ばれるバラつきの指標になる。ただしnは受験者数である*1。しかし,分散は偏差の2乗を使っていたため,その単位も2乗になっている。また値も大きくなっているために,そのままでは直感的にデータのバラつきを把握しにくい。そこで,分散の平方根をとったもの
\begin{equation}
\sigma=\sqrt{\cfrac{1}{n} \sum_{i=1}^n (x_{i}-\mu)^2}
\end{equation}\tag{2}
これが標準偏差(Standard Deviation)と呼ばれるものであり,あるデータセットのバラつきをあらわす指標となる。正規分布の場合,\mu \pm 1SDの範囲に約68%のデータが,\mu \pm 2SDの範囲に約95%のデータが入る。また,\mu \pm 3SDの範囲にはほぼ全てのデータが入ることがわかっている。

たとえば,図1のテスト2は平均50点,標準偏差10点の分布になっている。したがって,40~60点(±1SD)の範囲に全受験者の約68%が,30~70点(±2SD)の範囲に全受験者の95%が含まれ,20~80点(±3SD)の範囲にはほぼ全ての受験者が含まれている。

尺度の変換

次にデータの標準化を説明しよう。標準化とは,あるデータセットの尺度(スケール)を平均が0,標準偏差が1 となるように変換,調整する作業のことである*2。標準化を行うことで,それぞれのデータセットはお互いに比較することが可能なものとなる。

たとえば,図1のテスト1,2,3のそれぞれの標準偏差は,5点,10点,17点となっている。もし,今いずれかのテストで60点をとったとしても,テストの標準偏差が分からない限り10点という点差は単に平均点より上だったとしか解釈できない。また,テスト1ならば標準偏差を上回る成績だが,テスト3ならば標準偏差に満たない成績でしかない。そこで,個別のテストの尺度を共通の尺度で表現する必要性が出てくる。

それを説明する前に,正規分布の性質について,ここで一つ補足しておこう。
\begin{equation}
f(x)=\cfrac{1}{\sqrt{2\pi}\sigma}exp \{ \cfrac{-(x-\mu)^2}{2\sigma^2} \}
\end{equation}\tag{3}

これは正規分布確率密度関数である。確率密度という言葉が分かり辛ければ単に正規分布の関数だと思ってもかまわない。なおexp\{ x\}というのはネイピア数eのx乗という意味である。少し複雑な式に見えるかもしれないが,この式に使われている記号を確認してほしい。使われているのは,\pi\sigmaexp\muxの五つである。

このうちxは変数,また,円周率\piネイピア数eはそれぞれ値が決まっている定数である。そうすると,正規分布の関数形は平均\mu標準偏差\sigma(分散\sigma^2)の二つによって決定されることがわかる。つまり,平均と標準偏差の二つさえわかってしまえば,ある1つの正規分布に特定できるということだ。


ここでデータの標準化に話を戻そう。データを標準化する,つまり複数のデータセットを同一の尺度上で表現するというのは,それぞれのデータセットの平均と標準偏差を揃えることを意味している。中でも平均が0,標準偏差が1の正規分布は標準正規分布と呼ばれ,この尺度上でデータを表現することを標準化と呼ぶのである。

まずは,式から示そう。平均が\bar{x}標準偏差\sigma_{x}正規分布に従うデータセットX=[x_{1},x_{2},...x_{n}]があるとき,
\begin{equation}
z_{i}=\cfrac{x_{i}-\bar{x}}{\sigma_{x}}
\end{equation}\tag{4}

これが標準化変量と呼ばれるものになる。ただしi=1,2,…,nである。この作業によってデータセットXは標準正規分布上のデータとして扱うことができるようになった。このことは,平均と標準偏差の算出の仕方を思い出せば理解できるはずだ。

たとえば,データセットXの個々のデータx_{1},x_{2},…,x_{n}それぞれに一定の数\betaを加えるとどうなるだろうか。このとき,平均は\bar{x}\bar{x}+\betaとなり正規分布のグラフは\betaの分だけ平行移動する。偏差はx_{i}+\beta-(\bar{x}+\beta)となり変化はないので分散,標準偏差の値は変わらない。なおカッコ内はその正規分布の平均点と分散である。

それではデータセットXに一定の数\alphaをかけた場合はどうなるだろうか。このとき,平均\bar{x}\alpha \bar{x}となり正規分布のグラフは(\alpha-1)だけ平行移動したあと1/\alpha倍に「押しつぶされる」形となる。偏差は(\alpha x_{i}- \alpha \bar{x})^2=\alpha^2(x_{i}-\bar{x})^2となり\alpha^2倍されるので分散は\alpha^2倍,標準偏差\alpha倍となる。


\alpha倍したときには平均と標準偏差が同時に変化するため少しややこしく思えるかもしれないが難しく考える必要はない。要は「平均の変化はグラフの平行移動」,「標準偏差(分散)の変化はグラフの形状変化」と覚えておけばいい。

ここで(4)式に戻ろう。あるデータセットXからその平均点を引くというのは平均を0にする作業だ。この時点でXは平均0,標準偏差\sigma_{x}正規分布に従っている。後はこのXに1/\sigma_{x}を掛けてやれば,平均は0のまま,分散は(1/\sigma)^2 \sigma^2=1標準偏差も1となる。

つまり,あるデータセットに対し平均を引いた後に標準偏差で割るという作業は,平均を0に,標準偏差(分散)を1のデータセットに変換する作業なのである。

もちろん尺度の変換は任意の尺度について可能である。たとえばあるテストの得点を平均が50,標準偏差10の尺度に変換したい場合,その得点を一旦標準化した後に10をかけて50を足してやればいい。つまり(x-\bar{x})/\sigma*10+50となる。これがいわゆる偏差値と呼ばれるものだ。

また,尺度の変換は必ずしも一旦標準化する必要はない。尺度の変換とは要するにグラフの形を整えて位置を調整してやる作業である。たとえば二つのテストA,Bがそれぞれ平均\mu_{A},\mu_{B}標準偏差\sigma_{A},\sigma_{B}正規分布に従っているとしよう。

このときテストBの得点をテストAの尺度上で表現したいならば,テストBの得点をx_{B}として
\begin{equation}
\cfrac{\sigma_{A}}{\sigma_{B}}x_{B}+(\mu_{A}-\cfrac{\sigma_{A}}{\sigma_{B}}\mu_{B})
\end{equation}\tag{5}
としてやればいい。やっていることは今までと何も変わらない。まず標準偏差の比を掛けることでテストAとテストBの形を同じにしてやる(第1項)。

後は平均点の差の分だけ平行移動してやれば二つのグラフは重なり合うことになるが,テストBの得点には標準偏差の比が掛けられているのでテストBの平均点は\mu_{B}から\cfrac{\sigma_{A}}{\sigma_{B}}\mu_{B}に変化している。したがってテストAとテストBの平均点の差は\mu_{A}-\cfrac{\sigma_{A}}{\sigma_{B}}\mu_{B}(第2項)である。これを足してやれば二つのグラフは一致する。後述する「テストの等化」ではこの式に変形していた方がわかりやすい。

項目反応理論

項目反応理論(Item Response Theory=IRT)の概要は5章に示したが、概要だけで理解するというのは難しい。また以降の説明のためにも,もう少し詳細に説明をしておきたい。そこで,ここではIRTにおける確率モデルの導出,母数の推定,テストの等化という一連の作業を具体的に説明しておこう。

IRTでは受験者の潜在特性を推定すると述べたが,「学力」という目に見えない概念を何の仮定も置かずに推定することはできない。まずは「学力」」の分布を考えてみよう。経験的に考えれば学力というものは正規分布している可能性が高い。平均的な学力を有している人間が最も多く,そこから離れるに従って人数も減少していく。

そしてまた,ある母集団の学力分布が正規分布しているならば,その標本も正規分布に近似するはずだ。それでは,受験者集団の学力分布が正規分布していると仮定した場合,項目特性曲線(Item Characteristic Curve=ICC)はどのように描けるだろうか。

5章で示したICCの縦軸は正答確率となっていた。しかしこの正答確率という概念はいまいち把握しにくい。たとえば,受験者の潜在特性が正規分布していると仮定して,ある問題を与えた場合,一定の能力値以上の人間はほとんど解けるだろうし,一定の能力値以下の人間はほとんど解けないように思える。

しかし,測定というものに誤差はつきものである。実は,受験者の能力とその測定誤差が正規分布しているとき,ある受験者集団のある問題に対する正答割合,すなわち正答確率のモデルは正規分布の累積分布関数になることが導ける。積分布関数とは簡単に言えば,正規分布の度数を累積的に積み上げていく関数である*3

そこで,IRTでは累積分布関数をICCとして利用する。先述したように尺度は任意に定めることができるので,ここでは平均0,標準偏差1の標準正規分布の累積分布関数を利用する。つまり,標準正規分布の密度関数を
\begin{equation}
\phi(z)=\cfrac{1}{\sqrt{2\pi}}exp(\cfrac{-1}{2}z^2)
\end{equation}\tag{6}
としたとき,その累積分布関数は実数\thetaを用いて
\begin{equation}
\Phi(\theta)=\int_{-\infty}^{\theta} \phi(z) dz
\end{equation}\tag{7}
と書ける。これは図6のような曲線になる。仮にテスト項目に対する正答確率が受験者の潜在特性\thetaだけで決定されるならば,この曲線がICCということになる。

もちろん,テストは受験者の能力だけで決定されるわけではない。どのIRTモデルを採用にするにしろ,少なくとも項目の困難度が表現されていなければならない。そこで\thetaの関数として,定数a,困難度b_{j}を用いて
\begin{equation}
f(\theta)=a(\theta-b_{j})
\end{equation}\tag{8}
とする。ただしb_{j}は項目jの項目困難度である。このf(\theta)を(7)式の\thetaの部分に配すると,
\begin{equation}
\Phi(f(\theta))=\int_{-\infty}^{f(\theta)} \phi(z) dz
\end{equation}\tag{9}
となり,これは正規累積モデルと呼ばれる。式からわかるように,項目が難しければ曲線は右に移動するし,易しければ左に移動する。ここで重要なのは,ある問題に対する正答確率が,(\theta-b_{j})という「受験者の潜在特性と項目困難度の差」によってのみ表現されているということだ。

たとえば\theta=0,b_{j}=1のときも,\theta=1,b_{j}=2のときもその正答確率は変わらない。また,受験者の潜在特性と困難度が一致するとき,その正答確率は必ず0になる。ここから困難度は「それを五分五分の確率で解ける受験者の能力」と定義することができる。困難度が1であるというのは,潜在特性が1の受験者が五分五分の確率で解けるような難しさであるということだ。そのため潜在特性と困難度の単位は一致し,直感的な解釈が可能となる。

また(8)式のaは曲線の傾きを決定するパラメータであり,識別力と呼ばれる。今は全てのICCに共通の定数aとしているが,これを項目jの識別力a_{j}とすれば,項目ごとの傾きを表現することができる。たとえば,図7は困難度が同じである二つの項目のICCである。

どちらの項目も潜在特性が0となっているところで,その正答確率が0.5となっている。したがってどちらの項目も困難度は0である。しかしその傾きは異なっている。\thetaが0より小さくなっているところではa=1.0の項目よりもa=2.0の項目の方が正答確率が低く難しい問題となっている。一方で,\thetaが0より大きいところではa=2.0の項目よりもa=1.0の項目の方が正答確率が低く難しい問題となっている。

このことは,たとえ話を使うと理解しやすい。例えば,サッカーのリフティングとPKの成功率を考えてみよう。リフティングを20回連続で成功させるという課題は,熟練者にとっては容易なものだが,初心者にとっては極めて難しい課題となる。一方,PKの場合はプロでも外すことがあるのに対し,初心者でもそれなりの確率で成功させることができる。こうした課題による性質をIRTでは項目識別力をつかって表現することができる。

ここで項目の困難度と識別力という二つのパラメータがあることを説明したが,IRTではもう一つ「当て推量」というパラメータも存在する。どんなテストであっても,受験者の能力が正確に解答に反映されることは稀である。解けるはずの問題が解けないこともあれば,逆に解けない問題にたまたま正解してしまうことがある。当て推量はこの「偶然の正解」を表現した項目母数である。

特に,多肢選択式の問題の場合,受験者の実力に関係なく偶然に正解してしまう可能性が多分にある。この場合,当て推量の目安は選択肢の数の逆数となる。四択問題ならば,大体1/4の確率で正解してしまうというわけである。ただし,選択肢の数の逆数というのはあくまで目安である。実際には,明らかに排除できる選択肢や,逆に受験者をよく「迷わす」ことのできる選択肢が含まれている場合,当て推量母数の値は変化する。

IRTのモデルでは基本的にこの三つの項目母数が使われるが,常に全ての項目母数が利用されるわけではない。使われる項目母数の数によってモデルの名前も変わる。項目困難度だけを利用するモデルを1母数モデル,困難度と識別力を使うモデルが2母数モデル,3つの項目母数全てを使うモデルを3母数モデルと呼ぶ。1母数モデルでは当て推量が0,識別力は定数として扱う(通常は1)。二母数モデルでは当て推量を0として扱う。PISAで使われているのは1母数モデル,TIMSSで使われているのは2母数モデル(問題によって3母数モデル)である。

しかし,PISAやTIMSSで使われているのは(9)式のような正規累積モデルではない。正規累積モデルはその中に積分を含んでいるため計算が煩雑になってしまう。そこでロジスティック分布の分布関数を利用した近似式
\begin{equation}
\int_{-\infty}^{f(\theta)} \phi(z) dz \simeq \cfrac{1}{1+exp(-D×f(\theta))}
\end{equation}\tag{10}
が用いられることが多い。ただしD=1.7であり,当て推量パラメータは使っていない。これをロジスティックモデルという。PISAで使われているのは1母数ロジスティックモデル(正確にはラッシュモデル),TIMSSで使われているのは2母数,或いは3母数ロジスティックモデルである。以下の説明ではこちらのロジスティックモデルを使う。また簡単のため特に,1母数ロジスティックモデル(1 parameter logistic model=1PLモデル)について説明する。

まずは,(10)式をもう少し整えておこう。正答を1,誤答を0とする確率変数をXを用いると,潜在特性\thetaの受験者が困難度bの問題に正答する確率は
\begin{equation}
P(X=1|\theta,b)=\cfrac{1}{1+exp(-Da(\theta-b))}
\end{equation}\tag{11}
と表現できる。これが二値問題の正答確率を表現する1PLモデルだ。ただし,aは全項目に共通の定数である*4\thetabの値がわかっていれば,この関数に当てはめることで正答確率を得ることができる。

しかし,問題はその\thetabの値をどのように得るかである。それが事前にわかっていればそもそもテストをする必要はない。今,手元にあるのは受験者の潜在特性でもなく,項目の困難度でもない。受験者のテストに対する反応(結果)だけである。ここから,どのようにして\thetabの値を推定すればいいのだろうか。

最尤推定

まずはそのための準備である。今,任意の受験者iの潜在特性を\theta_{i},任意の項目jの困難度b_{j}と表現するとき,受験者iが項目jに正答する確率を
\begin{equation}
f(x_{ij}=1|\theta_i,b_j)=p_j(\theta_i)
\end{equation}\tag{12}
と表現する。ただしx_{ij}は受験者iの項目jに対する反応であり,正答のとき1を,誤答のとき0をとる確率変数である。また誤答する確率を
\begin{equation}
f(x_{ij}=0|\theta_i,b_j)=1-p_j(\theta_i)=q_j(\theta_i)
\end{equation}\tag{13}
と表現する。(12)と(13)をまとめると,受験者iがある問題jに正答する確率は
\begin{equation}
f(x_{ij}|\theta_i,b_j)=p_j(\theta_i)^{x_{ij}}q_j(\theta_i)^{1-x_{ij}}
\end{equation}\tag{14}
と表現できる。正答と誤答はそれぞれ1と0の二値をとるので,正答の場合はq_{j}(\theta_{i})^0が1となり,誤答の場合はp_{j}(\theta_{i})^0が1となり,式から消えるからだ。

これで受験者iが項目jに正答する確率を表現できた。しかし,これは個々の問題に対する正答確率なので,次は複数のテスト項目に対する同時確率を知りたい。同時確率とは異なる事象が同時に成立する確率のことである。

たとえば,x_{1}=[11000]という反応パタンが観測されたとき,それぞれのテスト項目の反応が観測される確率は,x_{11}=p_{1}(\theta_{1})x_{12}=p_{2}(\theta_{1})x_{13}=q_{3}(\theta_{1})...となるが,今知りたいのは[11000]というパタン全体が観測される確率である。

受験者in個のテスト項目が与えられるとき,その反応ベクトル,困難度ベクトルをそれぞれ
 \begin{eqnarray} 
                       x_i &=& [x_{i1} \ x_{i2} \ ... \ x_{in}]\tag{15} \\
                                 b  &=& [b_1 \ b_2 \ ... \ b_n] \tag{16}
      \end{eqnarray}
とする。ここで受験者in個の項目に対する反応が独立であるならば*5,反応ベクトルx_{i}が観察される確率は
\begin{equation}
f(x_i|\theta_i,b)=\prod_{j=1}^n p_j(\theta_i)^{x_{ij}}q_j(\theta_i)^{1-x_{ij}}
\end{equation}\tag{17}
と表現できる。複雑な式に見えるかもしれないが,やっていることは単純である。\prodは,右側の式をj=1からnまで変化させたものを掛け合わせるという意味だ。つまり,それぞれのテスト項目に対する正答・誤答の確率を掛け合わせたものになる。

さらに,この式をN人の受験者全体の反応行列が観測される確率に拡張しよう。受験者全体の反応行列Xが観察される確率は
\begin{equation}
\theta=[\theta_1\ \theta_2\ ...\ \theta_N]
\end{equation}\tag{18}
\begin{equation}
X = \left[
\begin{array}{cccc}
x_{11} & x_{12} & \ldots & x_{1n} \\
x_{21} & x_{22} & \ldots & x_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
x_{N1} & x_{N2} & \ldots & x_{Nn}
\end{array}
\right] \\\tag{19}
\end{equation}
として,
\begin{equation}
f(X|\theta,b)=\prod_{i=1}^N f(x_i|\theta_i,b)=\prod_{i=1}^N\prod_{j=1}^n f(x_{ij}|\theta_i,b_j)\tag{20}
\end{equation}
と表現できる。こちらもやっていることは(17)式と変わらない。(17)式で得られた受験者の反応パタンをN人分掛け合わせているだけである。これが,N人の受験者がn個の項目を解いたときに得られる反応パタンが観察される確率である。

ただし,この式においては\thetabが定数であり,Xが変数となっている。しかし,現実に得られるのは受験者のテスト結果,つまり反応ベクトルXであり,知りたいのは受験者の潜在特性\theta,および困難度bである。
そこで(20)式について,\theta,bを変数,Xを定数とみなした

\begin{equation}
L(X|\theta,b)=f(X|\theta,b)\tag{21}
\end{equation}

尤度関数とよぶ。この式について「最尤推定」と呼ばれる推定を行うことで潜在特性θと困難度bの推定値を得ることができる。最尤推定というのはIRTだけではなく,統計学において一般に用いられる推定法であり,聞きなれない言葉かもしれないが,我々が日常生活において使っている推定法でもある。

たとえば,通常の6面サイコロと12面サイコロの二つが存在するとしよう。今,どちらかのサイコロを振ったとして,その結果が5であることが分かっている。このとき,6面サイコロから5が出る確率は6分の1,12面サイコロから5が出る確率は12分の1となる。

したがって,振られたサイコロがどちらであったのかを考えると,6面サイコロの方だと推定するのが合理的である。つまり,何らかの現象が観測されたとき,その現象を最も生じさせやすい原因を推定するのが最尤推定である。

IRTでは,ある反応パタンが観測されたとき,最も高い確率でその反応パタンを生じさせる\thetabの組み合わせを見つけることが,最尤推定の実際となる。たとえば,ある4問のテストがあるとしよう。その項目困難度が4問全て0で,またそのテストについて[1100]という結果を残した受験者の潜在特性を\thetaとしたとき,尤度関数は図8のようになる。

図の通り,尤度関数は,ある一点をピークとする単峰性の分布となる。これは困難度と尤度の関係でも同じである。この一点を見つけることが最尤推定なのである。ただし,(20)式は積の連なりとなって最大化しにくいため,実際に推定する際には対数変換をした
\begin{equation}
\log L(X|\theta,b)=\sum_{i=1}^N \sum_{j=1}^n [x_{ij}\log p_j(\theta_i)+(1-x_{ij})\log q_j(\theta_i)]\tag{22}
\end{equation}
を最大化することになる。単調増加関数で変換した場合,もとの関数の大小関係は保存される。(20)式を最大化する\thetabは元の関数も最大化するということだ。これを対数尤度関数と呼び,\thetabについて偏微分した結果を0とおいた方程式を解くことで最大化する母数を得ることができる。

このとき,\thetabを同時に推定するため,この推定法は同時最尤推定とよばれる。しかし同時最尤推定法には欠点があり,第一に,計算量が膨大なものとなる。仮に,項目母数が既にわかっている状態で最尤推定を行う場合,1元の連立方程式を受験者の数だけ解けばよい。

しかし,同時最尤推定法ではテスト項目の困難度も未知母数とするため,たとえば,200人の受験者が全部で50問のテストを解くとき,1母数モデルでは,未知母数の数が200-2+50(受験者母数が-2となるのは,基準化の制約による)となり,248元連立方程式を解くことになる。

第二に,通常の統計モデルではデータを増やすほど安定した母数の推定を行うことが可能となるが,IRTの同時最尤推定法では,受験者を追加すると,その分だけ未知数である受験者母数が増えてしまい推定値が安定しない。また同じように,項目を追加すると未知数である項目母数が増えて推定値が安定しないという性質がある(豊田 2002)。この性質は,大規模学力調査の実施を困難にする。

周辺最尤推定

そこで,IRTにおける母数の推定には,主に周辺最尤推定法と呼ばれる手法が用いられる。周辺最尤推定では受験者母数を尤度関数から消すことで,安定した推定値の計算が可能となる。まず,周辺化という考え方を説明しよう。

今,白玉と黒玉がそれぞれ異なる割合で含まれている三つの壺A,B,Cが存在するとしよう。ここから,ランダムに壺を選び,その中から一つの玉を取り出すという試行をする。また,それぞれの壺から黒玉が出てくる条件付き確率は
\begin{eqnarray*}
p(黒|A) & = & 0.4 \\
p(黒|B) & = & 0.5 \\
p(黒|C) & = & 0.6
\end{eqnarray*}
とする。今知りたいのは,壺の種類によらず黒玉が取り出される確率である。仮に壺の選ばれる確率が均等であるなら,黒玉が取り出される確率は,
\begin{equation*}
p(黒)=\cfrac{1}{3}(p(黒|A)+p(黒|B)+p(黒|C))=0.5
\end{equation*}
となる。或いは,壺が選ばれる確率が均等でないとき,たとえばA,B,Cが選ばれる確率が,それぞれ0.2,0.3,0.5となっているときは,
\begin{equation*}
p(黒)=\cfrac{1}{5}p(黒|A)+\cfrac{3}{10}p(黒|B)+\cfrac{1}{2}p(黒|C)=0.53
\end{equation*}
となる。

つまり,それぞれの壺から黒玉が取り出される条件付き確率に,その確率が選ばれる(=壺が選ばれる)確率をかけて,その総和をとったものが壺の種類を無視した「黒玉が取り出される」確率になる。これは,条件付き確率の加重平均をとっているのと同じだ。これを,周辺化による局外母数(興味の対象の外にある母数)の消去という。

ただし,この方法を使う場合,当然ながら局外母数の確率分布が既知でなければならない。IRTの周辺最尤推定では受験者の潜在特性を局外母数として消去したいわけだが,この確率分布として何が利用できるだろうか。

説明の最初の方で述べたように,受験者の学力というのは正規分布に従っている可能性が高い。加えて,学力は潜在特性であるため,平均と標準偏差は任意に定めることができる。そこで,平均を0,標準偏差を1とした標準正規分布を,受験者の潜在特性の確率分布関数として利用する。

そうすると,受験者iの反応ベクトルx_{i}が観測される確率はg(\theta)を標準正規分布確率密度関数として,
\begin{eqnarray}
f(x_i|b)&=&\int_{-\infty}^\infty g(\theta) f(x_i|\theta,b) d\theta \nonumber\\
&=&\int_{-\infty}^\infty g(\theta) \prod_{j=1}^n f(x_{ij}|\theta,b_j) d\theta \nonumber\\
&=&\int_{-\infty}^\infty g(\theta) \prod_{j=1}^n p_j(\theta)^{x_{ij}} q_j(\theta)^{1-x_{ij}}d\theta\tag{23}
\end{eqnarray}
と表現できる。ただしbは項目の困難度ベクトル,b_{j}は項目jの困難度である。受験者の潜在特性\thetaは,興味の外にある積分変数となっているため,添え字はつけていない。

しかし,ここでは説明のため,潜在特性\thetaをごく小さい階級幅をとった離散変数\theta_{k}=[\theta_{1}, \theta_{2},...,\theta_{k},...,\theta_{N}]として考えてみよう。ただし,Nは受験者の数ではなく,単に\thetaの最大値につけた添え字である。範囲は-3 \leqq \theta_{k} \leqq 3とでもしておこう。

この場合,受験者iが項目jに正答する確率は
\begin{eqnarray}
f(x_i|b_j)&=&g(\theta_1)f(x_1|\theta_1,b_j) \nonumber\\
&+&g(\theta_2)f(x_2|\theta_2,b_j) \nonumber\\
&\vdots& \nonumber\\
&+&g(\theta_N)f(x_N|\theta_N,b_j)\tag{24}
\end{eqnarray}
と書くことができる。たとえば,今,あるテスト項目について正解,つまりx_{ij}=1という反応が得られたとしよう。このとき,\theta_{1}から\theta_{N}までの,それぞれの場合について正答する確率を計算する。たとえば,\theta_{30}のとき計算される正当確率は30%になるかもしれないし,\theta_{70}のとき計算される正答確率は50%になるかもしれない。この正答確率は,先ほどの壺のたとえ話でいえば,それぞれの壺において黒玉が取り出される条件付き確率と同じである。

後は,それらの正答確率に,それぞれの潜在特性の割合(確率)をかけて総和をとれば,受験者の存在特性を無視した確率モデルを得ることができる。もちろん,この潜在特性の割合は既知である確率分布g(\theta)(連続変数の場合は確率密度関数)から得られる。ただし,実際には受験者の潜在特性\thetaは-∞から∞までの連続変数であるため,(23)式のような積分表記となるのである。

さらに,N人の受験者の反応行列Xが得られる確率は,個々の確率の積となり,
\begin{eqnarray}
f(X|b)&=&\prod_{i=1}^N f(x_i|b) \nonumber\\
&=&\prod_{i=1}^N \int_{-\infty}^\infty g(\theta) \prod_{j=1}^n p_j(\theta)^{x_{ij}} q_j(\theta)^{1-x_{ij}}d\theta \tag{25}
\end{eqnarray}
となる。この後は,同時最尤推定と同じである。つまり,反応ベクトルXを定数,困難度bを変数としたものを周辺尤度関数と見なす。それに対数変換を施した対数周辺尤度関数を最大化するような困難度母数の値を推定することになる。

ただし,実際の推定では連立方程式を数値的に解いて解を求めることは難しい。そのため,項目母数の推定には挟み撃ち法やニュートン法などを利用した,解析的な推定が行われる(豊田 2002)。

この周辺対数尤度関数を最大化するような項目母数の値を得ることがIRTにおける項目母数の推定である。ただし,この時点で得られた項目母数や潜在特性は,そのままでは他の受験者集団の潜在特性や,他のテストの項目母数と直接比較することはできない。受験者の潜在特性分布として利用した「平均が0,標準偏差が1」という尺度は任意に定めたものである。

そのため,同じテストを複数の集団が受験し,その集団ごとに項目母数を推定しても,得られる値は集団ごとに異なっている。たとえば,より学力の高い集団が受験したテストの項目母数はより低く推定されるし,より学力の低い集団が受験したテストの項目母数はより高く推定されることになる。

このことは,他の推定方法についても同じである。繰り返しになるが,受験者の学力やテスト項目の難しさは構成概念である。それを数値化するには,何らかの尺度を与える必要がある。しかし,この尺度を一意に決定することはできない。その数字自体に絶対的な意味は存在しないからである。
そこで,二つのテスト結果を比較可能にするために,「等化」という作業が必要になる。等化には共通の受験者を使う共通受験者デザインと,テスト間に共通項目を設ける共通項目デザインが存在する。どちらのデザインも理屈は同じなので,ここでは大規模学力調査で一般に使われる共通項目デザインを説明しよう。

テストの等化

先述したように,IRTでは受験者の潜在特性と項目母数を分離して考えている。言い換えれば,IRTでは潜在特性と項目母数の(語弊はあるが)本質的な量を測定していることになる。したがって,ある共通の問題,或いは共通の受験者の母数に二通りの値が計算されたとするならば,その違いは単なる「見た目」の違いであり,本質的には同じものである。つまり,二通りの母数について,共通の尺度を与えることができれば,その値は一致するはずだ。これがIRTにおける等化の原理である。

等化の方法には決まった一つの方法があるわけではない。ここではまず,多くのIRT調査に使われている,代表的な等化法であるmean-sigma法を説明しよう。
IRTにおける等化は,確率モデルを変形させることなく,任意に尺度の変換が可能である性質を利用する。\theta_{i}a_{j}b_{j}を用いた尺度をk \neq 0として
\begin{eqnarray}
\theta_{i}^{*}&=&k\theta_i+l \tag{26} \\
a_{j}^{*}&=&\cfrac{1}{k}a_{j} \tag{27} \\
b_{j}^{*}&=&kb_j+l \tag{28}
\end{eqnarray}
とおく。ただしa_{j}は項目jの識別力である。これを2母数ロジスティックモデルに代入すると,
\begin{eqnarray}
p_j(\theta_{i}^{*})^*&=&\cfrac{1}{1+exp(-Da_{j}^*(\theta_{i}^*-b_{i}^*)} \nonumber\\
&=&\cfrac{1}{1+exp(-D\cfrac{1}{k}a_{j}(k\theta_i+l-k(b_j+l)))} \nonumber\\
&=&\cfrac{1}{1+exp(-Da_{j}(\theta_i-b_j))}=p_j(\theta_i)\tag{29}
\end{eqnarray}
となる。ここでa_{j}を,全ての項目に共通の定数aと置き換えてやれば,1母数モデルの場合も同様の変形が可能となる。またk=aとすれば常にa_{j}^*=1となり,事実上識別力母数を扱う必要はなくなり,式から省略することができる。

つまり,共通の問題,或いは共通の受験者についての二通りの母数は,一方の母数を一次変換したものが,もう一方の母数になっていると考えることができるのである。このときのklを等化係数と呼ぶ。

では,等化係数はどうやって得ることができるのだろうか。mean-sigma法ではその名の通り,平均と標準偏差を利用する。ある1組の母数は,片方がもう片方を一次変換したものとみなすことができる。ということは,二通りの母数の値を標準化した結果は一致するはずである。つまり,次のような関係が成り立っている。

\begin{equation}
\cfrac{b_{j}^*-(b_{j}^*の平均)}{b_{j}^*の標準偏差}=\cfrac{b_{j}-(b_{j}の平均)}{b_{j}の標準偏差} \tag{30}
\end{equation}
この式を変形すると
\begin{equation}
b_{j}^*=\cfrac{b_{j}^*の標準偏差}{b_{j}の標準偏差}b_{j}+\left(\left(b_{j}^*の平均\right)-\cfrac{b_{j}^*の標準偏差}{b_{j}の標準偏差}\left(b_{j}の平均 \right) \right) \tag{31}
\end{equation}

となる。今,項目母数はb_{j}^{*}=kb_{j}+lと変換されていたのだから,等化係数klの推定値は
\begin{eqnarray}
\hat{k}&=&\cfrac{b_{j}^*の標準偏差}{b_{j}の標準偏差} \tag{32} \\
\hat{l}&=&(b_{j}^*の平均)-\hat{k}(b_{j}の平均)\tag{33}
\end{eqnarray}
となる。やっていることは先に見た尺度の変換と変わらない。(31)式は(5)式と同じである。ただし,1母数モデルの場合は困難度の標準偏差は変わらないので(k=aとしてaを式から消しているので),平均困難度の移動だけで等化することができる。

等化係数を計算する方法は他にもある。mean-sigma法は困難度の平均値と標準偏差を利用したが,識別力と困難度の平均値から等化係数を計算することも可能である。識別力の平均値からは(27)式によってkの値が分かるし,それを使って(28)式に当てはめればlの値も分かる。

この等化方法は二つの平均値を使うのでmean-mean法という直截な名前が付けられている。mean-sigma法もmean-mean法も非常に簡単に等化係数を得ることができるので,多くのIRTを用いたテストで利用されている。PISA2000-2003ではmean-sigma法が,それ以降の調査ではmean-mean法によって等化されている。

なお,mean-mean法であるとは言っても,PISAではラッシュモデル(1母数モデル)が使われており,各項目の識別力は一定のため(27式で言えばk=1となるため),実質的に項目困難度の移動だけで等化することができる。

或いは,二つの曲線の差を最小にするような推定もできるのではないかと思われたかもしれない。もちろんできる。平均や標準偏差といったモーメントを使った計算ではなく,二つのテスト特性曲線(TCC,縦軸が正答確率の総和)の差を最小二乗法などにより最適化する手法が南風原(1980),Stocking and Lord(1983)などにより提案されている。

いずれの等化法にも共通することは,共通の受験者や共通の項目を手がかりに等化を行うということである。前者を共通受験者デザイン,後者を共通項目デザインと呼ぶ。特によく使われる手法が,共通項目を異なる受験者に与える共通項目非等質グループデザインである。PISAもTIMSSもこのデザインによって運用されている。

ただし,PISAではmean-mean法,TIMSSでは同時尺度調整法(concurrent caribration)という等化手法が使われている。同時尺度調整法というのは,二つのテストから別々に母数を推定するのではなく,一つにまとめて推定してしまうやり方である。

たとえば,TIMSS1999とTIMSS2003から別々に母数を推定してそれを等化するのではなく,二つの年度のデータを一まとめにして母数を推定するのである。各年度のTIMSSのraw dataに過去の年度のデータも含まれているのはそのためだ。同時尺度調整法の場合は原理的に等化係数を計算する必要はない。

有意性検定

有意性検定は仮説検定とも呼ばれるように,何らかの統計的仮説の真偽を検証するための手段である。統計的仮説には様々なものがあるが,畢竟,二つのデータ*6間に「差がある」か「差がないか」という仮説に帰着する。前者の仮説を対立仮説,後者の仮説を帰無仮説と呼ぶ。

ここで,単に差が「ある・ない」と表現したが,そもそも二つのデータが全く同じであるということは殆どない。異なる二つのデータには,その大きさはともかく,必ず何らかの「ずれ」が存在するはずである。

そこで,統計的検定では,そのずれを確率的に評価するという方法をとる。つまり,二つのデータ間のずれが偶然の「誤差」の範囲内におさまるのか,そうではないのかを確率的に評価するのである。後者の場合,統計学的にみて「有意差がある」と表現される。

誤差は大きく分ければ標本誤差と非標本誤差に分けることができる。標本誤差とは標本を抽出する際に確率的に発生する誤差であり,母集団の特徴を完全には反映していない標本集団を抽出することによる誤差である。

非標本誤差とは文字通り,標本誤差以外の誤差であり,たとえば,長さを測定するものさしが歪んでいたりすることによる誤差である。このうち,誤差の分布が理論的に予測でき,したがって検定に利用することができるのは標本誤差の方だ。

PISA2000とPISA2003のデータを例に有意性検定を説明してみよう。利用するのはそれぞれの調査における日本の読解力の平均得点である。PISA2000では,日本の読解力は522.2点,PISA2003では498.1点である。この点数は等化した後の点数なので,直接比較することができる。したがって,522.2-498.1=24.1がPISA2000とPISA2003の点数の差ということになる。この差が統計的に有意であるといえるのか,そうではないのかを判断するのが検定という作業である。

しかし,有意性検定では対立仮説を直接検証することはできない。なぜならば,対立仮説は無数に存在するからだ。たとえば,PISA2000とPISA2003の平均得点に「10点の差がある」というのも一つの対立仮説である。仮に検定の結果,その仮説が採択されるとしても,「実は15点の差がある」,「やっぱり20点の差だった」という対立仮説が次から次へと出てくることになる。

また,仮説が棄却されるにしても,「9点の差」ならばあったかもしれないし,それが棄却されたとしても,「8点の差」という仮説ならば採択されるかもしれない。その対立仮説に決定的な意味があるのでない限り,対立仮説を直接の検定対象とすることはできない。逆に言えば,この作業を繰り返していくと「棄却されない(対立)仮説の範囲」というものも表現できることになるが,それは後述しよう。

そこで,有意性検定では,帰無仮説を棄却することができるかどうかによって,統計的仮説の判定を行うことになる。つまり,帰無仮説が正しいと仮定した場合に,観測されたデータが従う理論的な分布を明らかにし,その分布と観測されたデータのずれを確率的に評価することで,帰無仮説を棄却するか,しないかが判断される。

このとき棄却の判断基準として任意に設定された確率を有意水準と呼び,慣例的に0.05が設定されることが多い。言葉だけでは少しわかりにくいので,実際に図で確認してみよう。

図9は,帰無仮説が正しいと仮定した場合」の検定統計量が正規分布であった場合の確率分布である。検定統計量とは現実に観測されたデータを,検定がしやすいように加工したデータだと思えばいい。

たとえば,二つのテストの得点の差を標準化したものが検定統計量であり,その場合,図のように検定統計量は標準正規分布に従っている。設定した有意水準は0.05なので,両側検定の場合は両裾に0.025の棄却域が存在する。

もし,検定統計量がこの棄却域に入れば,それは,帰無仮説が正しいという仮定の下で,5%以下という非常に稀な確率でその事象が起こったことを意味する*7このとき,帰無仮説は棄却され,対立仮説が採択される。正規分布の場合,両裾が0.025となるのは\mu±1.96\sigmaになる。標準正規分布の場合は\mu=0\sigma=1なので,そのまま±1.96の点となる。

PISA調査の例で言えば,「PISA2000とPISA2003の受験者の平均得点は同じ」というのが帰無仮説であり*8,24.1点という差が検定するべきデータになる。

つまり,PISA2000とPISA2003の受験者集団の平均得点に差はない,という仮定の下で,24.1点という差が確率的にどの程度稀であるのかによって帰無仮説を棄却するか否かを決定するのである。そしてそのためには,「二つの集団の平均点の差」という統計量が従う確率分布が明らかにされなければならない。

標本平均のバラつき

まずは,「テストの平均得点」のような標本平均が従う分布を明らかにしよう。たとえば今,日本人の平均身長が知りたいとしよう。そのために日本人から100人程度,無作為抽出したとする。このときの標本平均は168cmであった。ではこれをもう一度繰り返すとどうなるだろうか。

おそらく,その値は一回目の推定値とは異なっている。たとえば,170cmになっているかもしれない。さらに,もう一度同じ作業を繰り返してみよう。やはり,その値は一回目,二回目の推定値とは異なっているはずである。つまり,標本平均にもバラつきが存在するということである。

この標本平均のバラつきは,「中心極限定理」という統計学の定理を使えば,その理論的な分布を知ることができる。中心極限定理というのは母集団がどのような分布であっても,そこから抽出された標本平均の分布が正規分布するという定理である。つまり,日本人という母集団から100人を抽出して,その身長を平均した168cm,或いは170cmという値は正規分布に従っているのである。

今,中心極限定理により標本平均は正規分布に従っていることがわかっていた。そこで知りたいのは,この正規分布の平均と標準偏差(正確に言えばその不偏推定量)である。このうち,平均は簡単にわかる。たとえば,今,日本人の平均身長を調べるために,100人の標本集団の平均身長をその推定量としていた。この試行を無限に繰り返したときの標本平均の平均が,母平均に一致することは直感的に理解できるだろう。

一方,標準偏差がどうなるかといえば,これは母集団の標準偏差を標本サイズの平方根で割った値になる。つまり,標準偏差\sigmaの母集団から,サイズがnの標本を抽出すると,その標本平均の標準偏差\sigma/\sqrt{n}になるのである。

また当然ながら,その分散は母集団の分散\sigma^2を標本サイズで割った値\sigma^2/nになる。証明は長くなるので割愛するが,中心極限定理統計学の基礎をなす定理であるので,その証明は多くの統計学の教科書に記載されている。

これで,標本平均が従う理論的な確率分布がわかった。標本平均の標準偏差は標準誤差(Standard Error)とも呼ばれる。つまり,標本平均と母平均との平均的な誤差のことである。たとえば,日本人の平均身長が170.0cm,その標準偏差が5.0cmだったとしよう。そうすると100人の標本集団の標本平均は,平均が170.0cm,標準偏差5.0/\sqrt{100}=0.5となる。もし,日本人からランダムに100人を抽出すれば,その標本平均は平均的には0.5cm程度しかバラつかないということである。

少しわかりにくいかもしれないので,「標準誤差」という言葉の意味を説明しておこう。通常,母集団から抽出した標本を平均したものは母平均の推定値とみなされる。或いは逆に母平均を知りたいからこそ標本抽出は行われている。一つのデータから母平均を推定するよりも,複数のデータを平均した方がより精度の高い母平均の推定になることは経験的によく知られているからだ。

しかし,標本平均もまた標本と同様バラつきを持っている。そのバラつきは単なるバラつきではなく,母平均からの「誤差」である。身長が160cmの人と170cmの人が存在するのは単なる身長のバラつきだが,標本平均160cmと母平均170cmのずれは「推定値と真の値からのずれ」という意味で「誤差」なのである。これが標準偏差と標準誤差の意味の違いである。

平均点の差の検定

標本平均の分布は分かった。それでは,「平均点の差」はどういう分布に従っているのだろうか。実は,標本平均と同じように標本平均の差と和も正規分布に従うのである。しかも,その分散はそれぞれの標本平均の分散を足し合わせたものという非常に単純な式になるのである。図10は二つのテストの平均点の分布と,その差の分布である。

これでPISA調査について有意差を検定する準備が整った。まず,PISA2000とPISA2003の平均点を,それぞれ\bar{X}_{2000}\bar{X}_{2003}と表現すると,検定統計量は\bar{X}_{2000}-\bar{X}_{2003}
となる。また,PISA2000とPISA2003の平均得点の標準誤差を,それぞれSE_{2000}SE_{2003}とすると,検定統計量が従う分布の標準偏差\sqrt{SE_{2000}^2+SE_{2003}^2}となる。

さらに結果を分かりやすくするために,検定統計量を標準化しておこう。PISA2000とPISA2003の「真の」平均点(つまり母平均)をそれぞれ\mu_{2000}\mu_{2003}とすると,標準化された検定統計量は\cfrac{(\bar{X}_{2000}-\bar{X}_{2003})-(\mu_{2000}-\mu_{2003})}{\sqrt{SE_{2000}^2+SE_{2003}^2}}となる。この統計量は標準正規分布に従うので,有意水準0.05に対応する境界点は±1.96となる

また,帰無仮説が正しいと仮定した場合は当然\mu_{2000}-\mu_{2003}=0となる。したがって,次の不等式を満たすとき,帰無仮説は棄却されず,満たさないときは対立仮説が採択される。
\begin{equation}
 -{1.96}\leqq \cfrac{(\bar{X}_{2000}-\bar{X}_{2003})}{\sqrt{SE_{2000}^2+SE_{2003}^2}} \leqq 1.96 \tag{34}
\end{equation}

それではこの式に実際のPISAのデータを当てはめてみよう。PISA2000とPISA2003の平均得点はそれぞれ\bar{X}_{2000}=522.2\bar{X}_{2000}=498.1,標準誤差は,PISAの報告書からそれぞれ,SE_{2000}=5.2SE_{2003}=3.9であることがわかっている。

したがって,検定統計量は(522.2-498.1)/\sqrt{5.2^2+3.9^2}となり,その結果は3.71である。したがって,PISA2000からPISA2003の間で見られた読解力の変化は「有意」であったということができるのである。

なお,(34)式は実際にPISAで使われている計算式ではない。TIMSSの場合はこの式で問題ないが,PISAの場合は標準誤差としてLinking Errorというものが加えられている。そのため,実際の検定統計量はもう少し小さくなる。

Linking Error

今説明したように,異なる年度間のPISAやTIMSSの得点が有意に変化しかどうかは,
\begin{equation}
 -{1.96}\leqq \cfrac{(\bar{X}_{A年}-\bar{X}_{B年})}{\sqrt{SE_{A年}^2+SE_{B年}^2}} \leqq 1.96 \tag{35}
\end{equation}
の式を使えば判断することができる。しかし,PISA調査の場合は少し式を変えて次のような式が使われる。
\begin{equation}
 -{1.96}\leqq \cfrac{(\bar{X}_{2000}-\bar{X}_{2003})}{\sqrt{SE_{2000}^2+SE_{2003}^2+Linking Error^2}} \leqq 1.96 \tag{36}
\end{equation}

見てわかるように,PISA調査における有意差の検定ではLinking Errorというものが分母の√の中に登場している。そのため,PISAでは通常の検定と比較して検定統計量が小さくなり,その分,帰無仮説を棄却する基準は厳しいものとなっている。

このLinking Errorとは一体何なのだろうか。まずは,表6.1を確認してほしい。

これはPISA2000とPISA2003の読解力問題における共通項目28問ついての表である。表には,PISA2000のデータのみから計算した項目の困難度と,PISA2003のデータのみから計算した項目の困難度,およびその差を載せてある。また,それぞれの項目困難度は28問の平均困難度が0になるように調整されている。

5章で(或いは先ほども)述べたように,ラッシュモデルの場合,同じ問題に対する二つの項目困難度は単に定数を加え合わせたものであった。したがって,二つの項目困難度を同じ尺度にのせるには,項目困難度をそれぞれの平均値を引いてやればいい。結果として,両者の項目困難度の平均は0になる。したがって,二つの項目困難度は等化されている。

しかし,両者の値は一致していない。これには二つの原因がありうる。一つは,上記の項目困難度は推定値であり,したがって「真の項目困難度」それ自体ではないということだ。既に見たように,推定の結果得られた母数の推定値は,テストの結果を最も有り得るように推定された値だ。推定値の結果が真の値と正確に一致することはほとんどない。そのため,テスト項目の情報を項目プールに追加するときなどは,二つの項目困難度の平均値が利用されたりする(豊田 2002)。また,この場合,受験者の数を増やしてやれば推定値は安定する。

しかし,ここで問題とするのは,もう一つの原因である。それは,IRTのモデルと現実のデータが適合していないことに起因している。項目反応理論は5章でも述べたように,項目困難度の不変性を前提している。困難度の不変性は,次の性質を満たすための十分条件となっている。
\begin{equation*}
\theta_{1} < \theta_{2} のとき,
P_{j}(\theta_{1}) < P_{j}(\theta_{2})
\end{equation*}
この性質は,異なる二つの能力を持つ受験者が同じ問題を解いたとき,それがどのような問題(逆転項目以外)であっても,能力が高いほうが,正答確率も高くなるということを意味している。この性質が学力調査において前提されることは自明であると言っていいだろう。困難度が不変であれば,この性質は常に満たされる。

しかし,現実のテスト場面ではこの性質が必ずしも成り立つわけではない。たとえば,テストには「位置効果」というものが知られている。これは,テストの最初の方に出された問題よりも,最後の方に出てくる問題の方が正答率が低くなってしまうという現象である。この場合,仮に同一の問題について,同一の能力を持つ受験者がそれを解いたとしても,問題がテストで出題される位置によってその困難度は変化してしまう。

これと同じようなことが,カリキュラムの変更によっても起こりうる。たとえば,カリキュラムの順番が変更されていれば,全体的な学力が同じ受験者であっても,より最近に学習した内容についての問題の方が正答率は高くなるだろう。あるいは,カリキュラムの範囲の変更によっても同様である。全体的な学力が同じ受験者であっても,カリキュラムの範囲,あるいはカリキュラムの重点によって,項目に対する反応には違いがでる。

項目困難度が変化するということは,等化係数が変化するということだ。等化係数が変化すれば最終的に推定される成績も変化する。たとえば単純な例を考えてみよう。図11を見てほしい。今5問で構成されたテストAを集団aが受験したとする。集団の潜在特性は全て等しく\theta_{a},また5問の困難度も全て等しくb=\theta_{a}だったとしよう。したがって集団aは全ての項目に対して平均正答率が50%となる。

しかし,現実には様々な要因によって正答率が変化することがある。たとえば,疲労によって正答確率が1問ごとに1%ずつ下がると仮定しよう。このとき項目1の正答確率は50%であり,項目5の46%まで1%ずつ下がることになる。

次に,集団aと全く同質の集団bにテストBを受験させる。テストBもテストAと同じく5問で構成されているが,二つのテストを等化するために,テストBの3問目には共通項目として項目1から項目5までのいずれかを出題することにする。また1問ごとに正答率が低下するのも集団aと同様だとしよう。

このとき項目1が共通項目として選ばれると,集団aの正答率が50%に対し集団bでは48%となってしまう。その分,集団aの能力は高く推定されることになる。一方で項目5が選ばれた場合,集団aの正答率が46%であるのに対し集団bでは48%となる。その分,集団aの能力は低く推定されることになる。

つまり「共通項目の選び方」によって推定結果が違うものになってしまうということだ。すなわちLinking Errorとは共通項目のサンプリング誤差なのである。そのため,いくら受験者の数を増やしたところで共通項目の数を増やさない限り,Linking Errorは小さくならない(Michaelides and Haertel 2004)。

また,受験者のサンプリングの際にその代表性に注意しなければならないのと同様に,共通項目のサンプリングもまた測定したい領域をできるだけ広くカバーするように出題されなければならない(Sheehan and Mislevy 1988)。

Linking Errorの計算

もし全ての有りうべき問題を共通項目として出題することができればLinking Errorは発生しない。しかし現実にはもちろんそんなことは不可能だ。それゆえPISAではLinking Errorを考慮した検定が行われるのである。それではLinking Errorはどう計算すればいいだろうか。

Linking Errorの計算には決まった手法があるわけではないが,PISA2003では困難度の差の標準誤差をそのままLinking Errorとして計算している。今,テストAの(共通)項目困難度を\alpha_{i},テストBの(共通)項目困難度を\beta_{i}とする。ただし,これは推定値ではなく真の値である。そうすると,1母数モデルの場合,等化係数は\bar{\beta}-\bar{\alpha}であり,また全てのiについて\bar{\beta}-\bar{\alpha}=\beta_{i}-\alpha_{i}が成り立っている。

しかし,実際の困難度は推定値であるため真の値と一致するわけではない。また,先に説明したように項目困難度の性質が変化することによっても,推定値の値は変化する。

そこで,ここではテストAの結果にテストBの結果を等化させるとして,テストB側の困難度の変化を\epsilon_{i}としよう。ただし,\epsilonは平均0の正規分布に従う。つまり,誤差であると言うことだ。そうすると,実際に得られるテストBの困難度は\beta_{i}+\epsilon_{i}と表現される。したがって,その等化係数も\bar{\beta}+\bar{\epsilon}-\bar{\alpha}と変化する。

今知りたいのは,この\bar{\epsilon}の影響の大きさである。つまり,共通項目の数によって\bar{\epsilon}がどれだけバラつくのかを知りたいのである。これは,今までの説明によって理解できるはずだ。知りたいのは\bar{\epsilon}という平均のバラつき,つまり,\epsilon_{i}の標準誤差なのである。それでは,\epsilon_{i}の値はどこから得られるだろうか。

まずは,困難度\alpha_{i}\beta_{i}を等化した後の差を見てみよう。その差は(\beta_{i}+\epsilon_{i})-\alpha_{i}+\bar{\alpha}-(\bar{\beta+\epsilon})となる。先ほど説明したように,\alpha_{i}\beta_{i}は推定値ではなく,真の値である。したがって,\bar{\beta}-\bar{\alpha}=\beta_{i}-\alpha_{i}が成り立っている。そうすると困難度の差は\epsilon_{i}-\bar{\epsilon}となる。

つまり,表6.1で見た困難度の差は,\epsilon_{1}-\bar{\epsilon}=-0.072,\epsilon_{2}-\bar{\epsilon}=-0.101,......,\epsilon_{28}-\bar{\epsilon}=-0.327となっていたのである。

これで,\epsilon_{i}の標準誤差,すなわち\bar{\epsilon}標準偏差が計算できる。既に説明したように,あるデータセットに定数を加え合わせても,分散や標準偏差は変化しないからだ。\epsilon_{i}-\bar{\epsilon}の標準誤差は\epsilon_{i}の標準誤差と同じである。

したがってLinking Errorの計算式は次のようになる。困難度の差の分散を\sigma^2,共通項目の問題数をnとすると,困難度の差の標準誤差は
\begin{equation}
Linking Error=\sqrt{\cfrac{\sigma^2}{n}}
\end{equation}

となる。これがLinking Errorである。表6.1のデータを使うとPISA2000とPISA2003を等化する際のLinking Errorは

\begin{equation}
Linking Error=\sqrt{\cfrac{\sigma^2}{n}}=\sqrt{\cfrac{0.047486}{28}} \risingdotseq 0.041
\end{equation}

と計算される。つまり困難度の差の平均\bar{\epsilon}は0.041ロジット程度は平均的にバラつくということだ。すなわち,等化係数も0.041ロジット程度はバラつき,それに従いPISA2003の平均得点もまた0.041ロジット程度バラつくことになる。これは,平均得点の標準誤差と見なせるため,有意性検定の式にLinking Errorを加えるのである。
ただし,このままでは検定の式に代入することはできない。得られたLinking Errorはロジットスケールの値なので,これをPISAのスケールに変換しなければならない。PISA2000とPISA2003の場合,基準となるのはPISA2000のスケールであり,その標準偏差は100,平均は500となっている。

Linking Errorは標準誤差,つまり平均得点のバラつきなので平均が500という尺度を考慮する必要はない。標準偏差を100にするだけである。PISA2000の受験者能力の標準偏差は1.1002なので(OECD 2005 pp.214-215),PISAスケールに変化したLinking Errorは,
\begin{equation}
\cfrac{1}{1.1002}×0.041×100 \risingdotseq 3.727
\end{equation}
となる。なお,数字が丸められている分(か筆者が間違っているためPISAの報告書とはわずかに違いがある。PISAでは3.744と報告されている。

数学的に全く自信がないため折りたたんでおく。有識者求む。


*1:ところで,母平均\muが分かっている状況はそれほど多いわけではない。というよりも,それを知ることが調査の目的であることも多い。そこで,母平均\muの代わりに標本平均\bar{X}を代用することがある。しかしこの場合,分散(の期待値)は過小に評価されることがわかっている。そこで,標本平均\bar{X}を使っても母平均の不偏推定量となるように,nではなくn-1で割る。これを不偏分散と呼ぶ。ただし,以下の説明では大規模な学力調査の場合を想定しているため,自由度は基本的に考慮しない。

*2:心理検査や学力調査では,標準検査を作成する作業のことや,尺度値の意味付けに関わる作業のことも標準化(norming) と呼ぶことがある。

*3:正確には,累積分布関数とは確率変数Xの確率密度関数においてP(X \leqq x)となるようなxの関数である。

*4:これを変数とみなせば2母数モデルとなる

*5:項目反応理論で要求されるのは,厳密な独立の仮定ではなく,ある潜在特性θを固定したとき,個々のテスト項目に対して独立に反応する「局所独立の仮定」である。つまり,IRTでは極めて強い(学力の)一次元性の仮定が置かれているといえる。

*6:{ここでは「データ」と表現しているが,これは必ずしも現実に観測されたデータを意味しているわけではない。たとえば,あるテストの得点が70点であったとき,これに対して「真の得点は80点である」という仮説を立てることができる。この場合,70点と80点というのがここでいう「二つのデータ」ということになる。

*7:この表現から生じる無限大の誤解は次の記事を参照してほしい。

*8:帰無仮説の注釈については5章参照