以下の記事に対する補遺です
まえがき
社会調査一般において,何らかの母集団を調べようとする場合,その母集団に属する全員を調査できることは殆どない。全国や都道府県単位の母集団を想定している場合,そこに含まれる全員を調査するのはコストの面からみて実現不可能であり,医薬品の効果など仮説的な無限母集団を想定する場合には,そもそも理論的に悉皆調査は不可能である。また、選挙結果の予測や製品の不良率を調べるために全数調査を行うのは本末転倒というかただのアホである。
全数調査を行うのは基本的に不可能であるか無意味なもの,或いは時として有害なものでさえあり,国勢調査のように調査の意義から全数調査の実施が妥当なものと認められるものでない限り*1,全数調査は控えるべきである。全国学力なんとかのように無意味な悉皆調査は膨大なコストがかかり,学校・生徒に対する負担も大きい。また,個人に対するフィードバックを大きくすることと,正確な集団統計量を計算することは基本的に両立しない。
そのため,殆どの社会調査では母集団の特性をうまく反映できているような標本を抽出することで,母集団の特性値を推定している。ここで問題となるのは,母集団を抽出して得られた標本データから元の母集団特性値へと「復元」する方法と,標本集団の「偏り」を元の母集団と一致させる方法である。たとえば,世帯の貯蓄額を調べたい場合,母集団100世帯の内から10世帯を抽出したとしよう。また,その時の標本集団合計(貯蓄額の合計)は3,000万円,平均貯蓄額は300万円だったとする。
当たり前だが,3,000万円という数字は母集団合計とは一致しない。また,標本集団の属性(世帯主の学歴・性別・居住地など)が母集団のそれとは大きく異なっている場合,その平均値も母集団平均から大きくずれている可能性がある。標本調査ではこれらの問題点を解決する必要がある。一般に,前者の方法(標本集団から母集団への拡大)を拡大推計と呼び,後者の方法(偏りの補正)をウェイティングと呼ぶ。
どちらの作業も,要は標本データに何らかのウェイトをかけるという作業だ。そのため,拡大推計もウェイティングと呼ばれることがある。社基調の場合,拡大推計のウェイトを線形推定用乗率,或いは単に復元乗率と呼び,その結果得られた母集団の推定量を線形推定量と呼ぶ。また,標本集団の偏りを補正するウェイトを比推定用乗率と呼び,その結果得られた母集団の推定量を比推定量と呼ぶ。ここでは,社基調で採用されている「層化二段確率比例系統抽出」の場合の復元乗率を説明し,また最終的に得られる比推定量について説明する。抽出ウェイトを考慮することはPISAやTIMSSのデータを分析する上でも必須なので、少し具体的に説明しておく。
抽出ウェイト
社基調の具体的な説明をする前に,ここでは抽出ウェイトの基本的な考え方を説明しておく。今,ある標本集団について得られた観測値をとする。たとえば,上の例で言うならば,世帯1の貯蓄額,世帯2の貯蓄額であるということだ。ここで,標本集団合計を母集団合計の不偏推定量とするにはどうすれば良いだろうか。不偏推定量とは,ごく簡単に言えば標本抽出を何度も繰り返した時に,その期待値が母集団の値と一致するような推定量である。
非復元の単純無作為抽出の場合は簡単である。日常生活の中でもこの手の拡大推計は頻繁に行われている。たとえば,母集団のある要素の変数値について考えてみよう。上の例で言うならば,であり,それぞれの世帯の貯蓄額がとなる。ここから,10世帯,言い換えれば10個の値を抽出するとき,1回の抽出でそれぞれの変数値が抽出される確率は1/100,ある変数値が標本集団に含まれる確率は10/100である。この「母集団のある要素が標本集団に含まれる確率」をその要素の包含確率と呼ぶ。非復元の単純無作為抽出の場合,包含確率をとして,となり,これは全ての要素について同じである。
標本特性値を母集団特性値の不偏推定量とするには,この包含確率の逆数をかけてやれば良い。たとえば,世帯1の包含確率は1/10である。10世帯に1つの割合で選ばれたのだから,逆に言えば残りの9世帯は切り捨てられてしまったことになる。つまり,包含確率の逆数とは,その要素が何要素分の情報を代表しているのか,という値である。1/10の確率で選ばれた世帯は10世帯分の情報を代表しているということだ。この包含確率の逆数のことを一般に抽出ウェイトと呼ぶ。したがって,標本の観測値それぞれに,包含確率の逆数をかけて足し合わせたものが,母集団合計の不偏推定量となる。以下の式がそれである。 この包含確率を利用した推定量のことを推定量,或いはHorvitz-Thompson推定量(HT推定量)などと呼ぶ。この推定量は,基本的にどのような抽出デザインでも利用することができる。ここでの説明もHT推定量を利用する*2。ここで注意してほしいのは,ある世帯が10世帯を代表すると言っても,どの世帯が代表するのかによって推定値が変わってくるということだ。貯蓄額が低い世帯ばかりが10世帯を代表すれば,推定値は当然小さくなるし,逆もまたしかりである。そしてこの変動こそが社会調査における標本誤差なのである。
層化抽出
まずは「層化抽出」の説明である。一般に,標本を抽出する際に望ましいとされる方法は,母集団から無作為に標本を抽出する方法だ。通常,知りたい母集団の属性(変数),たとえば支持政党などの属性は,「年齢」「職業」「居住地域」「学歴」などの別の属性と相関を持っていることが多い。そこで,無作為抽出ではなく,何らかの手段によって標本集団を抽出する場合(たとえばある雑誌のアンケートや,特定の地点で聞いたインタビュー,或いは自分の身の回りにいる人に聞いて見るなどの方法によって標本を抽出する場合など),そこでは知りたい属性と相関の高い属性について偏った結果が得られてしまう可能性がある。たとえば,年収と支持政党の間に非常に強い相関があった場合,高級車の購入者に支持政党のアンケートを行ってもその結果は偏ったものになるはずだ。
しかし,無作為抽出ならば「年齢」にしろ「学歴」にしろ,或いは他のどんな属性であるにしろ,標本における属性の構成比は母集団の構成比(母比率)と一致するはずである。たとえば,年収と支持政党の関係でいえば,無作為抽出を行った場合の,標本集団における年収構成比と母集団の年収構成比はほぼ一致することが期待できる。無作為抽出は知りたい属性と他の属性の相関関係が未知であっても,その合計や平均,(不偏)分散など様々な統計量が母集団の不偏推定量となることが理論的に保証されているため,理屈の上では最も望ましい抽出法であるといえる。
ただし,無作為抽出にも欠点がある。一つは,現実的に無作為抽出を行うことが困難である場合だ。たとえば,母集団を「日本人の成人男性」だとした場合を考えてみよう。ある母集団から標本を抽出する際に,第一義的に必要とされるのは母集団の「名簿」である。そもそもこれがなければ標本抽出を実施することはできない。しかし,日本人の成人男性は5,000万人以上存在する。それだけの大規模なリストを作成すること,またそのリストをメンテナンスすることは現実的には困難だ。また,仮に,母集団名簿を作成できたとしても,母集団が「日本人」の成人男性であるため,標本を無作為に抽出するには,全国をばらばらに調査することになり,非常な手間と時間がかかることになる。
無作為抽出にはもう一つ欠点がある。無作為抽出は確かに母集団の不偏推定量になるという意味では母集団の特徴をよく反映した抽出法であると言える。しかし,その反映はあくまでも確率的なものである。たとえば,標本集団の男女比を考えてみよう。標本抽出を何度も繰り返せば,その男女比の期待値と母集団の男女比は近似することができる。しかし,一回の標本抽出では"たまたま"男性,或いは女性の比率が高くなってしまうことがある。もし,「性別」という属性が知りたい属性と強い相関を持っているのならば,無作為抽出を行った場合でも,その結果と母集団の真の値に大きな差が生じることが有り得る。
そこで使われる手法の一つが「層化抽出」である。層化抽出では母集団をいくつかのグループ(層)に分け,そのグループの中で独立に抽出を行うことで各グループに属する部分母集団をバランスよく抽出することができる。たとえば,「性別」で層化する場合,母集団を「女性」のグループと「男性」のグループに分け,それぞれのグループで独立に抽出を行えば,どちらかの性別に偏って抽出されることはない。このとき,それぞれの層にどれだけのサンプルサイズを割り当てるのかということが問題になるが,比較的簡単な方法としては,それぞれの層を母集団の構成比と一致させる「比例割当」と,全体のサンプルサイズnを一定とした場合に,母集団合計の分散が最小になるような割り当てを決定する「最適割当」という手法がある。
社基調では47都道府県を層として層化抽出を行っている。割当の詳細は不明であるが,いずれの方法でも各層での抽出を独立にしておけば,母集団総計の推定量は各層ごとの総計推定量の合計となる。したがって,層化のデザインは復元乗率の計算に影響は与えない。たとえば,宮崎県では自動車を保有している世帯が20万世帯,大分では18万世帯,鹿児島では... といった各層ごとの推定値を合計すれば,全国の自動車を保有している世帯数の推定量になるということである。
社会生活基本調査ではこの各層の中から,一次抽出単位として「調査区」の抽出が行われる。社会生活基本調査における調査区とは,他の多くの官公庁統計と同様に国勢調査調査区のことを意味している。抽出単位として国勢調査の調査区を利用することには様々なメリットがある。たとえば,国勢調査の調査区は平均して約50の世帯を含むように設定されており,一人の調査員が担当するのに適当な大きさとなっている。また,調査区によって層化を行いたいような場合,国勢調査区ではそれぞれの調査区における詳細な情報が利用できるため,容易に層化が可能となる。
それでは,具体的にはどのように調査区の抽出が行われているのか。社会生活基本調査では調査区の抽出にあたって「確率比例系統抽出」という抽出法を利用している。これは確率比例抽出と系統抽出を組み合わせた抽出法であり,他の官公庁統計でも頻繁に利用される手法である。
確率比例抽出
まずは確率比例抽出から説明しよう。今,都道府県ごとに層化した結果,全国は47の層(グループ)に分けられている。その内,一つの層,ここでは宮崎県に注目してみよう(宮崎出身なので)。平成22年度国勢調査の小地域集計では10472の調査区番号が宮崎県に含まれているが,ここではきりが良いように10,000の調査区が含まれているとする。一次抽出ではこのうち120の調査区が抽出される。
仮に,各調査区の抽出確率が均等(1/10000)ならば,非復元抽出の場合,ある調査区の包含確率は120/10000 である。したがって,調査区をもとの母集団(宮崎県民)人口に復元するには10000/120 の乗率を利用するだけでよい。しかし,社会生活基本調査では各調査区の抽出確率は均等ではなく,その人口規模に比例している。先ほど,各調査区は平均して約50世帯を含むように設定されていると述べたが,実際には調査区ごとにその規模はバラついている。その調査区の規模に比例するように抽出を行うのが確率比例抽出である。
一般に確率比例抽出は,調査の目的とする変数と相関が高いと思われ,かつ既知である変数を利用する(たとえば,企業の売上高を調べたい場合に,企業の資本金の情報を利用する)。この変数のことを補助変数と呼ぶ。標本を抽出する際に,一般の抽出確率(HH推定量の場合)や包含確率(HT推定量の場合)と,この補助変数を比例させれば推定の精度はより高くなると考えられる。ただし,社基調を含む多くの社会調査において,確率比例抽出はむしろ個人の包含確率を等しくするために利用されることが多い。宮崎県に住むAさんでもBさんでもCさんでも,調査に選ばれる確率を皆同じにするということだ。宮崎県の場合,各調査区の人口規模を(i=1,......,120), 宮崎県の人口をとして,それぞれの包含確率がに比例するようになっていればいい(正確には補助変数に比例していればいい)。
ただし,非復元抽出の場合,包含確率を人口規模に比例させることは存外難しい。復元抽出の場合は,その包含確率がと簡潔に表現でき*3,人口規模に比例させるのも容易である。しかし、非復元の確率抽出はその手順を考えることが、或いは二次の包含確率を計算するのが難しい。そのため,Poisson抽出法,Sunterの方法,Sampfordの方法など,様々な抽出手続きが考案されているが,中でも一般的によく利用されるのが「系統抽出」と呼ばれる抽出法である。確率比例抽出と系統抽出を組み合わせると,確かにとなり,となるような包含確率が実現できる。
系統抽出
そこで、系統抽出の具体的な手順について説明しておこう。今,宮崎県に含まれている10,000の調査区のリストがあるとする。系統抽出では,このリストを抽出率の逆数,10000/120=83.3…. の整数部分である83という大きさのグループ(群)に分割する。したがって今,10,000の調査区のリストは83の調査区を含むグループ120個とその余りである40の調査区を含むグループ1 個に分割されたことになる。
次に,最初のグループから無作為に一つの調査区を抽出する。たとえば,ここではリストの上から72番目の調査区が抽出されたとしよう。後は,この調査区から83個おきに間隔をあけて標本を抽出していく。つまり,最初に抽出される調査区は72番目,次に抽出される調査区は155番目,その次に抽出される調査区は238番目... といった具合に標本調査区を抽出していく。そうすると,120個に分割された母集団のグループはそれぞれのグループから重複なしに,一つの調査区が抽出されることになる*4。
何故このような抽出を行うのだろうか。実は,社基調では系統抽出を行う前に,調査区のリストを「大都市圏に含まれるか否か」「人口集中地区に含まれるか否か」「市町村の人口階級」などの基準によって配列している。たとえば,リストの最初の方には大都市圏に含まれ,かつ人口集中地区にも含まれる調査区がその人口階級の高さによって配列されている。その次には大都市圏に含まれるが,人口集中地区には含まれない調査区がその人口階級によって配列されている,といった具合である。ただし,この配列は説明のためのもので,実際の配列基準ではない。
こうした傾向性を持たせたリストに対し系統抽出を実行すると,無作為抽出のときに確率的に起こり得る「大都市圏ばかりが抽出される」「人口階級の少ない市町村ばかりが抽出される」といった偏りが起こらなくなる。つまり,緩やかな層化の効果を得ることができるのである。ただし,調査区の特性が周期的に変化し,その周期が抽出間隔の整数倍に近いときは,偏った標本を得てしまう可能性もある。
確率比例系統抽出
確率比例抽出では抽出単位の人口規模などに比例させて確率抽出を行っている。しかし,そもそも確率に応じた抽出とは現実にはどのように行えばよいのだろうか。現実的に考えられる方法は,確率に比例した整数個のリストから無作為抽出を行うことである。たとえば,宮崎県の人口が1,000,000人であるならば,まずは1,000,000枚のカードを作成する。次に,ある調査区A の人口規模が1,000 人であるならば,1,000,000枚のカードのうち,1,000枚のカードに「調査区A」と記入する。また,調査区Bの人口規模が500人であるならば,残りの999,000枚のカードのうち,500枚のカードに「調査区B」と記入する。
この作業を繰り返せば,1,000,000枚のカードには全て何らかの調査区の名前が記入されていることになり,かつその構成比は調査区の人口規模に比例している。あとは,この1,000,000のカードから無作為に抽出を行えば,それぞれの調査区をその人口規模に応じて抽出したことと同じになる。これを系統抽出と組み合わせてみよう。
系統抽出の説明では,10,000の調査区から120の調査区を抽出するものとして説明したが,これは実は不正確な説明である。実際には上記のような1,000,000枚のカードから120枚のカードを抽出することになる(もちろん物理的なカードを使うわけではない)。つまり,各調査区の名前が記入されている1,000,000枚のカードを,「大都市圏に含まれるか否か」,「人口集中地区に含まれるか否か」という基準によって配列し,それを120個のグループに分ける。1 つのグループに含まれるカードの枚数は1000000/120=8333.3......枚となる。後は,最初のグループからランダムに一番目に抽出される調査区を選び,以後8,333個おきに調査区を抽出するだけである。これによって系統抽出でありながら,その人口規模に比例した(非復元の)確率抽出を行うことができる。これが確率比例系統抽出である。
この場合,個々の調査区の包含確率は確かに人口規模に比例している。例えば,ある調査区のカードが1つのグループ内にのみ存在する場合を考えてみよう。一つのグループには1000000/120枚の要素が含まれている。このうち,調査区iの要素はの数だけ含まれている。1つのグループからは,1つだけ要素が抽出されるのだから,調査区iが抽出される確率,すなわち包含確率はとなる。また,ある調査区の要素が2つグループにまたがっているとき,1つめのグループに含まれる要素の数を,2つめのグループに含まれる要素の数をとすると,それぞれが選ばれる確率は,となり,2つの事象は排他的なので,調査区iが抽出される確率はとなる。
線形推定用乗率
つまり,ある調査区が標本に含まれる確率は,第地域の標本調査区数を,第地域の国勢調査人口を,第地域の第標本調査区の国勢調査人口をとすると,となる。また,標本調査区のデータを元の母集団調査区の規模に拡大するには,その逆数をかければよいことになる。このが一次抽出における抽出ウェイトである。
後は簡単である。二次抽出単位は,それぞれの標本調査区内の各世帯となるが,これは単純無作為抽出によって抽出されるため,が成り立っている。ただしは抽出率(母集団に占める標本集団の割合)のことである。したがって,各世帯が標本に含まれる確率は,第地域の第標本調査区の世帯総数を,第地域の第標本調査区の調査対象世帯数をとすると,となる。抽出ウェイトはその逆数,である。 これで線形推定用乗率が計算できる。第h地域第i標本調査区のある世帯のデータを母集団の規模に拡大するには,一次の抽出ウェイトと二次の抽出ウェイトの積 をかければよい。これが線形推定用乗率である。ただしは調査区の分割・合併があった場合の補正値である。
要は,ある要素がある確率で標本集団に含まれるというのは,その確率の逆数分の情報をその要素が代表しているということである。そして先にも述べたが,どの要素が他の集団を代表するのかによって,推定値は変化してしまうのである。すなわち標本誤差である。たとえば,親の学歴が中卒である子どもの推定母人口は,ある曜日では500人と推定されるかもしれないし,またある曜日では600人と推定されるかもしれない。どの調査区が選ばれるかによってこの値は変化する。もちろん,「親の学歴が中卒である子ども」の数はたかだか9日程度(調査日数)で変化するわけもない。そのため,週全体の平均時間を計算する際には,曜日ごとのウェイト(推定母人口の違い)を考慮する必要はなく,それぞれの曜日の平均時間を単純に7で割ればよいのである。
比推定用乗率
ただし実際には線形推定量をそのまま使うわけではない。社基調は世帯抽出の調査であるため,その線形推定量も世帯について統計量となっている。そのため,個人ベースの統計量は国勢調査人口と一致しないことが通常である(栗原・坂田 2014)。そこで社基調の推定人口と,国調人口と一致させるようなウェイトを使う必要がある。これが比推定用乗率である。 今,ある世帯のある個人が属する都道府県・性別・年齢ごとの推定母人口,或いは任意の調査変数の総計とその平均値を知りたいとしよう。たとえば,宮崎県の男性の20歳の推定人口,また,その属性を持つ集団の平均就業時間の総計と平均を知りたいとする。このとき,(2)で計算した乗率をと置き換えてみよう。ただし,は個人を示す添字である。また,個人の就業時間をとする。そうすると宮崎県・男性・20歳の推定人口,就業時間総計,その平均値はそれぞれ と簡潔に表現できる。しかし,先述した通りこの推定量には問題がある。社基調は世帯ベースの社会調査であるため,その乗率をそのまま個人ベースの統計量を推定するために使うと,抽出フレームである国調人口から大きく乖離してしまう可能性がある*5。 これを修正するのは簡単だ。推定人口とと国調人口の比を調整ウェイトとして用いれば良いだけである。つまり,線形推定用乗率に対して調整ウェイトをかけた を新しい(抽出)ウェイトとして使えばよい。これが比推定用乗率である。ただし,=都道府県,性別,=年齢である。式を見てわかるように,ここでは地域・性別・年齢という変数を利用して標本集団の偏りを補正しているが,この補正に利用する変数は(調査変数と相関が高ければ)何でも良い。つまり,万能の調整ウェイトは存在しないということだ。そのため,分析の目的によっては利用するウェイトも変更する必要がある。 しかしPISAなどでは,オーバー(アンダー)サンプリング,層化抽出,確率比例抽出,無回答,データのトリミング,その他諸々の要素を考慮した「W_FSTUWT(=final student weight)」という最終的なウェイトが計算されている。PISAのデータを分析する際は,とりあえずこのウェイトを利用すれば問題はない(はずである)。
*1:国勢調査における調査区は社会生活基本調査を含む様々な他の統計に利用されている。その理由は,標本抽出において国勢調査の調査区を利用すれば母集団の名簿を作成する必要がなく,かつそれぞれの調査区は平均50世帯を含むように設定されているので,一人の調査員が調査区内の名簿を作成することも容易であるからだ。また,国勢調査では各調査区の特性も詳しく調べられているので,それらの情報を利用して層化抽出や系統抽出の配列に使うことができる。つまり,国勢調査区は他の大規模調査のフレームワークを提供する調査でもあり,これが国勢調査が全数調査であることの意義の一つである。
*2:ただし,HT推定量の場合,分散を計算するのに二次の包含確率(要素i,jが同時に標本集団に含まれる確率)を利用するため,計算が原理的に不可能(系統抽出の場合)だったり,計算が非常に煩雑なもの(確率比例抽出)になってしまうことがある。そのため,分散を計算する場合,非復元抽出であっても復元抽出を仮定することが多い。この場合は一般の抽出確率(一つの要素を抽出するときの確率)を利用したHansen-Hurwitz推定量(HH推定量)が用いられる。社基調の場合も同様である。
*3:ただし,復元抽出の場合はHH推定量が使えるので,そもそも包含確率を計算する必要はない。抽出確率が補助変数に比例していれば十分である。
*4:ただし,最初に選ばれる調査区の番号によっては標本サイズは120ではなく,121になることもある。たとえば,最初に選ばれる調査区が23番目の調査区であった場合,120番目のグループから抽出されるのは,9900番目の調査区であり,121番目のグループからも9,983番目の調査区が抽出されてしまう。これを調整する一つの方法としては,抽出間隔(10000/120)をr,0からrまでの実数からランダムに発生させた乱数をa,j=(1,...,120)として,a+(j-1)×rの小数点以下を切り上げた値を抽出番号として使うという方法がある。たとえば,a=0.1とした場合には,最初の抽出では1番目の調査区が抽出され,j=121(121回目の抽出)のときに,10,001という結果になるため,121回目の抽出は行われない。逆に,a=83.3とした場合,最初の抽出では84番目の調査区が抽出され,j=120(120回目の抽出)のとき,ちょうど10,000番目の調査区が選ばれるため,こちらも121回目の抽出は行われない。
*5:ただし,標本調査である以上,世帯ベースの統計量を計算する際にも推定母人口は国調人口とは一致しない。個人ベースの統計量を推定する場合,その乖離がより大きくなる可能性があるということである。