標本調査(sample survey)法の基本トピックまとめ

標本調査(sample survey)法」は母集団(population)からその一部の標本(sample)を取り出す標本抽出(sampling)に基づいて行う調査である。当記事では主に標本調査を行うにあたっての標本抽出の方法についてを中心に取りまとめを行う。
内容の作成にあたっては「統計学実践ワークブック」の$21$章などを参考にした。

・ワークブックまとめ
https://www.hello-statisticians.com/toukeikentei-semi1

標本抽出法

無作為抽出法・有意抽出法

無作為抽出法(random sampling)」は母集団に対して、主に乱数などを用いて標本抽出を行う手法である。抽出にあたっては母集団のそれぞれの抽出単位(標本)に対して予め確率を定めることもあれば、それぞれの抽出単位に等しい確率を割り当てることもある。
等しい確率を割り振る場合を「単純無作為抽出法(simple random sampling)」という。

一方で、母集団からの標本の抽出にあたって、調査を行う側の主観や意図が入る方法を「有意抽出法(purposive sampling)」と呼ぶ。

復元抽出・非復元抽出

復元抽出(sampling with replacement)」はサンプリング1回毎に抽出した標本を母集団に戻してサンプリングを行う手法、「非復元抽出(sampling without replacement)」は同じ抽出単位を2回以上抽出しない手法である。

復元抽出と非復元抽出の違いに関しては母平均$\mu$の推定を考えると顕著である。まず非復元抽出を行なって得たサンプルの$x_i \quad (i=1,2,…,n)$に関して考える。
$$
\large
\begin{align}
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
\end{align}
$$
母平均の推定量を考えるにあたって、上記のような標本平均$\bar{x}$を用いることを考える。このとき$\bar{x}$の期待値の$E[\bar{x}]$と分散の$V[\bar{x}]$は下記のようになる。
$$
\large
\begin{align}
E[\bar{x}] &= \mu \\
V[\bar{x}] &= \frac{N-n}{N-1} \cdot \frac{1}{n} \sigma^2
\end{align}
$$

分散の導出に関しては下記などが参考になる。

一方で、復元抽出に関しては、標本平均$\bar{x}$の期待値の$E[\bar{x}]$と分散の$V[\bar{x}]$は下記のようになる。
$$
\large
\begin{align}
E[\bar{x}] &= \mu \\
V[\bar{x}] &= \frac{\sigma^2}{n}
\end{align}
$$
上記は非復元抽出において$N \to \infty$を計算することで導出したと考えることもできる。

クラスター抽出法

標本抽出において推定の精度を高めるにあたって、様々な手法が用いられるが、「クラスター抽出法(cluster sampling)」もその一つである。たとえば学校の生徒の例で考えると、母集団の学校全体の生徒に対して、クラスを一つの単位と見て標本抽出を行うことも考えられる。
このようなクラスター抽出法は調査する対象がまとまっていることで調査が行いやすい一方で、どのクラスを選ぶかによって結果のばらつきが大きいことにも注意が必要である。

クラスター抽出法は、多段抽出法、層化抽出法、系統的抽出法などに大別できるので以下はそれぞれについて確認する。

多段抽出法

二段抽出法(two-stage sampling)」は、母集団をいくつかのグループに分け、その中からいくつかを抽出する手法である。母集団を振り分けるグループを第1次抽出単位(first-stage sampling unit)、抽出した第1次抽出単位から第2次抽出単位(two-stage sampling unit)を抽出する。

また、2次抽出単位からさらに第3次抽出単位、第4次抽出単位と抽出することもでき、これを「多段抽出法」と呼ぶ。

たとえば全国調査を行うにあたって、都道府県を第1次抽出単位としたのちに、市区町村を第2次、丁目番地を第3次を考え、そこから各世帯を抽出する方法などが多段抽出法の例だと抑えておくと良い。

層化抽出法

層化抽出法(stratified sampling)」は、母集団を層(stratum)と呼ばれるグループに分け、全ての層から決められた大きさの調査単位を抽出する手法である。

系統的抽出法

まとめ