PR

統計初心者でも分かる:割合(比率)の信頼区間と割合(比率)の差の信頼区間

医学統計学
記事内に広告が含まれています。

以前の記事で信頼区間については触れましたが、信頼区間とはある信頼度で母集団のパラメータを含むと思われる範囲の事でした。

今回は、割合(比率)の信頼区間、つまり、

「ある信頼度で母集団の割合を含むと思われる値の範囲」

についてまとめていきます。

割合(比率)の信頼区間とは

代表的な例として、ニュースなどでよく耳にする「総理大臣の支持率」があります。

しかし、日本全国民に、総理大臣を
・「支持する」
・「支持しないか」
を聞いて回るのは、費用と時間がかかりすぎます。

その代わりに、全国民を対象に無作為抽出を行い、「総理大臣の支持」について尋ねるのが現実的ですね。
世論調査などでは、全国の有権者を対象にコンピューターで無作為抽出した固定電話番号と携帯電話番号に電話をかけて世論調査を行うRDD(random digit dialing)法がよく使われています。

無作為に標本を選ぶので、標本から得られた「支持している」「支持していない」の割合が、日本全国民の割合と正確に一致する保証はありません。そこで、この不確実性を捕らえるために、日本国民の総理大臣に対する「支持」「不支持」の真の割合を含むと思われる区間を推定するのが信頼区間となります。

割合(比率)の信頼区間の公式

割合の信頼区間を計算する公式は以下の通りです。

$$信頼区間 = p ± z × \sqrt{\frac{p(1-p)}{n}}$$

ここで

  • p: 標本比率
  • z: 調査で選択する信頼水準に依存する
    • 信頼区間95%:1.96
    • 信頼区間99%:2.58
    • 信頼水準を大きくすれば、z値は大きくなり、信頼区間は大ききなる
  • n: 標本サイズ

割合の信頼区間の計算(具体例)

ある総理大臣の支持率に関して国民の「支持する」割合を推定したいと考えます。
そこで、RDD法にて2000人を無作為に抽出し、50%の1000人から支持・不支持についての回答を得た結果が以下の通りであったとします。

  • サンプルサイズ n = 1000
  • 支持する割合 p = 0.55

ここで、母集団の割合に対する信頼区間を求めてみます。

95%信頼区間: 

$$0.55 ± 1.96 × \sqrt{.55(1-.55) / 1000} = [0.519,  0.581]$$

99%信頼区間:

$$0.55 ± 2.58 × \sqrt{.55(1-.55) / 1000} = [0.509,  0.590]$$

割合の信頼区間の解釈

上の計算より、

95%信頼区間は51.9~58.1%

99%信頼区間は50.9~59.0%

です。

ちなみに

95%信頼区間は「同様の世論調査を100回実施すれば95回は真の割合を含む範囲」

99%信頼区間は「同様の世論調査を100回実施すれば99回は真の割合を含む範囲」

という解釈で捉えておいてください。

「51.9~58.1%の間に95%の確率で真の割合が入る」

「50.9~59.0%の間に99%の確率で真の割合が入る」

ではありませんので…。

割合(比率)の差の信頼区間

次に2標本の比率の差の信頼区間です。この場合は、

「2つの母集団の比率の真の差を、ある信頼度で含むと思われる範囲」

ということですね。

研究・調査では、2つの母集団を比較し、その差を検討することが多いので、今回は、2つの母集団の割合(比率)の差を推定することについてもまとめます。

差を推定する為には、それぞれの母集団から無作為に標本を集め、それぞれの標本の割合を求めてから、2つの割合の信頼区間を求めるのが一連のSTEPです。

例えば、ある総理大臣の支持率について男女の差を推定したいとします。

無作為抽出から、男女の標本の中から総理大臣を支持する割合を用いて、男女間の割合の真の差を信頼区間を用いて推定することができます。

割合(比率)の差の信頼区間の公式

2つの母集団の比率の差の信頼区間を計算するための公式は以下の通りです。

$$信頼区間 = (p_1-p_2) ± z × \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}$$

ここで

\(p_1, p_2\): 標本1の割合, 標本2の割合
z: 信頼水準に基づくz臨界値
\(n_1, n_2\): 標本1の大きさ、標本2の大きさ

使用するz値は、選択する信頼水準に依存します。

  • 95%:1.96
  • 99%:2.58

より高い信頼水準は、より大きなz値に対応し、それはより広い信頼区間となります。

割合(比率)の差の信頼区間の計算

ある総理大臣の支持率の男女間の差を推定するためにRDD法にて1000人から回答を得ました。支持率が男性では女性に比べてどの程度違うかを推定します。

男性:
\(n_1\) = 550
\(p_1\) = 0.476 (すなわち、100人中47.6人が支持する)
女性
\(n_2\) = 450
\(p_2\) = 0.424 (すなわち、100人中42.4人が支持している)

95%・99%信頼区間は以下の通りです。

95%信頼区間

$$(0.476-0.424) ± 1.96 × \sqrt{0.476(1-0.476)/550 + 0.424(1-0.424)/450} = [-0.0099, 0.1139, ]$$

99%信頼区間

$$(0.476-0.424) ± 2.58 × sqrt{(0.476(1-0.476)/550 + 0.424(1-0.424)/450)} = [-0.0293,  0.133]$$

95%・99%どちらの信頼区間も「0」を含んでいるので、
男女の間で支持率について有意な差があることは証明できませんでした。

割合(比率)の差の信頼区間や多くの研究などで扱われる割合(比率)の差の信頼区間について分かりやすくまとめました。
オッズ比やリスク比など、割合(比率)に関するデータは多くありますね。これらのデータ分析の際に参考にしてみてください

コメント