旧課程(-2012年度)高等学校数学C/統計処理

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:Pathnav

統計処理とは

標本調査・正規分布など自然や社会の仕組みを把握するために必要な統計的方法を学習します。ここでは対象から抽出される標本を確率変数(かくりつへんすう)と考え、標本平均・標本標準偏差などの数値を用いて、ある統計的な判断を下せるようにすることが目標です。

この章の記述は、数列統計とコンピューター(以上数学B)・確率分布(数学C)の3分野の内容を既習の読者を想定しています。わからない部分がある場合は、まずそれらに戻って復習してみるとよいでしょう。

正規分布

分布曲線

資料の総数が非常に多いときは、階級の幅を十分細かく分けて、ヒストグラムを作ると、対応する度数折れ線は1つの曲線に近づくことが想定され、その曲線がXの真の確率分布(かくりつぶんぷ)を表すと考える。この曲線をXの分布曲線(ぶんぷきょくせん)という。

確率密度関数

時間や長さのように連続的な値をとる変量を連続変量といい、テストの点やものの個数のようにとびとびの値をとる変量を離散変量という。

Xが連続変量である確率変数とする。このとき、次のような性質をもつ曲線y=f(x)がその分布曲線である。

(1) f(x)0

(2) 曲線y=f(x)とx軸の間の部分の面積は1である。

(3) abとするとき、Xのとる値xがaxbの範囲にある確率がabf(x)dxに等しい。

このとき、f(x)を確率変数Xの確率密度関数(かくりつみつどかんすう)という。


連続変量Xでは、P(X=a)=P(X=b)=0であるから、

P(a<X<b) , P(aX<b) , P(a<Xb)

はいずれもP(aXb)に等しい。

正規分布

Xが連続的な確率変数で、その分布曲線が関数

y=12πσ e(xm)22σ2 ……(A)

のグラフで表されるとき、Xは正規分布N(m , σ2)に従うという。

このときm , σはそれぞれ確率変数Xの平均、標準偏差である。

正規分布の平均と標準偏差

Xが正規分布N(m , σ2)に従う確率変数であるとき、

E(X)=m , σ(X)=σ

関数(A)のグラフを正規分布曲線という。この曲線は、分布曲線の一般な性質のほかに、更に次の性質をもつ。

(1) 曲線は直線x=mに関して対称であり、yの値はx=mで最大になる。

(2) x軸を漸近線とする。

(3) 標準偏差σが大きくなると、曲線は横に広がって山が低くなり、σが小さくなると、曲線は対称軸x=mの周りに集まって山が高くなる。

Xが正規分布N(m , σ2)に従うとき、

P(mσXm+σ)=0.6827
P(m2σXm+2σ)=0.9545
P(m3σXm+3σ)=0.9973

であることが知られている。

標準正規分布

正規分布N(1 , 0)標準正規分布(ひょうじゅんせいきぶんぷ、standard normal distribution)という。

標準正規分布の分布曲線の方程式は

y=12π ex22

である。

標準正規分布N(1 , 0)において、確率P(0Zx)N(x)で表すとする。

いろいろなxの値に対するN(x)の値を表にまとめたものが正規分布表(せいきぶんぷひょう)である。

Zが標準正規分布N(1 , 0)に従うとき、正規分布表から

P(1Z2.5)=N(2.5)N(1)=0.49380.3413=0.1525
P(0.8Z1.5)=N(0.8)+N(1.5)=0.2881+0.4332=0.7213


正規分布N(m , σ2)に従う確率変数Xに対して

Z=Xmσ

とおくと、Zは標準正規分布N(1 , 0)に従う確率変数である。

正規分布の標準化

確率変数Xが正規分布N(m , σ2)に従うとき、

Z=Xmσ

で与えられる確率変数Zは標準正規分布N(1 , 0)に従う。

  • 問題例
    • 問題

確率変数Xが正規分布N(3 , 42)に従うとき、確率P(1X7)を求めよ。

    • 解答

XがN(3 , 42)に従うとき、Z=X34N(1 , 0)に従う。

P(1X7)=P(134Z734)=P(0.5Z1)=P(0.5Z0)+P(0Z1)=P(0Z0.5)+P(0Z1)=N(0.5)+N(1)=0.1915+0.3413=0.5328

二項分布と正規分布

1個のさいころをn回投げるとき、1の目の出る回数をXとすると、Xのとり得る値は0,1,2,,nである。このとき、X=rとなる確率は

P(X=r)=nCr(16)r(56)nr

となり、確率変数Xは二項分布B(n , 16)に従う。

B(n , 16)について、n=10 , 20 , 30 , 40 , 50のグラフをかくと、nが大きくなるにつれグラフは次第に正規分布曲線に似た左右対称の形に近くなっている。

一般に、二項分布B(n , p)に従う確率変数Xは、q=1pとおくと、nが十分大きいとき近似的に正規分布N(np , npq)に従うことが知られている。

したがって、Xを標準化した確率変数

Z=Xnpnpq

の分布は、標準正規分布N(1 , 0)に近いものとなる。

二項分布の正規分布による近似

二項分布B(n , p)に従う確率変数Xを標準化して

Z=Xnpnpq     ただし、q=1p

とおくと、nが十分大きいとき、Zは近似的に標準正規分布N(1 , 0)に従う。

  • 問題例
    • 問題

1枚の硬貨を800回投げるとき、表が出る回数が380回以下である確率を求めよ。

    • 解答

表が出る回数をXとする。Xは二項分布B(800 , 12)に従う。

Xを標準化すると

Z=X800×12800×12×12=X400102

800は十分に大きいので、Zは近似的に標準正規分布N(1 , 0)に従うから、

P(X380)=P(Z380400102)=P(Z2)=P(Z1.41)=P(Z1.41)=P(Z0)P(0Z1.41)=0.5N(1.41)=0.50.4207=0.0793

標本調査

標本の抽出

統計調査には、対象となる集団のすべてを調べる全数調査と、対象となる集団の一部を調べる標本調査がある。

標本調査の場合に、調査の対象になるものの全体を母集団といい、調査のために母集団から取り出されたものを標本といい、母集団から標本を取り出すことを標本の抽出という。また、母集団に含まれるものの個数を母集団の大きさといい、標本全体が含むもの個数を標本の大きさという。

標本調査は、その標本の性質から母集団の性質を推定するのが目的であるから、標本が母集団の性質をよく表すように選ばなければならない。例えば200人から30人を選ぶとき、かたよりがないように、くじ引きなどを用いて選ぶことがある。

このように、かたよりなく取り出すことを無作為抽出(むさくいちゅうしゅつ、英:random sampling)といい、そのように抽出された標本を無作為標本という。

標本を抽出するとき、一度抽出した標本をもとに戻してから次の標本を抽出する方法を復元抽出という。これに対して、抽出した標本をもとに戻さずに次の標本を抽出する方法を非復元抽出という。

無作為抽出を行うには、乱数さい乱数表がよく使われる。最近はコンピューターを使って乱数に近い数の列(擬似乱数)をつくらせ、それを使うのが普通になっている。

標本平均の分布

大きさNの母集団において変数Xのとる値がa1,a2,,alであるとし、それぞれの値をとる度数をf1,f2,,flとする。よって

f1+f2++fl=N

である。この母集団から1つの標本を無作為に抽出したとき、その標本の変量Xの値がakである確率がfkNであり、その確率分布は下の表のようになる。

変量X a1 a2 al
確率P f1N f2N flN 1


母集団における確率分布を母集団分布という。また、その平均、分散、標準偏差を母平均母分散母標準偏差といい、それぞれm , σ2 , σで表す。

m=1Nk=1lakfk
σ2=1Nk=1l(akm)2fk


母集団から復元抽出で無作為に抽出した大きさnの標本の値をx1,x2,,xnとすれば、これはそれぞれ母集団分布に従う互いに独立な確率変数X1,X2,,Xnの1つの値となる。

確率変数Xの平均と分散をE(X) , V(X)で表すと、母集団分布の平均と分散は、それぞれm , σ2であるから、

E(X1)=E(X2)==E(Xn)=m
V(X1)=V(X2)==V(Xn)=σ2


母集団から復元抽出で無作為に抽出した大きさnの標本の平均は、次の式で与えられる確率変数の1つの値となる。

X=1n(X1+X2++Xn)

この式で与えられる確率変数X標本平均(ひょうほんへいきん)という。

標本平均Xの平均E(X)、分散V(X)、標準偏差σ(X)は次のようになる。

E(X)=E(1n(X1+X2++Xn))
=1n(E(X1)+E(X2)++E(Xn))=1n×nm=m
V(X)=V(1n(X1+X2++Xn))
=1n2(V(X1)+V(X2)++V(Xn))=1n2×nσ2=σ2n
σ(X)=V(X)=σ2n=σn
標本平均の分布

母平均m、母分散σ2、母標準偏差σの母集団から復元抽出で無作為に大きさnの標本を取り出すとき、標本平均Xの平均E(X)、分散V(X)、標準偏差σ(X)

E(X)=m , V(X)=σ2n , σ(X)=σn

標本平均の分布と正規分布

一般に、標本平均の分布Xの分布について、次のことが成り立つ。

標本平均の分布

母平均m、母標準偏差σの母集団から無作為に抽出した大きさnの標本平均Xの分布は、nが十分大きければ、正規分布N(m , σ2n)に近い。

したがってZ=Xmσnとおくと、Zは近似的に標準正規分布N(1 , 0)に従う。

また、母集団分布が正規分布N(m , σ2)の場合には、nの値が何であっても、標本平均Xの分布は、正規分布N(m , σ2n)となる。

  • 問題例
    • 問題

母平均120、母標準偏差16である母集団から、大きさ100の標本を無作為に抽出するとき、標本平均Xについての確率P(X118)を求めよ。

    • 解答

Xの平均は

E(X)=m=120

Xの標準偏差は

σ(X)=σn=16100=1.6

100は十分に大きいので、Xは近似的に正規分布N(120 , 1.62)に従う。

したがって、Z=X1201.6とおくと、Zは近似的に標準正規分布N(1 , 0)に従う。

P(X118)=P(Z1181201.6)=P(Z1.25)=P(Z1.25)=P(Z0)P(0Z1.25)=0.5N(1.25)=0.50.3944=0.1056

推定

母平均の推定

ある母集団において、母平均mが未知のとき、これを標本調査を通じて推測することを母平均の推定(すいてい)という。

母平均m、母標準偏差σの母集団から、大きさnの標本を無作為抽出し、その標本平均をXとする。nが大きいとき、Xの分布は正規分布N(m , σ2n)に近づくから、これを標準化した

Z=Xmσn

は標準正規分布N(1 , 0)に近づく。

正規分布表を用いると、

P(|Z|k)=2P(0Zk)=2N(k)=0.95

を満たすkの値は1.96である。

したがって

P(|Xm|1.96×σn)=0.95

となり、括弧内の式を変形すると、次のようになる。

P(X1.96×σnmX+1.96×σn)=0.95  ……(1)

このとき、区間X1.96×σnmX+1.96×σn信頼度95%の信頼区間という。

また、P(|Z|k)=0.99を満たすkの値は2.58であることから、信頼度99%の信頼区間は(1)で、1.59を2.58に変えればよい。

母平均の推定

母標準偏差σの母集団からとった大きさnの標本の標本平均がXであるとき、母平均mの信頼区間は

信頼度95%では   X1.96×σnmX+1.96×σn

信頼度99%では   X2.58×σnmX+2.58×σn

母標準偏差σの値が既知でないときは、σの代わりに標本から得られた標準偏差sを用いる。ただし、このときは、標本の大きさnは十分大きくなければならない。


  • 問題例
    • 問題

ある県の高校1年の男子1600人を無作為に抽出して身長を調べたところ、平均身長が164cm、標準偏差が6cmであった。この県の高校1年男子の平均身長mを、信頼度95%で推定せよ。

    • 解答

標本平均はx=164、標準偏差はs=6であるが、標本の大きさはn=1600で十分に大きい。

よって、標本の標準偏差sと母集団の標準偏差σが等しいと考えると、この県の高校1年男子の平均身長mについて、信頼度95%の信頼区間は

1641.96×61600m164+1.96×61600

よって1640.3m164+0.3より

163.7m164.3

母比率の推定

母集団において、ある性質Aをもうものの全体に対する割合pを母比率という。

母集団から復元抽出で大きさnの標本を無作為抽出し、その中で性質Aをもつものの個数をXとすると、Xは二項分布B(n , p)に従う。

よって、Xの平均mと標準偏差σ

m=np , σ=npq  ただし、q=1p

となる。

標本の大きさnが十分大きいとき、この分布は正規分布N(m , σ)に近いので、母平均の推定の考えを用いると

P(X1.96np(1p)npX+1.96np(1p))=0.95

となり、括弧内の式を変形すると、

P(Xn1.96p(1p)npXn+1.96p(1p)n)=0.95

となる。


実際に、母比率を推定するには、次のようにする。

母集団から取り出した標本において、性質Aをもつものの個数Xの比率p=Xnを求める。nが十分に大きいとき、pはpに近いと見なしてよいから、Xnとpをpでおきかえた次の区間を信頼度95%の信頼区間とする。

p1.96p(1p)npp+1.96p(1p)n
母比率の推定

大きさnの標本の標本比率がpのとき、母比率pの信頼区間は

信頼度95%では   p1.96p(1p)npp+1.96p(1p)n

信頼度99%では   p2.58p(1p)npp+2.58p(1p)n

  • 問題例
    • 問題

ある都市の市長選挙のとき、世論調査を行った。有権者の標本として250人を無作為抽出してみたところ、110人がA候補の支持者であった。有権者全体におけるA候補の支持率を信頼度95%で推定せよ。

    • 解答

標本の大きさはn=250で十分大きい。この標本におけるA候補の支持率をpとすれば

p=110250=0.44

したがって、信頼度95%の信頼区間は

0.441.960.44×0.56250p0.44+1.960.44×0.56250

よって0.440.062p0.44+0.062より

0.378p0.502

よって、有権者全体におけるA候補の支持率は37.8%から50.2%の間である。