這篇文章介紹抽樣分佈。
複習:由群體觀測值計算而得之表徵值成為參數(parameter) (比如 μ \mu μ 和 σ \sigma σ )。由樣本觀測值計算而得之表徵稱為統計量(statistic) (比如 X ‾ \overline{X} X 和 s s s )。
定義:當從給定群體中反覆抽取 (有放回抽取)大小為 n 的隨機樣本時,統計量的概率分佈 稱為統計量的抽樣分佈。
以 X ‾ \overline{X} X 之抽樣分佈為例,利用蒙地卡羅模擬法近似抽樣分佈
齊一分佈
齊一分佈的隨機變數群體做隨機抽樣,其 X ‾ \overline{X} X 的抽樣分佈近似於常態分佈。且:
上述常態分佈的平均數約等於其群體的平均數 μ \mu μ 。
當每次抽樣數量 n 越大,變異越小。且形狀越接近常態分佈。
指數分佈
指數分佈的隨機變數群體做隨機抽樣,其 X ‾ \overline{X} X 的抽樣分佈有兩種情況:
當每次抽樣數量 n 比較小,抽樣分佈近似於右偏態分佈。
當每次抽樣數量 n 比較大,抽樣分佈近似於常態分佈。
常態分佈
常態分佈的隨機變數群體做隨機抽樣,其 X ‾ \overline{X} X 的抽樣分佈近似於常態分佈。與齊一分佈幾乎相同。
X ‾ \overline{X} X 的抽樣分佈
當群體變異數 σ 2 \sigma^2 σ 2 已知
無論群體分佈是不是常態分佈,當 n ≥ 30 n \ge 30 n ≥ 30 時,X ‾ \overline{X} X 的分佈都呈現近似常態分佈。其平均數和變異數是:
μ X ‾ = μ \mu_{\overline{X}} = \mu μ X = μ
σ X ‾ 2 = σ 2 n \sigma^2_{\overline{X}} = \frac{\sigma^2}{n} σ X 2 = n σ 2
中央極限定理(❗️❗️❗️)
就是我們上面剛剛講到的,無論群體分佈是不是常態分佈,當 n ≥ 30 n \ge 30 n ≥ 30 時,X ‾ \overline{X} X 的分佈都呈現近似常態分佈。平均數為 μ X ‾ = μ \mu_{\overline{X}} = \mu μ X = μ ,變異數 σ X ‾ 2 = σ 2 n \sigma^2_{\overline{X}} = \frac{\sigma^2}{n} σ X 2 = n σ 2 。
即:X ‾ ∼ N ( μ , σ 2 / n ) , i f n ≥ 30 \overline{X} \sim N(\mu, \sigma^2/n), if\ n \ge 30 X ∼ N ( μ , σ 2 / n ) , i f n ≥ 30
如果對此做標準化,則有:
z = X ‾ − μ σ / n z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} z = σ / n X − μ
服從 Z 分佈。
注意,如果群體確定呈現常態分佈,則 X ‾ \overline{X} X 永遠呈現常態分佈,不論 n n n 的大小。
當群體變異數 σ 2 \sigma^2 σ 2 未知
如果 X ‾ \overline{X} X 是從具有均值 μ \mu μ 和變異數 σ 2 \sigma^2 σ 2 的常態群體 中提取的大小為 n n n 的隨機樣本的平均值,則樣本統計量:
t = X ‾ − μ s / n t = \frac{\overline{X} - \mu}{s/\sqrt{n}} t = s / n X − μ
則 t 值服從著名的司徒頓 t 分佈(Student-t distribution)。
當樣本數 n n n 越大,t t t 和 z z z 越接近。(當 n ≥ 30 n \ge 30 n ≥ 30 ,t t t 基本等同於 z z z )
自由度:ν = n − 1 \nu = n - 1 ν = n − 1 ,自由度控制 t 分佈的形狀。
由自由度可知,t 分佈實際上是變動的,變動的原因是因為,分母上是 s / n s/\sqrt{n} s / n ,是一個近似。
司徒頓t分佈
P ( t ≥ t α , μ = n − 1 ) = α P(t \ge t_{\alpha, \mu = n - 1}) = \alpha P ( t ≥ t α , μ = n − 1 ) = α ,可以透過這個公式,在 t 值表中直接查到 t 值。
p ^ \hat{p} p ^ 的抽樣分佈
p ^ = x n = 成功次數 總實驗次數 \hat{p} = \frac{x}{n} = \frac{成功次數}{總實驗次數} p ^ = n x = 總實驗次數 成功次數
當 n 足夠大,p ^ ∼ N ( p , p q n ) \hat{p} \sim N(p, \sqrt{\frac{pq}{n}}) p ^ ∼ N ( p , n pq )
例: A production line of light bulbs at a manufacturing company produces 5% defective items. If a random sample of 100 light bulbs is taken, what is the probability that the sample defective rate is less than 4%?
根據題目,p = 0.05 , q = 0.95 , n = 100 p = 0.05, q = 0.95, n = 100 p = 0.05 , q = 0.95 , n = 100 ,則 p ^ ∼ N ( 0.05 , 0.000475 ) \hat{p} \sim N(0.05, \sqrt{0.000475}) p ^ ∼ N ( 0.05 , 0.000475 ) 。求 P ( p ^ < 0.04 ) P(\hat{p} < 0.04) P ( p ^ < 0.04 ) ,答案是 0.3228。
群體為常態分布之其他抽樣分佈— χ 2 \chi^2 χ 2 分佈及 F 分佈
χ 2 \chi^2 χ 2 分佈
在一常態分佈的群體中隨機抽樣 n 次,且 σ \sigma σ 已知,則樣本 S 2 S^2 S 2 之分佈統計量:
χ 2 = ( n − 1 ) S 2 σ 2 \chi^2 = \frac{(n - 1)S^2}{\sigma^2} χ 2 = σ 2 ( n − 1 ) S 2
χ 2 \chi^2 χ 2 服從一個右偏分佈。自由度 ν = n − 1 \nu = n - 1 ν = n − 1 ,自由度越大,右偏越小。
χ 2 \chi^2 χ 2 分佈和 t 分佈的關係:設 Z 爲標準常態變數,χ 2 \chi^2 χ 2 爲自由度爲 ν \nu ν 的卡方變數,則有:
t = Z χ 2 / ν t = \frac{Z}{\sqrt{\chi^2 / \nu}} t = χ 2 / ν Z
F 分佈
兩樣本 S 2 S^2 S 2 之比例(S 1 2 / S 2 2 S_1^2/S_2^2 S 1 2 / S 2 2 )的抽樣分佈。假設兩個常態分佈的群體,σ 1 = σ 2 = σ \sigma_1 = \sigma_2 = \sigma σ 1 = σ 2 = σ ,從各自取獨立樣本。有統計量:
F = s 1 2 s 2 2 = χ 2 / ν 1 χ 2 / ν 2 F = \frac{s_1^2}{s_2^2} = \frac{\chi^2/\nu_1}{\chi^2/\nu_2} F = s 2 2 s 1 2 = χ 2 / ν 2 χ 2 / ν 1
F 機率分佈函數是一個右偏函數。