統計學(2)

2024 年 4 月 16 日
文章摘要
FakeGPT
加載中...
此內容由人工不智慧生成。

這篇文章講統計學中的一些常用指標。

以數值指標來描述資料

  • 連續型變數的四個特性:
    1. 集中趨勢(Central Tendency)
    2. 分散或變異趨勢(Dispersion or Variability)
    3. 偏態(Skewness)
    4. 峰度(Kurtosis)

集中趨勢

  • 資料有往中央位置靠近的趨勢。
  • 指標:
    • 平均數(mean)
    • 中位數(median)
    • 眾數(mode)

平均數

  • 群體平均數:μ=ΣXiN\mu = \frac{\Sigma X_i}{N},N 為群體大小
  • 樣本平均數:X=ΣXin\overline{X} = \frac{\Sigma X_i}{n},n 為樣本大小

中位數

  • 群體中位數:η\eta
  • 樣本中位數:x~\tilde{x}

眾數

  • 在一組資料中,出現次數最多的數值

指標使用指南

  • 平均數對離群值非常敏感,而中位數和眾數不敏感。因此當資料中有離群值的時候,使用中位數或眾數,否則,使用平均數。

分散或變異趨勢

  • 一組資料差異大小或數值變化的一個量數。
  • 指標:
    • 全距(Range)
    • 變異數(Variance)
    • 標準差(Standard Deviation)
    • 變異係數(CV)

全距

  • R = Max - Min
  • 缺點:當一組數據中有離群值出現或資料筆數太多(n > 10)時,全距並非一個很好的衡量資料分散程度的量數。

變異數和標準差

  • 群體變異數:σ2=Σi=1N(Xiμ)2N\sigma ^2 = \frac{\Sigma_{i = 1}^N (X_i - \mu)^2}{N}
  • 樣本變異數:S2=Σi=1n(Xix)2(n1)=Σi=1nXi2(ΣXi)2n(n1)S^2 = \frac{\Sigma_{i = 1}^n (X_i - \overline{x})^2}{(n - 1)} = \frac{\Sigma_{i = 1}^n X_i^2 - \frac{(\Sigma X_i)^2}{n}}{(n - 1)}
  • 群體標準差:σ=σ2\sigma = \sqrt{\sigma^2}
    • 估計值:Rpopulation4\frac{R_{population}}{4}
  • 樣本標準差:S=S2S = \sqrt{S^2}
    • 估計值:Rsample4\frac{R_{sample}}{4}

變異係數

  • 標準差和變異數是衡量一組數據絕對變異(absolute vatiation)的指標,即此指標之大小與數據的單位尺度有關係,因此,若要比較數組單位尺度不同的數據時,需使用一個衡量相對變異的指標,即變異係數。
  • 群體相對變異:CV=σμ×100%CV = \frac{\sigma}{\mu} \times 100\%
  • 樣本相對變異:CV=Sx×100%CV = \frac{S}{\overline{x}} \times 100\%

偏態

說明一組數據分佈的形狀。
單峰分佈的三種型態:

  • 對稱:平均數 = 中位數 對稱
  • 左偏:平均數 << 中位數 左偏
  • 右偏:平均數 >> 中位數 右偏

偏態係數

樣本偏態係數:
g1=Σi=1n(XiX)3n1S3g_1 = \frac{\frac{\Sigma_{i = 1}^n (X_i - \overline{X})^3}{n - 1}}{S^3}

  • g1=0g_1 = 0:對稱
  • g1>0g_1 > 0:右偏
  • g1<0g_1 < 0:左偏

峰度

峰度係數

樣本峰度係數:
g2=Σi=1n(XiX)4n1S43g_2 = \frac{\frac{\Sigma_{i = 1}^n (X_i - \overline{X})^4}{n - 1}}{S^4} - 3

  • g2=0g_2 = 0:常態峰
  • g2>0g_2 > 0:高狹峰
  • g2<0g_2 < 0:低闊峰

非中趨勢指標

  • 百分位數
  • 四分位數(Q1Q3Q_1 - Q_3, 25% - 75%)
    • Q1=0.25(n+1)Q_1 = 0.25(n + 1)
    • Q3=0.75(n+1)Q_3 = 0.75(n + 1)
  • 中四分位距:
    • IQR=Q3Q1IQR = Q_3 - Q_1
    • 避免極端值或離群值的干擾

數據之應用

經驗法則

如果資料呈常態分佈,則有:

  • 68.26% 的數據在 μ±σ\mu \pm \sigma 範圍內
  • 95.44% 的數據在 μ±2σ\mu \pm 2\sigma 範圍內
  • 99.73% 的數據在 μ±3σ\mu \pm 3\sigma 範圍內

離群值:當值沒有落在 μ±3σ\mu \pm 3\sigma 範圍內,即為離群值。

柴比雪夫定理

不論連續型數據呈現什麼樣的分布狀態,至少(11K2)×100%(1 - \frac{1}{K^2}) \times 100\% 的數據會落在 μ±Kσ\mu \pm K\sigma 範圍內。

  • 至少有 0% 的數據在 μ±1σ\mu \pm 1\sigma 範圍內。(令 K=1)
  • 至少有 55.56% 的數據在 μ±1.5σ\mu \pm 1.5\sigma 範圍內。(令 K=1.5)
  • 至少有 75% 的數據在 μ±2σ\mu \pm 2\sigma 範圍內。(令 K=2)
  • 至少有 88.88% 的數據在 μ±3σ\mu \pm 3\sigma 範圍內。(令 K=3)
  • 至少有 93.75% 的數據在 μ±4σ\mu \pm 4\sigma 範圍內。(令 K=4)
  • 至少有 96% 的數據在 μ±5σ\mu \pm 5\sigma 範圍內。(令 K=5)

盒鬚圖

同時展示出集中趨勢、離中趨勢、偏態、最小值、最大值等。

盒鬚圖

  • 超過盒鬚圖之盒 1.5(Q3Q1)1.5(Q_3 - Q_1)3(Q3Q1)3(Q_3 - Q_1) 距離內之值可當作離群值
  • 超過盒鬚圖之盒 3(Q3Q1)3(Q_3 - Q_1) 距離外之值可當作非常可能之離群值

Z分數

Z-score 是一個標準化數值,代表原始數據(XiX_i)偏離其平均數(μ\mu)Z 個標準差。

  • Zi=xiμσZ_i = \frac{x_i - \mu}{\sigma}

  • Zi>0Z_i > 0:原始數據 > 平均數

  • Zi<0Z_i < 0:原始數據 < 平均數

  • Zi=0Z_i = 0:原始數據 = 平均數

加權平均

  • 群體加權平均:μW=ΣWiXiΣWi,i=1,,N\mu_W = \frac{\Sigma_{W_i}X_i}{\Sigma_{W_i}}, i = 1, \dots ,N
  • 樣本加權平均:XW=ΣWiXiΣWi,i=1,,n\overline{X_W}= \frac{\Sigma_{W_i}X_i}{\Sigma_{W_i}}, i = 1, \dots ,n
統計學(2)
https://blog.kynix.tw/posts/1731069925249/
作者
Adrian Chen
建檔時間
2024 年 4 月 16 日
協議
BY-NC-SA 4.0
姓名標示-非商業性-相同方式分享 4.0 國際