統計 - 估計
點估計是 總體引數 最可能的值。
置信區間表達了對估計的總體引數的不確定性。
點估計
點估計是從 樣本 計算得出的。
點估計取決於資料型別
- 分類資料:出現次數除以樣本大小。
- 數值資料:樣本的 均值(平均值)。
一個例子可以是
丹麥人口平均身高的點估計為 180 釐米。
估計總是有 不確定性 的。這種不確定性可以用一個 置信區間 來表達。
置信區間
置信區間由一個 下界 和一個 上界 定義。
這為我們提供了一個真實引數可能在的數值範圍。
例如,
丹麥人口的平均身高在 170 釐米到 190 釐米之間。
這裡,170 釐米是下界,190 釐米是上界。
置信區間的下界和上界基於 置信水平。
置信水平
置信水平可以用百分比或小數表示,最常用的有
- 90% (0.90)
- 95% (0.95)
- 99% (0.99)
置信水平越高,區間越大。
例如,丹麥人口平均身高的置信區間可能是
90% 置信水平:在 175 釐米到 185 釐米之間。
95% 置信水平:在 170 釐米到 190 釐米之間。
99% 置信水平:在 160 釐米到 200 釐米之間。
我們將此置信水平與機率分佈一起使用,以確定 誤差幅度 有多大。
誤差幅度
誤差幅度是點估計與下界和上界之間的距離。
誤差幅度基於置信水平和我們從樣本中獲得的資料。
例如,如果丹麥人口平均身高的點估計是 180 釐米
5 釐米的誤差幅度:在 175 釐米到 185 釐米之間。
10 釐米的誤差幅度:在 170 釐米到 190 釐米之間。
20 釐米的誤差幅度:在 160 釐米到 200 釐米之間。
計算置信區間的步驟
以下步驟用於計算置信區間
- 檢查條件
- 找到點估計
- 確定置信水平
- 計算誤差範圍
- 計算置信區間
一個 條件 是樣本是從總體中 隨機選擇 的。
其他條件取決於你要計算置信區間的引數型別。
通常估計的引數有
- 比例(用於定性資料)
- 均值(用於數值資料)
你將在接下來的頁面中學習這兩種型別的步驟。