選單
×
   ❮   
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

統計學 - 比例的假設檢驗


總體比例是指屬於特定類別的總體份額。

假設檢驗用於檢驗關於總體比例大小的斷言。


比例的假設檢驗

假設檢驗使用以下步驟

  1. 檢查條件
  2. 定義斷言
  3. 確定顯著性水平
  4. 計算檢驗統計量
  5. 結論

例如

  • 總體:諾貝爾獎得主
  • 類別:出生在美國

我們要檢驗的斷言是

"超過 20% 的諾貝爾獎得主出生在美國"

透過隨機抽取 40 名諾貝爾獎得主的樣本,我們可以發現

樣本中 40 名諾貝爾獎得主中有 10 名出生在美國

樣本比例為:\(\displaystyle \frac{10}{40} = 0.25\),即 25%。

我們根據以下步驟,使用此樣本資料檢驗斷言。


1. 檢查條件

計算比例置信區間的條件是

  • 樣本是隨機選擇
  • 只有兩個選項
    • 屬於該類別
    • 不屬於該類別
  • 樣本至少需要
    • 5 個成員屬於該類別
    • 5 個成員不屬於該類別

在我們的例子中,我們隨機選擇了 10 名出生在美國的人。

其餘的沒有出生在美國,所以有 30 人屬於另一個類別。

在這種情況下,條件得到滿足。

注意:在沒有每個類別都達到 5 個成員的情況下進行假設檢驗是可能的。但需要進行特殊調整。


2. 定義斷言

我們需要根據我們正在檢驗的斷言來定義一個零假設 (\(H_{0}\)) 和一個備擇假設 (\(H_{1}\))。

斷言是

"超過 20% 的諾貝爾獎得主出生在美國"

在這種情況下,引數是出生在美國的諾貝爾獎得主的比例 (\(p\))。

零假設和備擇假設是

零假設:20% 的諾貝爾獎得主出生在美國。

備擇假設超過 20% 的諾貝爾獎得主出生在美國。

可以用符號表示為

\(H_{0}\):\(p = 0.20 \)

\(H_{1}\):\(p > 0.20 \)

這是一個“右尾”檢驗,因為備擇假設聲稱比例大於零假設中的比例。

如果資料支援備擇假設,我們拒絕零假設並接受備擇假設。



3. 確定顯著性水平

顯著性水平 (\(\alpha\)) 是我們在假設檢驗中拒絕零假設時接受的不確定性

顯著性水平是意外做出錯誤結論的百分比機率。

典型的顯著性水平是

  • \(\alpha = 0.1\) (10%)
  • \(\alpha = 0.05\) (5%)
  • \(\alpha = 0.01\) (1%)

較低的顯著性水平意味著資料中的證據需要更強才能拒絕零假設。

沒有“正確”的顯著性水平——它只說明瞭結論的不確定性。

注意:5% 的顯著性水平意味著當我們拒絕一個零假設時

我們預計在 100 次中會拒絕 5 次真實的零假設。


4. 計算檢驗統計量

檢驗統計量用於決定假設檢驗的結果。

檢驗統計量是根據樣本計算出的標準化值。

總體比例的檢驗統計量 (TS) 公式是

\(\displaystyle \frac{\hat{p} - p}{\sqrt{p(1-p)}} \cdot \sqrt{n} \)

\(\hat{p}-p\) 是樣本比例 (\(\hat{p}\)) 與聲稱的總體比例 (\(p\)) 之間的差值

\(n\) 是樣本大小。

在我們的例子中

聲稱的 (\(H_{0}\)) 總體比例 (\(p\)) 是 \( 0.20 \)

樣本比例 (\(\hat{p}\)) 是 40 分之 10,即:\(\displaystyle \frac{10}{40} = 0.25\)

樣本大小 (\(n\)) 是 \(40\)

所以檢驗統計量 (TS) 是

\(\displaystyle \frac{0.25-0.20}{\sqrt{0.2(1-0.2)}} \cdot \sqrt{40} = \frac{0.05}{\sqrt{0.2(0.8)}} \cdot \sqrt{40} = \frac{0.05}{\sqrt{0.16}} \cdot \sqrt{40} \approx \frac{0.05}{0.4} \cdot 6.325 = \underline{0.791}\)

您也可以使用程式語言函式計算檢驗統計量

示例

使用 Python,利用 scipy 和 math 庫計算比例的檢驗統計量。

import scipy.stats as stats
import math

# 指定出現次數 (x)、樣本大小 (n) 和零假設中聲稱的比例 (p)
x = 10
n = 40
p = 0.2

# 計算樣本比例
p_hat = x/n

# 計算並列印檢驗統計量
print((p_hat-p)/(math.sqrt((p*(1-p))/(n))))
自己動手試一試 »

示例

使用 R,利用內建的 prop.test() 函式計算比例的檢驗統計量。

# 指定樣本出現次數 (x)、樣本大小 (n) 和零假設聲稱 (p)
x <- 10
n <- 40
p <- 0.20

# 計算樣本比例
p_hat = x/n

# 計算並列印檢驗統計量
(p_hat-p)/(sqrt((p*(1-p))/(n)))
自己動手試一試 »

5. 做出結論

做出假設檢驗結論主要有兩種方法

  • 臨界值方法將檢驗統計量與顯著性水平的臨界值進行比較。
  • P 值方法將檢驗統計量的 P 值與顯著性水平進行比較。

注意:這兩種方法只是在呈現結論的方式上有所不同。

臨界值方法

對於臨界值方法,我們需要找到顯著性水平 (\(\alpha\)) 的臨界值 (CV)。

對於總體比例檢驗,臨界值 (CV) 是來自標準正態分佈Z 值

此臨界 Z 值 (CV) 定義了檢驗的拒絕域

拒絕域是標準正態分佈尾部的機率區域。

因為斷言是總體比例大於20%,所以拒絕域在右尾

Standard Normal Distribution with a right tail area (rejection region) denoted as the greek symbol alpha

拒絕域的大小由顯著性水平 (\(\alpha\)) 決定。

選擇 0.05 或 5% 的顯著性水平 (\(\alpha\)),我們可以從 Z 表或使用程式語言函式找到臨界 Z 值

注意:這些函式找到左側區域的 Z 值。

要找到右尾的 Z 值,我們需要使用函式計算尾部左側區域 (1-0.05 = 0.95)。

示例

使用 Python,利用 Scipy Stats 庫的 norm.ppf() 函式找到右尾 \(\alpha\) = 0.05 的 Z 值。

import scipy.stats as stats
print(stats.norm.ppf(1-0.05))
自己動手試一試 »

示例

使用 R,利用內建的 qnorm() 函式找到右尾 \(\alpha\) = 0.05 的 Z 值。

qnorm(1-0.05)
自己動手試一試 »

使用任一方法,我們都可以發現臨界 Z 值約為 \(\approx \underline{1.6449}\)

對於右尾檢驗,我們需要檢查檢驗統計量 (TS) 是否大於臨界值 (CV)。

如果檢驗統計量大於臨界值,則檢驗統計量在拒絕域內。

當檢驗統計量在拒絕域內時,我們拒絕零假設 (\(H_{0}\))。

此處,檢驗統計量 (TS) 約為 \(\approx \underline{0.791}\),臨界值約為 \(\approx \underline{1.6449}\)

下圖顯示了此檢驗的圖示

Standard Normal Distribution with a right tail area (rejection region) equal to 0.05, a critical value of 1.6449, and a test statistic of 0.791

由於檢驗統計量小於臨界值,我們拒絕零假設。

這意味著樣本資料不支援備擇假設。

我們可以總結結論如下

樣本資料在 5% 顯著性水平支援“超過 20% 的諾貝爾獎得主出生在美國”這一斷言。

P 值方法

對於 P 值方法,我們需要找到檢驗統計量 (TS) 的 P 值

如果 P 值小於顯著性水平 (\(\alpha\)),我們拒絕零假設 (\(H_{0}\))。

檢驗統計量被發現約為 \( \approx \underline{0.791} \)

對於總體比例檢驗,檢驗統計量是來自標準正態分佈的 Z 值。

由於這是一個右尾檢驗,我們需要找到 Z 值大於 0.791 的 P 值。

我們可以使用 Z 表或使用程式語言函式找到 P 值

注意:這些函式找到 Z 值左側的 P 值(區域)。

要找到右尾的 P 值,我們需要從總面積中減去左側面積:1 - 函式的輸出。

示例

使用 Python,利用 Scipy Stats 庫的 norm.cdf() 函式找到 Z 值大於 0.791 的 P 值

import scipy.stats as stats
print(1-stats.norm.cdf(0.791))
自己動手試一試 »

示例

使用 R,利用內建的 pnorm() 函式找到 Z 值大於 0.791 的 P 值

1-pnorm(0.791)
自己動手試一試 »

使用任一方法,我們都可以發現 P 值約為 \(\approx \underline{0.2145}\)

這告訴我們,顯著性水平 (\(\alpha\)) 需要大於 0.2145,即 21.45%,才能拒絕零假設。

下圖顯示了此檢驗的圖示

此 P 值大於任何常見的顯著性水平(10%、5%、1%)。

因此,零假設在所有這些顯著性水平下都被保留

我們可以總結結論如下

樣本資料在 10%、5% 或 1% 顯著性水平支援“超過 20% 的諾貝爾獎得主出生在美國”這一斷言。

注意:真實總體比例可能仍然大於 20%。

但該樣本沒有足夠強的證據支援這一點。


使用程式設計計算假設檢驗的 P 值

許多程式語言可以計算 P 值來決定假設檢驗的結果。

對於大型資料集,使用軟體和程式設計計算統計量更為常見,因為手動計算會變得困難。

此處計算的 P 值將告訴我們零假設可以被拒絕的最低可能顯著性水平

示例

使用 Python,利用 scipy 和 math 庫計算比例右尾假設檢驗的 P 值。

此處,樣本大小為 40,發生次數為 10,檢驗的比例大於 0.20。

import scipy.stats as stats
import math

# 指定出現次數 (x)、樣本大小 (n) 和零假設中聲稱的比例 (p)
x = 10
n = 40
p = 0.2

# 計算樣本比例
p_hat = x/n

# 計算檢驗統計量
test_stat = (p_hat-p)/(math.sqrt((p*(1-p))/(n)))

# 輸出檢驗統計量的 p 值(右尾檢驗)
print(1-stats.norm.cdf(test_stat))
自己動手試一試 »

示例

使用 R,利用內建的 prop.test() 函式找到比例右尾假設檢驗的 P 值。

此處,樣本大小為 40,發生次數為 10,檢驗的比例大於 0.20。

# 指定樣本出現次數 (x)、樣本大小 (n) 和零假設聲稱 (p)
x <- 10
n <- 40
p <- 0.20

# 在 0.05 顯著性水平下,右尾比例檢驗的 P 值
prop.test(x, n, p, alternative = c("greater"), conf.level = 0.95, correct = FALSE)$p.value
自己動手試一試 »

注意:R 程式碼中的 conf.level 與顯著性水平相反。

此處,顯著性水平為 0.05,即 5%,因此 conf.level 為 1-0.05 = 0.95,即 95%。


左尾和雙尾檢驗

這是一個右尾檢驗的例子,其中備擇假設聲稱引數大於零假設的斷言。

您可以在此處檢視其他型別的等效分步指南


×

聯絡銷售

如果您想將 W3Schools 服務用於教育機構、團隊或企業,請傳送電子郵件給我們
sales@w3schools.com

報告錯誤

如果您想報告錯誤,或想提出建議,請傳送電子郵件給我們
help@w3schools.com

W3Schools 經過最佳化,旨在方便學習和培訓。示例可能經過簡化,以提高閱讀和學習體驗。教程、參考資料和示例會不斷審查,以避免錯誤,但我們無法保證所有內容的完全正確性。使用 W3Schools 即表示您已閱讀並接受我們的使用條款Cookie 和隱私政策

版權所有 1999-2024 Refsnes Data。保留所有權利。W3Schools 由 W3.CSS 提供支援