資料科學 - 迴歸表:P 值
迴歸表中的“係數統計”部分

現在,我們要測試線性迴歸函式中的係數是否對因變數(Calorie_Burnage)有顯著影響。
這意味著我們要證明,使用統計檢驗,Average_Pulse 和 Calorie_Burnage 之間存在關係。
係數的統計量有四個組成部分:
- std err 代表標準誤差 (Standard Error)
- t 是係數的“t 值”
- P>|t| 稱為“P 值”
- [0.025 0.975] 代表係數的置信區間
在本模組中,我們將重點理解“P 值”。
P 值
P 值是一個統計數字,用於判斷 Average_Pulse 和 Calorie_Burnage 之間是否存在關係。
我們測試係數的真實值是否為零(無關係)。對此的統計檢驗稱為假設檢驗。
- 低 P 值(< 0.05)表示係數很可能不等於零。
- 高 P 值(> 0.05)表示我們無法得出解釋變數影響因變數的結論(此處:Average_Pulse 是否影響 Calorie_Burnage)。
- 高 P 值也稱為不顯著 P 值。
假設檢驗
假設檢驗是一種統計程式,用於測試您的結果是否有效。
在我們的例子中,我們正在測試 Average_Pulse 和截距的真實係數是否等於零。
假設檢驗有兩個陳述。零假設和備擇假設。
- 零假設可以簡寫為 H0
- 備擇假設可以簡寫為 HA
數學表示式為:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0
符號 ≠ 表示“不等於”
假設檢驗和 P 值
零假設可以被拒絕,也可以不被拒絕。
如果我們拒絕零假設,我們得出結論:Average_Pulse 和 Calorie_Burnage 之間存在關係。P 值用於此結論。
P 值的常見閾值是 0.05。
注意: P 值為 0.05 意味著我們有 5% 的機率錯誤地拒絕零假設。這意味著我們接受 5% 的機率我們可能錯誤地得出了存在關係的結論。
如果 P 值低於 0.05,我們可以拒絕零假設,並得出結論:變數之間存在關係。
然而,Average_Pulse 的 P 值為 0.824。因此,我們無法得出 Average_Pulse 和 Calorie_Burnage 之間存在關係的結論。
這意味著 Average_Pulse 的真實係數為零的可能性為 82.4%。
截距用於更精確地調整迴歸函式的預測能力。因此,解釋截距的 P 值並不常見。