統計學 - 變異
變異是衡量資料圍繞資料中心分佈範圍的指標。
資料的變異
變異性度量是衡量觀測值(資料點)之間彼此相距多遠的統計量。
有不同的變異性度量。最常用的是
變異性度量與平均值(中心度量)相結合,可以很好地描繪資料的分佈。
注意: 這些變異性度量只能用於數值資料。
範圍
極差是資料中最小值和最大值之間的差。
極差是最簡單的變異性度量。
以下是截至 2020 年所有 934 位諾貝爾獎獲得者的年齡直方圖,顯示了極差
最年輕的獲獎者是 17 歲,最年長的是 97 歲。諾貝爾獎獲得者年齡的極差為 80 歲。
四分位數和百分位數
四分位數和百分位數是將資料中相等數量的值分成幾部分的方法。
四分位數是將資料分成四個相等部分的數值。
百分位數是將資料分成 100 個相等部分的數值。
以下是截至 2020 年所有 934 位諾貝爾獎獲得者的年齡直方圖,顯示了四分位數
四分位數 (Q0,Q1,Q2,Q3,Q4) 是將每個四分之一部分分隔開的數值。
Q0 和 Q1 之間是資料中最低的 25% 的值。Q1 和 Q2 之間是接下來的 25%。依此類推。
- Q0 是資料中的最小值。
- Q2 是中間值(中位數)。
- Q4 是資料中的最大值。
四分位距
四分位距是第一和第三四分位數(Q1 和 Q3)之間的差。
資料的“中間一半”位於第一和第三四分位數之間。
以下是截至 2020 年所有 934 位諾貝爾獎獲得者的年齡直方圖,顯示了四分位距 (IQR)
在此,中間一半的年齡在 51 歲到 69 歲之間。諾貝爾獎獲得者年齡的四分位距為 18 歲。
標準差
標準差是最常用的變異性度量。
標準差 (σ) 衡量“典型”觀測值與資料平均值 (μ) 的距離。
標準差對於許多統計方法都很重要。
以下是截至 2020 年所有 934 位諾貝爾獎獲得者的年齡直方圖,顯示了標準差
注意: 在一個標準差 (σ) 內的值被認為是典型的。
超出三個標準差的值被認為是異常值。