統計 - 描述性統計
描述性統計使我們能夠在不詳細檢視所有資料的情況下深入瞭解資料。
描述資料需要關注的關鍵特徵
快速瞭解資料分佈情況是統計方法中的重要一步。
我們計算關於資料的關鍵數值,這些數值告訴我們資料的分佈情況。我們還繪製圖形,以視覺化的方式展示資料分佈。
資料的關鍵特徵
- 資料的中心在哪裡?(位置)
- 資料有多少變異性?(尺度)
- 資料的形狀是怎樣的?(形狀)
這些可以透過彙總統計量(數值)來描述。
資料的中心
資料的中心是指大多數值集中的位置。
不同型別的平均值,如均值、中位數和眾數,是中心的度量。
注意:中心的度量也稱為位置引數,因為它們告訴我們資料在數軸上的“位置”。
資料的變異性
資料的變異性是指資料圍繞中心分散的程度。
標準差、極差和四分位數等統計量是變異性的度量。
注意:變異性的度量也稱為尺度引數。
資料的形狀
資料的形狀可以指資料在中心兩側的聚集方式。
偏度等統計量描述了中心右側或左側哪個更大。偏度是形狀引數的一種。
頻率表
一種典型的展示資料的方式是使用頻率表。
頻率表將資料計數並排序到一個表中。通常,資料需要被排序成區間。
頻率表通常是製作圖表以視覺化呈現資料的基礎。
資料視覺化
不同型別的圖表用於不同的資料型別。例如:
- 餅圖用於定性資料
- 直方圖用於定量資料
- 散點圖用於雙變數資料
圖表通常與數值彙總統計量密切相關。
例如,箱線圖顯示四分位數的位置。
四分位數還告訴我們最小值和最大值、極差、四分位距和中位數的位置。