R 資料集
資料集
資料集是資料的集合,通常以表格形式呈現。
R 中有一個流行且內建的資料集,名為“mtcars”(Motor Trend Car Road Tests),它來自 1974 年的 Motor Trend 美國雜誌。
在下面的示例(以及接下來的章節)中,我們將使用 mtcars
資料集進行統計分析。
示例
# 列印 mtcars 資料集
mtcars
結果
mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4 Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3 Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3 Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3 Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4 Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4 Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1 Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2 AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2 Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2 Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2 Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6 Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
資料集資訊
您可以使用問號(?
)來獲取關於 mtcars
資料集的資訊。
示例
# 使用問號獲取資料集資訊
?mtcars
結果
mtcars {datasets} | R 文件 |
Motor Trend 汽車公路測試
描述
資料摘自 1974 年的Motor Trend 美國雜誌,包含 32 輛汽車(1973-74 年款)的燃油消耗以及汽車設計和效能的 10 個方面。
用法
mtcars
格式
一個包含 32 個觀測值和 11 個(數值型)變數的資料框。
[, 1] | mpg | 每加侖英里數(美製) |
[, 2] | cyl | 氣缸數 |
[, 3] | disp | 排量(立方英寸) |
[, 4] | hp | 總馬力 |
[, 5] | drat | 後橋傳動比 |
[, 6] | wt | 重量(千磅) |
[, 7] | qsec | 四分之一英里加速時間 |
[, 8] | vs | 發動機(0 = V 型,1 = 直列型) |
[, 9] | am | 變速箱(0 = 自動,1 = 手動) |
[,10] | gear | 前進擋數量 |
[,11] | carb | 化油器數量 |
注意
Henderson 和 Velleman (1981) 在第 1 表的腳註中評論道:“Hocking [原始錄入者] 將馬自達的轉子發動機非關鍵地編碼為直列六缸發動機,將保時捷的水平對置發動機編碼為 V 型發動機,並將柴油梅賽德斯 240D 包含在內,以使其能夠與之前的分析進行直接比較。”
Source(來源)
Henderson 和 Velleman (1981),《互動式構建多元迴歸模型》。Biometrics,37,391-411。
示例
require(graphics) pairs(mtcars, main = "mtcars data", gap = 1/4) coplot(mpg ~ disp | as.factor(cyl), data = mtcars, panel = panel.smooth, rows = 1) ## possibly more meaningful, e.g., for summary() or bivariate plots: mtcars2 <- within(mtcars, { vs <- factor(vs, labels = c("V", "S")) am <- factor(am, labels = c("automatic", "manual")) cyl <- ordered(cyl) gear <- ordered(gear) carb <- ordered(carb) }) summary(mtcars2)
獲取資訊
使用 dim()
函式查詢資料集的維度,使用 names()
函式檢視變數名稱。
示例
Data_Cars <- mtcars # 建立一個 mtcars 資料集的變數,以便更好地組織
# 使用 dim() 查詢資料集的維度
dim(Data_Cars)
# 使用 names() 查詢資料集中變數的名稱
names(Data_Cars)
結果
[1] 32 11 [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" [11] "carb"
使用 rownames()
函式獲取第一列中每一行的名稱,即每輛汽車的名稱。
示例
Data_Cars <- mtcars
rownames(Data_Cars)
結果
[1] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710" [4] "Hornet 4 Drive" "Hornet Sportabout" "Valiant" [7] "Duster 360" "Merc 240D" "Merc 230" [10] "Merc 280" "Merc 280C" "Merc 450SE" [13] "Merc 450SL" "Merc 450SLC" "Cadillac Fleetwood" [16] "Lincoln Continental" "Chrysler Imperial" "Fiat 128" [19] "Honda Civic" "Toyota Corolla" "Toyota Corona" [22] "Dodge Challenger" "AMC Javelin" "Camaro Z28" [25] "Pontiac Firebird" "Fiat X1-9" "Porsche 914-2" [28] "Lotus Europa" "Ford Pantera L" "Ferrari Dino" [31] "Maserati Bora" "Volvo 142E"
從上面的示例中,我們發現該資料集有 **32** 個觀測值(如 Mazda RX4、Mazda RX4 Wag、Datsun 710 等)和 **11** 個變數(如 mpg、cyl、disp 等)。
變數定義為可以測量或計數的事物。
以下是 mtcars 資料集中變數的簡要說明
變數名 | 描述 |
---|---|
mpg | 每加侖英里數(美製) |
cyl | 氣缸數 |
disp | 排量 |
hp | 總馬力 |
drat | 後橋傳動比 |
wt | 重量(千磅) |
qsec | 四分之一英里加速時間 |
vs | 發動機(0 = V 型,1 = 直列型) |
am | 變速箱(0 = 自動,1 = 手動) |
gear | 前進擋數量 |
carb | 化油器數量 |
列印變數值
如果您想列印屬於一個變數的所有值,請使用 $
符號和變數名(例如 cyl
(氣缸數))來訪問資料框。
示例
Data_Cars <- mtcars
Data_Cars$cyl
結果
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
對變數值進行排序
要對值進行排序,請使用 sort()
函式。
示例
Data_Cars <- mtcars
sort(Data_Cars$cyl)
結果
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8
從上面的示例中,我們看到大多數汽車有 4 個和 8 個氣缸。
分析資料
現在我們已經對資料集有了一些瞭解,可以開始用一些統計數字來分析它了。
例如,我們可以使用 summary()
函式來獲取資料的統計摘要。
如果您不理解輸出的數字,請不要擔心。您很快就會掌握它們。
summary()
函式為每個變數返回六個統計數字。
- Min
- 第一四分位數(百分位數)
- 中位數
- 均值
- 第三四分位數(百分位數)
- Max
我們將在接下來的章節中介紹所有這些以及其他統計數字。