資料科學 - Python DataFrame
使用 Pandas 建立 DataFrame
DataFrame 是資料的結構化表示。
讓我們用虛構數字定義一個包含 3 列和 5 行的 DataFrame。
示例
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
自己動手試一試 »
示例解釋
- 將 Pandas 庫匯入為 pd
- 在名為 d 的變數中定義包含列和行的資料
- 使用 pd.DataFrame() 函式建立 DataFrame
- DataFrame 包含 3 列和 5 行
- 使用 print() 函式列印 DataFrame 輸出
我們在 DataFrame() 前面加上 pd.,以便 Python 知道我們要啟用 Pandas 庫中的 DataFrame() 函式。
請注意 DataFrame 中大寫的 D 和 F!
解釋輸出
這是輸出
我們看到“col1”、“col2”和“col3”是列的名稱。
不要混淆範圍從 0-4 的垂直數字。它們告訴我們有關行位置的資訊。
在 Python 中,行的編號從零開始。
現在,我們可以使用 Python 來計算列和行。
我們可以使用 df.shape[1] 來查詢列數
我們可以使用 df.shape[0] 來查詢行數
為什麼我們不能自己計算行和列?
如果我們處理包含許多列和行的更大資料集,手動計數會很麻煩。您可能會數錯。如果我們正確使用 Python 中的內建函式,就可以確保計數是正確的。