Pandas - 分析 DataFrame
檢視資料
要快速瞭解 DataFrame,最常用的方法是 head()
方法。
head()
方法會返回列標題和從頂部開始的指定行數。
示例
透過列印 DataFrame 的前 10 行來快速瞭解
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
自己動手試一試 »
在我們的示例中,我們將使用一個名為 'data.csv' 的 CSV 檔案。
下載 data.csv,或在瀏覽器中開啟 data.csv。
注意:如果未指定行數,head()
方法將返回前 5 行。
還有一個 tail()
方法,用於檢視 DataFrame 的最後幾行。
tail()
方法會返回列標題和從底部開始的指定行數。
資料資訊
DataFrame 物件有一個名為 info()
的方法,該方法可以提供有關資料集的更多資訊。
示例
列印資料資訊
print(df.info())
結果
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
結果解釋
結果告訴我們有 169 行和 4 列
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
以及每一列的名稱及其資料型別
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
空值
info()
方法還告訴我們每一列存在多少個非空值,在我們的資料集中,"Calories" 列有 164 個非空值,總共 169 行。
這意味著,無論出於何種原因,"Calories" 列中有 5 行完全沒有值。
空值或 Null 值在分析資料時可能很糟糕,您應該考慮刪除包含空值的行。這是所謂的資料清理的一部分,您將在接下來的章節中學習更多關於這方面的內容。