Pandas DataFrame duplicated() 方法

示例

檢查哪些行是重複的，哪些不是

import pandas as pd

data = {
"name": ["John", "Mary", "John", "Sally", "Mary"],
"age": [40, 30, 40, 50, 30],
"city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"]
}

df = pd.DataFrame(data)

s = df.duplicated()

print(s)

自己動手試一試 »

定義和用法

duplicated() 方法返回一個包含 True 和 False 值的 Series，用於描述 DataFrame 中的哪些行是重複的，哪些不是。

使用 subset 引數指定在查詢重複項時要包含哪些列。預設情況下，所有列都會被包含。

預設情況下，兩個或多個重複項中的第一個出現將被設定為 False。

將 keep 引數設定為 False，也會將第一個出現的項設定為 True。

語法

dataframe.duplicated(subset, keep)

引數

引數是關鍵字引數。

引數	值	描述
subset	列標籤	可選。一個字串或列表，包含在查詢重複項時要包含的列名。預設 subset=None（表示未指定子集，應包含所有列）。
keep	`'first' 'last' False`	可選，預設為 'first'。指定如何處理重複項。 'first' 表示將第一個出現的項設定為 False，其餘設定為 True。 'last' 表示將最後一個出現的項設定為 False，其餘設定為 True。 False 表示將所有出現的項都設定為 True。

返回值

一個 Series，其中包含 DataFrame 中每一行的布林值。

Pandas 教程

Cleaning Data

Correlations

繪圖

Quiz/Exercises

參考手冊

Pandas DataFrame duplicated() 方法

示例

定義和用法

語法

引數

返回值

更多示例

示例

示例

拾色器

聯絡銷售

報告錯誤

熱門教程

熱門參考

熱門示例

獲取證書