Pandas DataFrame duplicated() 方法
示例
檢查哪些行是重複的,哪些不是
import pandas as pd
data = {
"name": ["John", "Mary", "John", "Sally", "Mary"],
"age": [40, 30, 40, 50, 30],
"city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"]
}
df = pd.DataFrame(data)
s = df.duplicated()
print(s)
自己動手試一試 »
定義和用法
duplicated()
方法返回一個包含 True 和 False 值的 Series,用於描述 DataFrame 中的哪些行是重複的,哪些不是。
使用 subset
引數指定在查詢重複項時要包含哪些列。預設情況下,所有列都會被包含。
預設情況下,兩個或多個重複項中的第一個出現將被設定為 False。
將 keep
引數設定為 False
,也會將第一個出現的項設定為 True。
語法
dataframe.duplicated(subset, keep)
引數
引數是 關鍵字引數。
引數 | 值 | 描述 |
---|---|---|
subset | 列標籤 | 可選。一個字串或列表,包含在查詢重複項時要包含的列名。預設 subset=None(表示未指定子集,應包含所有列)。 |
keep | 'first' |
可選,預設為 'first'。指定如何處理重複項。 'first' 表示將第一個出現的項設定為 False,其餘設定為 True。 'last' 表示將最後一個出現的項設定為 False,其餘設定為 True。 False 表示將所有出現的項都設定為 True。 |
返回值
一個 Series,其中包含 DataFrame 中每一行的布林值。