Pandas DataFrame drop_duplicates() 方法
示例
從 DataFrame 中移除重複行
import pandas as pd
data = {
"name": ["Sally", "Mary", "John", "Mary"],
"age": [50, 40, 30, 40],
"qualified": [True, False, False, False]
}
df = pd.DataFrame(data)
newdf = df.drop_duplicates()
自己動手試一試 »
定義和用法
drop_duplicates()
方法會移除重複的行。
如果只想根據特定列來查詢重複項,請使用 subset
引數。
語法
dataframe.drop_duplicates(subset, keep, inplace, ignore_index)
引數
引數是 關鍵字引數。
引數 | 值 | 描述 |
---|---|---|
subset | 列標籤 | 可選。一個字串或一個列表,包含查詢重複項時要使用的列。如果未指定,則使用所有列。 |
keep | 'first' |
可選,預設為 'first'。指定保留哪個重複項。如果為 False,則刪除所有重複項。 |
inplace | True |
可選,預設為 `False`。如果為 `True`:則在當前 DataFrame 上執行刪除操作。如果為 `False`:則返回一個已執行刪除操作的副本。 |
ignore_index | True |
可選,預設為 False。指定是否為 0、1、2 等進行標籤化,或者不進行標籤化。 |
返回值
一個帶有結果的DataFrame,如果 inplace 引數設定為 True,則為 None。