Pandas 簡介
什麼是 Pandas?
Pandas 是一個用於處理資料集的 Python 庫。
它具有分析、清洗、探索和操作資料的功能。
“Pandas”這個名字同時引用了“Panel Data”(面板資料)和“Python Data Analysis”(Python 資料分析),由 Wes McKinney 於 2008 年建立。
為什麼要使用 Pandas?
Pandas 允許我們分析大資料,並根據統計理論得出結論。
Pandas 可以清洗雜亂的資料集,使其變得可讀和相關。
相關資料在資料科學中非常重要。
資料科學:是計算機科學的一個分支,我們研究如何儲存、使用和分析資料,以便從中獲取資訊。
Pandas 能做什麼?
Pandas 能為你提供關於資料的答案。例如:
- 兩列或多列之間是否存在關聯?
- 平均值是多少?
- 最大值是多少?
- 最小值是多少?
Pandas 還能夠刪除不相關或包含錯誤值的行,例如空值或 NULL 值。這被稱為清洗資料。
Pandas 的程式碼庫在哪裡?
Pandas 的原始碼位於這個 GitHub 倉庫:https://github.com/pandas-dev/pandas
github: 允許許多人同時處理同一個程式碼庫。