資料科學 導論
資料科學是多個學科的結合,它利用統計學、資料分析和機器學習來分析資料,並從中提取知識和見解。
什麼是資料科學?
資料科學關乎資料收集、分析和決策。
資料科學透過分析來發現資料中的模式,並進行未來預測。
透過使用資料科學,公司能夠做出
- 更好的決策(選擇 A 還是 B)
- 預測性分析(接下來會發生什麼?)
- 模式發現(找到模式,或者資料中隱藏的資訊)
資料科學需要用到哪裡?
資料科學如今被廣泛應用於世界各地的許多行業,例如銀行業、諮詢業、醫療保健業和製造業。
需要資料科學的示例
- 用於路線規劃:發現最佳的運輸路線
- 預測航班/輪船/火車等的延誤(透過預測性分析)
- 建立促銷優惠
- 找到最佳的貨物配送時間
- 預測公司下一年的收入
- 分析訓練的健康益處
- 預測誰將贏得選舉
資料科學可以應用於企業中幾乎所有有資料的部分。例如:
- 消費品
- 股票市場
- 工業
- 政治
- 物流公司
- 電子商務
資料科學家如何工作?
資料科學家需要具備多方面的專業知識
- 機器學習
- 統計學
- 程式設計(Python 或 R)
- 數學
- 資料庫
資料科學家必須在資料中找到模式。在找到模式之前,他們必須將資料整理成標準格式。
資料科學家工作流程如下:
- 提出正確的問題 - 理解業務問題。
- 探索和收集資料 - 從資料庫、網頁日誌、客戶反饋等。
- 提取資料 - 將資料轉換為標準化格式。
- 清理資料 - 移除資料中的錯誤值。
- 查詢和替換缺失值 - 檢查缺失值並用合適的值替換(例如平均值)。
- 資料規範化 - 將值縮放到實際範圍(例如,140 釐米比 1.8 米小。但數字 140 比 1.8 大。因此,縮放很重要)。
- 分析資料,發現模式並進行未來預測.
- 展示結果 - 以“公司”能夠理解的方式展示有用的見解。
從哪裡開始?
在本教程中,我們將從介紹資料是什麼以及如何分析資料開始。
您將學習如何使用統計和數學函式進行預測。