機器學習資料
多達80%的機器學習專案都與資料收集有關
- 哪些資料是必需的?
- 哪些資料是可用的?
- 如何選擇資料?
- 如何收集資料?
- 如何清理資料?
- 如何準備資料?
- 如何使用資料?
什麼是資料?
資料可以是多種多樣的。
在機器學習中,資料是事實的集合。
型別 | 示例 |
---|---|
數字 | 價格。日期。 |
測量值 | 尺寸。高度。重量。 |
詞語 | 姓名和地點。 |
觀察 | 數汽車。 |
描述 | 天氣很冷。 |
智慧需要資料
人類智慧需要資料
房地產經紀人需要已售房屋的資料來估算價格。
人工智慧也需要資料
機器學習程式需要資料來估算價格。
資料可以幫助我們看到和理解。
資料可以幫助我們發現新機會。
資料可以幫助我們消除誤解。
醫療保健
醫療保健和生命科學收集公共衛生資料和患者資料,以瞭解如何改善患者護理和挽救生命。
企業
許多行業中最成功的公司都是資料驅動的。它們使用複雜的資料分析來了解公司如何能表現得更好。
金融
銀行和保險公司收集和評估客戶、貸款和存款資料,以支援戰略決策。
儲存資料
最常收集的資料是數字和測量值。
資料通常儲存在表示值之間關係的陣列中。
此表包含房屋價格與面積
Price | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
大小 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
定量 vs. 定性
定量資料是數值型的
- 55輛車
- 15米
- 35個孩子
定性資料是描述性的
- 天氣很冷
- 它很長
- 很有趣
普查或抽樣
普查是指我們收集一個群體中每個成員的資料。
抽樣是指我們收集一個群體中部分成員的資料。
如果我們想知道有多少美國人吸菸,我們可以詢問美國的每個人(普查),或者我們可以詢問10 000人(抽樣)。
普查是準確的,但很難做到。抽樣是不準確的,但更容易做到。
抽樣術語
總體是我們想要從中收集資訊的個體(物件)群體。
普查是關於總體中每個個體的資訊。
樣本是關於總體一部分的資訊(為了代表全體)。
隨機樣本
為了使樣本代表總體,必須隨機收集。
隨機樣本是指總體中每個成員都有平等的機會出現在樣本中的樣本。
抽樣偏差
當樣本的收集方式導致某些個體不太可能(或更可能)被包含在樣本中時,就會發生抽樣偏差(誤差)。
大資料
大資料是指人類在沒有高階機器輔助的情況下無法處理的資料。
大資料在大小方面沒有明確定義,但隨著我們不斷收集越來越多的資料,並以越來越低的成本儲存資料,資料集正變得越來越大。
資料探勘
大資料伴隨著複雜的資料結構。
大資料處理的很大一部分是資料精煉。