機器學習
機器學習是透過研究資料和統計資料來讓計算機學習。
機器學習是人工智慧(AI)方向上的一步。
機器學習是一種分析資料並學習預測結果的程式。
從哪裡開始?
在本教程中,我們將回顧數學和統計學,以及如何根據資料集計算重要數字。
我們還將學習如何使用各種 Python 模組來獲取所需答案。
我們將學習如何建立能夠根據所學內容預測結果的函式。
資料集
在計算機看來,資料集是任何資料的集合。它可以是陣列,也可以是完整的資料庫。
陣列示例
[99,86,87,88,111,86,103,87,94,78,77,85,86]
資料庫示例
汽車名稱 | 顏色 | Age | 速度 | AutoPass |
寶馬 | red | 5 | 99 | Y |
沃爾沃 | black | 7 | 86 | Y |
VW | gray | 8 | 87 | N |
VW | white | 7 | 88 | Y |
福特 | white | 2 | 111 | Y |
VW | white | 17 | 86 | Y |
特斯拉 | red | 2 | 103 | Y |
寶馬 | black | 9 | 87 | Y |
沃爾沃 | gray | 4 | 94 | N |
福特 | white | 11 | 78 | N |
豐田 | gray | 12 | 77 | N |
VW | white | 9 | 85 | N |
豐田 | blue | 6 | 86 | Y |
透過檢視陣列,我們可以猜測平均值可能在 80 或 90 左右,我們也能確定最高值和最低值,但我們還能做什麼呢?
透過檢視資料庫,我們可以看到最受歡迎的顏色是白色,最老的汽車是 17 年,但如果我們能僅憑檢視其他值來預測一輛汽車是否擁有 AutoPass 呢?
這就是機器學習的作用!分析資料並預測結果!
在機器學習中,處理非常大的資料集是很常見的。在本教程中,我們將盡力讓理解機器學習的各個概念儘可能容易,並將使用易於理解的小型資料集。
資料型別
為了分析資料,瞭解我們正在處理的資料型別非常重要。
我們可以將資料型別分為三大類
- 數值型
- 分型別
- 有序型
數值型資料是數字,可以分為兩個數值類別
- 離散資料
- 有限的整數。示例:經過的汽車數量。 - 連續資料
- 可測量的資料,可以是任何數字。示例:商品的價格或商品的大小
分型別資料是無法相互比較的值。示例:顏色值或任何是/否值。
有序型資料類似於分型別資料,但可以相互比較。示例:學校成績,A 比 B 好,依此類推。
瞭解資料來源的資料型別,您將能夠知道在分析它們時使用哪種技術。
您將在接下來的章節中瞭解更多關於統計和資料分析的內容。