選單
×
   ❮     
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

機器學習資料

多達80%的機器學習專案都與資料收集有關

  • 哪些資料是必需的
  • 哪些資料是可用的
  • 如何選擇資料?
  • 如何收集資料?
  • 如何清理資料?
  • 如何準備資料?
  • 如何使用資料?

什麼是資料?

資料可以是多種多樣的。

在機器學習中,資料是事實的集合。

型別示例
數字價格。日期。
測量值尺寸。高度。重量。
詞語姓名和地點。
觀察數汽車。
描述天氣很冷。

智慧需要資料

人類智慧需要資料

房地產經紀人需要已售房屋的資料來估算價格。

人工智慧也需要資料

機器學習程式需要資料來估算價格。

資料可以幫助我們看到和理解。

資料可以幫助我們發現新機會。

資料可以幫助我們消除誤解。


醫療保健

醫療保健和生命科學收集公共衛生資料和患者資料,以瞭解如何改善患者護理和挽救生命。

企業

許多行業中最成功的公司都是資料驅動的。它們使用複雜的資料分析來了解公司如何能表現得更好。

金融

銀行和保險公司收集和評估客戶、貸款和存款資料,以支援戰略決策。


儲存資料

最常收集的資料是數字和測量值。

資料通常儲存在表示值之間關係的陣列中。

此表包含房屋價格與面積

Price7889991011141415
大小5060708090100 110120130140150

定量 vs. 定性

定量資料是數值型的

  • 55輛車
  • 15米
  • 35個孩子

定性資料是描述性的

  • 天氣很冷
  • 它很長
  • 很有趣


普查或抽樣

普查是指我們收集一個群體中每個成員的資料。

抽樣是指我們收集一個群體中部分成員的資料。

如果我們想知道有多少美國人吸菸,我們可以詢問美國的每個人(普查),或者我們可以詢問10 000人(抽樣)。

普查是準確的,但很難做到。抽樣是不準確的,但更容易做到。


抽樣術語

總體是我們想要從中收集資訊的個體(物件)群體。

普查是關於總體中每個個體的資訊。

樣本是關於總體一部分的資訊(為了代表全體)。


隨機樣本

為了使樣本代表總體,必須隨機收集。

隨機樣本是指總體中每個成員都有平等的機會出現在樣本中的樣本。


抽樣偏差

當樣本的收集方式導致某些個體不太可能(或更可能)被包含在樣本中時,就會發生抽樣偏差(誤差)。


大資料

大資料是指人類在沒有高階機器輔助的情況下無法處理的資料。

大資料在大小方面沒有明確定義,但隨著我們不斷收集越來越多的資料,並以越來越低的成本儲存資料,資料集正變得越來越大。


資料探勘

大資料伴隨著複雜的資料結構。

大資料處理的很大一部分是資料精煉。


×

聯絡銷售

如果您想將 W3Schools 服務用於教育機構、團隊或企業,請傳送電子郵件給我們
sales@w3schools.com

報告錯誤

如果您想報告錯誤,或想提出建議,請傳送電子郵件給我們
help@w3schools.com

W3Schools 經過最佳化,旨在方便學習和培訓。示例可能經過簡化,以提高閱讀和學習體驗。教程、參考資料和示例會不斷審查,以避免錯誤,但我們無法保證所有內容的完全正確性。使用 W3Schools 即表示您已閱讀並接受我們的使用條款Cookie 和隱私政策

版權所有 1999-2024 Refsnes Data。保留所有權利。W3Schools 由 W3.CSS 提供支援