資料聚類
- 聚類是相似資料的集合
- 聚類是一種無監督學習
- 相關係數描述了關係的強度。
聚類
聚類是基於相似性的資料集合。
圖上聚集在一起的資料點通常可以歸類到不同的聚類中。
在下面的圖中,我們可以區分出 3 個不同的聚類
識別聚類
聚類可以包含大量有價值的資訊,但聚類的形狀千差萬別,我們該如何識別它們呢?
兩種主要方法是
- 使用視覺化
- 使用聚類演算法
聚類
聚類是一種無監督學習。
聚類試圖
- 將相似的資料分組
- 將不相似的資料歸入其他組
聚類方法
- 密度法
- 層次法
- 劃分法
- 基於網格法
密度法認為密集區域的點比低密度區域的點具有更多的相似性和差異性。密度法具有較高的準確性。它還能合併聚類。
兩種常用演算法是 DBSCAN 和 OPTICS。
層次法以樹狀結構形成聚類。新聚類是使用先前形成的聚類來建立的。
兩種常用演算法是 CURE 和 BIRCH。
基於網格法將資料構造成有限數量的單元格,形成網格狀結構。
兩種常用演算法是 CLIQUE 和 STING
劃分法將物件劃分為 k 個聚類,每個分割槽形成一個聚類。
一種常用演算法是 CLARANS。
相關係數
相關係數 (r) 描述了散點圖上 x/y 變數之間線性關係的強度和方向。
r 的值總是在 -1 和 +1 之間
-1.00 | 完美下坡 | 負線性關係。 |
-0.70 | 強下坡 | 負線性關係。 |
-0.50 | 中等下坡 | 負線性關係。 |
-0.30 | 弱下坡 | 負線性關係。 |
0 | 無線性關係。 | |
+0.30 | 弱上坡 | 正線性關係。 |
+0.50 | 中等上坡 | 正線性關係。 |
+0.70 | 強上坡 | 正線性關係。 |
+1.00 | 完美上坡 | 正線性關係。 |
完美上坡 +1.00:
完美下坡 -1.00:
強上坡 +0.61:
無關係: