Zipf 分佈
Zipf 分佈用於基於 zipf 定律對資料進行取樣。
Zipf 定律: 在一個集合中,第 n 個最常見項的出現次數約為最常見項的 1/n。例如,英語中最常見的第 5 個單詞的出現次數大約是出現次數最多的單詞的 1/5。
它有兩個引數
a
- 分佈引數。
size
- 返回陣列的形狀。
示例
使用分佈引數為 2,大小為 2x3 的 zipf 分佈抽取樣本
from numpy import random
x = random.zipf(a=2, size=(2, 3))
print(x)
自己動手試一試 »
Zipf 分佈的視覺化
取樣 1000 個點,但僅繪製值小於 10 的點以獲得更有意義的圖表。
示例
from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns
x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)
plt.show()