冪律
1.什么是冪律
所謂冪律,是說節(jié)點具有的連線數(shù)和這樣的節(jié)點數(shù)目乘積是一個定值,也就是幾何平均是定值,比如有10000個連線的大節(jié)點有10個,有1000個連線的中節(jié)點有100個,100個連線的小節(jié)點有1000個……,在對數(shù)坐標(biāo)上畫出來會得到一條斜向下的直線。
2.冪律的概述
自然界與社會生活中存在各種各樣性質(zhì)迥異的冪律分布現(xiàn)象。
1932年,哈佛大學(xué)的語言學(xué)專家Zipf在研究英文單詞出現(xiàn)的頻率時,發(fā)現(xiàn)如果把單詞出現(xiàn)的頻率按由大到小的順序排列,則每個單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在簡單的反比關(guān)系,這種分布就稱為Zipf定律,它表明在英語單詞中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。實際上,包括漢語在內(nèi)的許多國家的語言都有這種特點。
19世紀(jì)的意大利經(jīng)濟學(xué)家Pareto研究了個人收入的統(tǒng)計分布,發(fā)現(xiàn)少數(shù)人的收入要遠(yuǎn)多于大多數(shù)人的收入,提出了著名的80/20法則,即20%的人口占據(jù)了80%的社會財富。個人收入X不小于某個特定值x的概率與x的常數(shù)次冪亦存在簡單的反比關(guān)系,即為Pareto定律。
Zipf定律與Pareto定律都是簡單的冪函數(shù),我們稱之為冪律分布;還有其它形式的冪律分布,像名次—規(guī)模分布,規(guī)?!?a href="/wiki/%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83" title="概率分布">概率分布,這四種形式在數(shù)學(xué)上是等價的。
冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負(fù)數(shù)的直線,這一線性關(guān)系是判斷給定的實例中隨機變量是否滿足冪律的依據(jù)。
實際上,冪律分布廣泛存在于物理學(xué),地球與行星科學(xué),計算機科學(xué),生物學(xué),生態(tài)學(xué),人口統(tǒng)計學(xué)與社會科學(xué),經(jīng)濟與金融學(xué)等眾多領(lǐng)域中,且表現(xiàn)形式多種多樣.在自然界與日常生活中,包括地震規(guī)模大小的分布(古登堡-里希特定律),月球表面上月坑直徑的分布,行星間碎片大小的分布,太陽耀斑強度的分布,計算機文件大小的分布,戰(zhàn)爭規(guī)模的分布,人類語言中單詞頻率的分布,大多數(shù)國家姓氏的分布,科學(xué)家撰寫的論文數(shù)的分布, 論文被引用的次數(shù)的分布,網(wǎng)頁被點擊次數(shù)的分布,書籍及唱片的銷售冊數(shù)或張數(shù)的分布,每類生物中物種數(shù)的分布,甚至電影所獲得的奧斯卡獎項數(shù)的分布等,都是典型的冪律分布。以網(wǎng)頁被點擊次數(shù)的分布為例,盡管中國向七千九百萬網(wǎng)民提供的網(wǎng)站接近六十萬個,但只有為數(shù)不多的網(wǎng)站,才擁有網(wǎng)民一次訪問難以窮盡的豐富內(nèi)容,擁有接納許多人同時訪問的足夠帶寬,進(jìn)而有條件演化成熱門網(wǎng)站,擁有極高的點擊率,像新浪,搜狐,網(wǎng)易等門戶網(wǎng)站。網(wǎng)頁被點擊次數(shù)的冪律分布其冪指數(shù)在 0.60-1.03之間,而網(wǎng)站訪問量的冪律分布其冪指數(shù)則接近1。克里斯·安德森的“長尾理論”即是冪律的口語化表達(dá)。
統(tǒng)計物理學(xué)家習(xí)慣于把服從冪律分布的現(xiàn)象稱為無標(biāo)度現(xiàn)象,即,系統(tǒng)中個體的尺度相差懸殊,缺乏一個優(yōu)選的規(guī)模??梢哉f,凡有生命的地方,有進(jìn)化,有競爭的地方都會出現(xiàn)不同程度的無標(biāo)度現(xiàn)象。