登錄

齊普夫定律

百科 > 管理定律 > 齊普夫定律

1.齊普夫定律概述

  齊普夫定律是美國語言學(xué)家G.K.齊普夫George Kingsley Zipf)于本世紀(jì)40年代提出的詞頻分布定律。它可以表述為:如果把一篇較長文章中每個(gè)詞出現(xiàn)的頻次統(tǒng)計(jì)起來,按照高頻詞在前、低頻詞在后的遞減順序排列,并用自然數(shù)個(gè)這些詞編上的等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,......,頻次最小的詞等級為D,。若用f表示頻次,r 表示序號,則有fr=C(C為常數(shù))。人們稱該式為齊普夫定律。

  齊普夫定律是描述一系列實(shí)際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗(yàn)定律之一。它認(rèn)為,如果我們按照大小或者流行程度給某個(gè)大集合中的各項(xiàng)進(jìn)行排序,集合中第二項(xiàng)的比重大約是第一項(xiàng)的一半,而第三項(xiàng)的比重大約是第一項(xiàng)的三分之一,以此類推。換句話來說,一般來講,排在第k位的項(xiàng)目其比重為第一項(xiàng)的1/k。

  齊普夫定律還從定量角度描述了目前流行的一個(gè)主題: 長尾巴定律The Long Tail)。以一個(gè)集合中按流行程度排名的物品(如亞馬遜網(wǎng)站上銷售的圖書)為例。表示流行程度的圖表會向下傾斜,位于左上角的是幾十本最流行的圖書。該圖會向右下角逐漸下降,那條長尾巴會列出每年銷量只有一兩本的幾十萬種圖書。換成英文即齊普夫定律最初應(yīng)用的領(lǐng)域,這條長尾巴就是你很少會遇到的幾十萬個(gè)單詞,譬如floriferous或者refulgent。

  把流行程度作為大致衡量價(jià)值的標(biāo)準(zhǔn),齊普夫定律隨后就會得出每一個(gè)物品的價(jià)值。也就是說,假設(shè)有100萬個(gè)物品,那么最流行的100個(gè)物品將貢獻(xiàn)總價(jià)值的三分之一,其次的10000個(gè)物品將貢獻(xiàn)另外的三分之一; 剩余的98.99萬個(gè)將貢獻(xiàn)剩下的三分之一。有n個(gè)物品的集合其價(jià)值與log(n)成正比。

2.齊普夫定律的應(yīng)用范圍

  1.詞表編制

  2.利用齊普夫定律,解決詞匯控制,詞表規(guī)模確定,選詞標(biāo)準(zhǔn)等問題。

  3.文獻(xiàn)標(biāo)引控制

  齊普夫定律主要應(yīng)用于統(tǒng)計(jì)標(biāo)引法。確定有效詞的詞頻值。從而可通過計(jì)算機(jī)確定有效詞。

  4.情報(bào)檢索的文獻(xiàn)組織。

3.齊普夫定律的運(yùn)用實(shí)例

  電子郵件列表成員的相對價(jià)值。

  按照齊普夫定律,這種網(wǎng)絡(luò)的成員可以像齊普夫定律排列單詞那樣來排序——按照你收件箱當(dāng)中電子郵件的數(shù)量。每個(gè)人所發(fā)的電子郵件都會給你收件箱的總“價(jià)值”貢獻(xiàn)1/k,這里的k是指每個(gè)人的排名。

  郵件量排名第一位的那個(gè)人因而獲得被設(shè)為1/1即1的值(這個(gè)人就相當(dāng)于前面那個(gè)例子中的單詞the)。排在第二位的那個(gè)人將貢獻(xiàn)一半的值,即1/2。而按照齊普夫定律,排在第k位的那個(gè)人將為你為這個(gè)郵件網(wǎng)絡(luò)賦予的總價(jià)值添加大約1/k。

  這個(gè)總價(jià)值就是網(wǎng)絡(luò)所有其他成員的遞減的1/k值之和。所以如果你的網(wǎng)絡(luò)有n個(gè)成員,這個(gè)值就與1 + 1/2 + 1/3 +… + 1/(n-1)成正比,這接近log(n)。說得更準(zhǔn)確些,這差不多等于log(n)與恒定值相加之和。當(dāng)然,n-1個(gè)其他成員可以從網(wǎng)絡(luò)得到類似的值,所以所有n的值以n log(n)增加。

評論  |   0條評論