聚類分析
1.聚類分析概述
聚類分析(Cluster Analysis)又稱群分析,是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。聚類分析起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗(yàn)和專業(yè)知識(shí)來(lái)實(shí)現(xiàn)分類,很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來(lái)越高,以致有時(shí)僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切地進(jìn)行分類,于是人們逐漸地把數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。
聚類分析被應(yīng)用于很多方面,在商業(yè)上,聚類分析被用來(lái)發(fā)現(xiàn)不同的客戶群,并且通過(guò)購(gòu)買模式刻畫不同的客戶群的特征;在生物上,聚類分析被用來(lái)動(dòng)植物分類和對(duì)基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí);在地理上,聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)商趨于的相似性;在保險(xiǎn)行業(yè)上,聚類分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型,價(jià)值,地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組;在因特網(wǎng)應(yīng)用上,聚類分析被用來(lái)在網(wǎng)上進(jìn)行文檔歸類來(lái)修復(fù)信息。
聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。
2.聚類分析的計(jì)算方法
聚類分析計(jì)算方法主要有如下幾種:分裂法(partitioning methods):層次法(hierarchical methods):基于密度的方法(density-based methods): 基于網(wǎng)格的方法(grid-basedmethods): 基于模型的方法(model-based methods)。
1、分裂法又稱劃分方法(PAM:PArtitioning method) 首先創(chuàng)建k個(gè)劃分,k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù);然后利用一個(gè)循環(huán)定位技術(shù)通過(guò)將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來(lái)幫助改善劃分質(zhì)量。
- 典型的劃分方法包括:
- k-means,k-medoids,CLARA(Clustering LARge Application),
- CLARANS(Clustering Large Application based upon RANdomized Search).
- FCM
2、層次法(hierarchical method) 創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。
- 典型的這類方法包括:
- BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行劃分;然后再利用其它聚類方法對(duì)這些聚類進(jìn)行優(yōu)化。
- CURE(Clustering Using REprisentatives) 方法,它利用固定數(shù)目代表對(duì)象來(lái)表示相應(yīng)聚類;然后對(duì)各聚類按照指定量(向聚類中心)進(jìn)行收縮。
- ROCK方法,它利用聚類間的連接進(jìn)行聚類合并。
- CHEMALOEN方法,它則是在層次聚類時(shí)構(gòu)造動(dòng)態(tài)模型。
3、基于密度的方法,根據(jù)密度完成對(duì)象的聚類。它根據(jù)對(duì)象周圍的密度(如DBSCAN)不斷增長(zhǎng)聚類。
- 典型的基于密度方法包括:
- DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過(guò)不斷生長(zhǎng)足夠高密度區(qū)域來(lái)進(jìn)行聚類;它能從含有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。此方法將一個(gè)聚類定義為一組“密度連接” 的點(diǎn)集。
- OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產(chǎn)生一個(gè)聚類,而是為自動(dòng)交互的聚類分析計(jì)算出一個(gè)增強(qiáng)聚類順序。
4、基于網(wǎng)格的方法,首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利用網(wǎng)格結(jié)構(gòu)完成聚類。
- 典型的基于網(wǎng)格的方法包括:
- STING(STatistical INformation Grid) 就是一個(gè)利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基于網(wǎng)格聚類的方法。
- CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個(gè)將基于網(wǎng)格與基于密度相結(jié)合的方法。
5、基于模型的方法,它假設(shè)每個(gè)聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。
- 典型的基于模型方法包括:
- 統(tǒng)計(jì)方法COBWEB:是一個(gè)常用的且簡(jiǎn)單的增量式概念聚類方法。它的輸入對(duì)象是采用符號(hào)量(屬性-值)對(duì)來(lái)加以描述的。采用分類樹的形式來(lái)創(chuàng)建一個(gè)層次聚類。
- CLASSIT是COBWEB的另一個(gè)版本.。它可以對(duì)連續(xù)取值屬性進(jìn)行增量式聚類。它為每個(gè)結(jié)點(diǎn)中的每個(gè)屬性保存相應(yīng)的連續(xù)正態(tài)分布(均值與方差);并利用一個(gè)改進(jìn)的分類能力描述方法,即不象COBWEB那樣計(jì)算離散屬性(取值)和而是對(duì)連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問(wèn)題。因此它們都不適合對(duì)大數(shù)據(jù)庫(kù)進(jìn)行聚類處理.
傳統(tǒng)的聚類算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問(wèn)題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問(wèn)題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因?yàn)閭鹘y(tǒng)聚類方法在高維數(shù)據(jù)集中進(jìn)行聚類時(shí),主要遇到兩個(gè)問(wèn)題。①高維數(shù)據(jù)集中存在大量無(wú)關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進(jìn)行聚類的,因此在高維空間中無(wú)法基于距離來(lái)構(gòu)建簇。
高維聚類分析已成為聚類分析的一個(gè)重要研究方向。同時(shí)高維數(shù)據(jù)聚類也是聚類技術(shù)的難點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來(lái)越容易,導(dǎo)致數(shù)據(jù)庫(kù)規(guī)模越來(lái)越大、復(fù)雜性越來(lái)越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達(dá)數(shù)據(jù)等,它們的維度(屬性)通??梢赃_(dá)到成百上千維,甚至更高。但是,受“維度效應(yīng)”的影響,許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運(yùn)用在高維空間上往往無(wú)法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個(gè)非常活躍的領(lǐng)域,同時(shí)它也是一個(gè)具有挑戰(zhàn)性的工作。目前,高維數(shù)據(jù)聚類分析在市場(chǎng)分析、信息安全、金融、娛樂(lè)、反恐等方面都有很廣泛的應(yīng)用。
3.聚類分析的特征
聚類分析是根據(jù)事物本身的特性研究個(gè)體的一種方法,目的在于將相似的事物歸類。它的原則是同一類中的個(gè)體有較大的相似性,不同類的個(gè)體差異性很大。這種方法有三個(gè)特征:
(1)適用于沒(méi)有先驗(yàn)知識(shí)的分類。如果沒(méi)有這些事先的經(jīng)驗(yàn)或一些國(guó)際標(biāo)準(zhǔn)、國(guó)內(nèi)標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn),分類便會(huì)顯得隨意和主觀。這時(shí)只要設(shè)定比較完善的分類變量,就可以通過(guò)聚類分析法得到較為科學(xué)合理的類別;
可以處理多個(gè)變量決定的分類。例如,要根據(jù)消費(fèi)者購(gòu)買量的大小進(jìn)行分類比較容易,但如果在進(jìn)行數(shù)據(jù)挖掘時(shí),要求根據(jù)消費(fèi)者的購(gòu)買量、家庭收入、家庭支出、年齡等多個(gè)指標(biāo)進(jìn)行分類通常比較復(fù)雜,而聚類分析法可以解決這類問(wèn)題;
(3)聚類分析法是一種探索性分析方法,能夠分析事物的內(nèi)在特點(diǎn)和規(guī)律,并根據(jù)相似性原則對(duì)事物進(jìn)行分組,是數(shù)據(jù)挖掘中常用的一種技術(shù)。
4.聚類分析在市場(chǎng)分析中的應(yīng)用
這種較成熟的統(tǒng)計(jì)學(xué)方法如果在市場(chǎng)分析中得到恰當(dāng)?shù)膽?yīng)用,必將改善市場(chǎng)營(yíng)銷的效果,為企業(yè)決策提供有益的參考。其應(yīng)用的步驟為:將市場(chǎng)分析中的問(wèn)題轉(zhuǎn)化為聚類分析可以解決的問(wèn)題,利用相關(guān)軟件(如SPSS、SAS等)求得結(jié)果,由專家解讀結(jié)果,并轉(zhuǎn)換為實(shí)際操作措施,從而提高企業(yè)利潤(rùn),降低企業(yè)成本。
聚類分析在客戶細(xì)分中的應(yīng)用
消費(fèi)同一種類的商品或服務(wù)時(shí),不同的客戶有不同的消費(fèi)特點(diǎn),通過(guò)研究這些特點(diǎn),企業(yè)可以制定出不同的營(yíng)銷組合,從而獲取最大的消費(fèi)者剩余,這就是客戶細(xì)分的主要目的。常用的客戶分類方法主要有三類:經(jīng)驗(yàn)描述法,由決策者根據(jù)經(jīng)驗(yàn)對(duì)客戶進(jìn)行類別劃分;傳統(tǒng)統(tǒng)計(jì)法,根據(jù)客戶屬性特征的簡(jiǎn)單統(tǒng)計(jì)來(lái)劃分客戶類別;非傳統(tǒng)統(tǒng)計(jì)方法,即基于人工智能技術(shù)的非數(shù)值方法。聚類分析法兼有后兩類方法的特點(diǎn),能夠有效完成客戶細(xì)分的過(guò)程。
例如,客戶的購(gòu)買動(dòng)機(jī)一般由需要、認(rèn)知、學(xué)習(xí)等內(nèi)因和文化、社會(huì)、家庭、小群體、參考群體等外因共同決定。要按購(gòu)買動(dòng)機(jī)的不同來(lái)劃分客戶時(shí),可以把前述因素作為分析變量,并將所有目標(biāo)客戶每一個(gè)分析變量的指標(biāo)值量化出來(lái),再運(yùn)用聚類分析法進(jìn)行分類。在指標(biāo)值量化時(shí)如果遇到一些定性的指標(biāo)值,可以用一些定性數(shù)據(jù)定量化的方法加以轉(zhuǎn)化,如模糊評(píng)價(jià)法等。除此之外,可以將客戶滿意度水平和重復(fù)購(gòu)買機(jī)會(huì)大小作為屬性進(jìn)行分類;還可以在區(qū)分客戶之間差異性的問(wèn)題上納入一套新的分類法,將客戶的差異性變量劃分為五類:產(chǎn)品利益、客戶之間的相互作用力、選擇障礙、議價(jià)能力和收益率,依據(jù)這些分析變量聚類得到的歸類,可以為企業(yè)制定營(yíng)銷決策提供有益參考。
以上分析的共同點(diǎn)在于都是依據(jù)多個(gè)變量進(jìn)行分類,這正好符合聚類分析法解決問(wèn)題的特點(diǎn);不同點(diǎn)在于從不同的角度尋求分析變量,為某一方面的決策提供參考,這正是聚類分析法在客戶細(xì)分問(wèn)題中運(yùn)用范圍廣的體現(xiàn)。
聚類分析在實(shí)驗(yàn)市場(chǎng)選擇中的應(yīng)用
實(shí)驗(yàn)調(diào)查法是市場(chǎng)調(diào)查中一種有效的一手資料收集方法,主要用于市場(chǎng)銷售實(shí)驗(yàn),即所謂的市場(chǎng)測(cè)試。通過(guò)小規(guī)模的實(shí)驗(yàn)性改變,以觀察客戶對(duì)產(chǎn)品或服務(wù)的反應(yīng),從而分析該改變是否值得在大范圍內(nèi)推廣。
實(shí)驗(yàn)調(diào)查法最常用的領(lǐng)域有:市場(chǎng)飽和度測(cè)試。市場(chǎng)飽和度反映市場(chǎng)的潛在購(gòu)買力,是市場(chǎng)營(yíng)銷戰(zhàn)略和策略決策的重要參考指標(biāo)。企業(yè)通常通過(guò)將消費(fèi)者購(gòu)買產(chǎn)品或服務(wù)的各種決定因素(如價(jià)格等)降到最低限度的方法來(lái)測(cè)試市場(chǎng)飽和度?;蛘咴诔霈F(xiàn)滯銷時(shí),企業(yè)投放類似的新產(chǎn)品或服務(wù)到特定的市場(chǎng),以測(cè)試市場(chǎng)是否真正達(dá)到飽和,是否具有潛在的購(gòu)買力。前述兩種措施由于利益和風(fēng)險(xiǎn)的原因,不可能在企業(yè)覆蓋的所有市場(chǎng)中實(shí)施,只能選擇合適的實(shí)驗(yàn)市場(chǎng)和對(duì)照市場(chǎng)加以測(cè)試,得到近似的市場(chǎng)飽和度;產(chǎn)品的價(jià)格實(shí)驗(yàn)。這種實(shí)驗(yàn)往往將新定價(jià)的產(chǎn)品投放市場(chǎng),對(duì)顧客的態(tài)度和反應(yīng)進(jìn)行測(cè)試,了解顧客對(duì)這種價(jià)格的是否接受或接受程度;新產(chǎn)品上市實(shí)驗(yàn)。波士頓矩陣研究的企業(yè)產(chǎn)品生命周期圖表明,企業(yè)為了生存和發(fā)展往往要不斷開發(fā)新產(chǎn)品,并使之向明星產(chǎn)品和金牛產(chǎn)品順利過(guò)渡。然而新產(chǎn)品投放市場(chǎng)后的失敗率卻很高,大致為66%到90%。因而為了降低新產(chǎn)品的失敗率,在產(chǎn)品大規(guī)模上市前,運(yùn)用實(shí)驗(yàn)調(diào)查法對(duì)新產(chǎn)品的各方面(外觀設(shè)計(jì)、性能、廣告和推廣營(yíng)銷組合等)進(jìn)行實(shí)驗(yàn)是非常有必要的。
在實(shí)驗(yàn)調(diào)查方法中,最常用的是前后單組對(duì)比實(shí)驗(yàn)、對(duì)照組對(duì)比實(shí)驗(yàn)和前后對(duì)照組對(duì)比實(shí)驗(yàn)。這些方法要求科學(xué)的選擇實(shí)驗(yàn)和非實(shí)驗(yàn)單位,即隨機(jī)選擇出的實(shí)驗(yàn)單位和非實(shí)驗(yàn)單位之間必須具備一定的可比性,兩類單位的主客觀條件應(yīng)基本相同。
通過(guò)聚類分析,可將待選的實(shí)驗(yàn)市場(chǎng)(商場(chǎng)、居民區(qū)、城市等)分成同質(zhì)的幾類小組,在同一組內(nèi)選擇實(shí)驗(yàn)單位和非實(shí)驗(yàn)單位,這樣便保證了這兩個(gè)單位之間具有了一定的可比性。聚類時(shí),商店的規(guī)模、類型、設(shè)備狀況、所處的地段、管理水平等就是聚類的分析變量。聚類分析在抽樣方案設(shè)計(jì)中的應(yīng)用
抽樣設(shè)計(jì)是市場(chǎng)調(diào)查中非常重要的一個(gè)部分,它的合理性直接決定了市場(chǎng)調(diào)查結(jié)果的可信度。在抽樣方案設(shè)計(jì)的步驟中,抽樣組織形式的選擇又是一個(gè)關(guān)鍵環(huán)節(jié),它決定了樣本對(duì)總體的代表性的高低。依據(jù)抽樣誤差由低到高的順序排列,按照標(biāo)志排隊(duì)的等距抽樣方式抽樣誤差最小,其次分別為分層抽樣、按照無(wú)關(guān)標(biāo)志排隊(duì)的等距抽樣、簡(jiǎn)單隨機(jī)抽樣、整群抽樣和非隨機(jī)抽樣。結(jié)合資源的限制和操作的方便性進(jìn)行綜合選擇,分層抽樣在實(shí)踐中的應(yīng)用最為廣泛。分層抽樣又稱類型抽樣,它是先將總體所有單位按照重要標(biāo)志進(jìn)行分組,然后在各組內(nèi)按照簡(jiǎn)單隨機(jī)抽樣或等距抽樣方式抽取樣本單位的一種抽樣方式。在分組時(shí)引入聚類方法,可以增強(qiáng)組別的合理性。
聚類分析在銷售片區(qū)確定中的應(yīng)用
銷售片區(qū)的確定和片區(qū)經(jīng)理的任命在企業(yè)的市場(chǎng)營(yíng)銷中發(fā)揮著重要的作用。只有合理地將企業(yè)所擁有的子市場(chǎng)歸成幾個(gè)大的片區(qū),才能有效地制定符合片區(qū)特點(diǎn)的市場(chǎng)營(yíng)銷戰(zhàn)略和策略,并任命合適的片區(qū)經(jīng)理。聚類分析在這個(gè)過(guò)程中的應(yīng)用可以通過(guò)一個(gè)例子來(lái)說(shuō)明。某公司在全國(guó)有20個(gè)子市場(chǎng),每個(gè)市場(chǎng)在人口數(shù)量、人均可支配收入、地區(qū)零售總額、該公司某種商品的銷售量等變量上有不同的指標(biāo)值。以上變量都是決定市場(chǎng)需求量的主要因素。把這些變量作為聚類變量,結(jié)合決策者的主觀愿望和相關(guān)統(tǒng)計(jì)軟件提供的客觀標(biāo)準(zhǔn),接下來(lái)就可以針對(duì)不同的片區(qū)制定合理的戰(zhàn)略和策略,并任命合適的片區(qū)經(jīng)理了。
聚類分析在市場(chǎng)機(jī)會(huì)研究中的應(yīng)用
企業(yè)制定市場(chǎng)營(yíng)銷戰(zhàn)略時(shí),弄清在同一市場(chǎng)中哪些企業(yè)是直接競(jìng)爭(zhēng)者,哪些是間接競(jìng)爭(zhēng)者是非常關(guān)鍵的一個(gè)環(huán)節(jié)。要解決這個(gè)問(wèn)題,企業(yè)首先可以通過(guò)市場(chǎng)調(diào)查,獲取自己和所有主要競(jìng)爭(zhēng)者在品牌方面的第一提及知名度、提示前知名度和提示后知名度的指標(biāo)值,將它們作為聚類分析的變量,這樣便可以將企業(yè)和競(jìng)爭(zhēng)對(duì)手的產(chǎn)品或品牌歸類。根據(jù)歸類的結(jié)論,企業(yè)可以獲得如下信息:企業(yè)的產(chǎn)品或品牌和哪些競(jìng)爭(zhēng)對(duì)手形成了直接的競(jìng)爭(zhēng)關(guān)系。通常,聚類以后屬于同一類別的產(chǎn)品和品牌就是所分析企業(yè)的直接競(jìng)爭(zhēng)對(duì)手。在制定戰(zhàn)略時(shí),可以更多的運(yùn)用“紅海戰(zhàn)略”。在聚類以后,結(jié)合每一產(chǎn)品或品牌的多種不同屬性的研究,可以發(fā)現(xiàn)哪些屬性組合目前還沒(méi)有融入產(chǎn)品或品牌中,從而尋找企業(yè)在市場(chǎng)中的機(jī)會(huì),為企業(yè)制定合理的“藍(lán)海戰(zhàn)略”提供基礎(chǔ)性的資料。