聚類分析
1.聚類分析概述
聚類分析(Cluster Analysis)又稱群分析,是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學工具進行定量的分類。隨著人類科學技術的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學工具引用到了分類學中,形成了數(shù)值分類學,之后又將多元分析的技術引入到數(shù)值分類學形成了聚類分析。
聚類分析被應用于很多方面,在商業(yè)上,聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征;在生物上,聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識;在地理上,聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性;在保險行業(yè)上,聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產(chǎn)分組;在因特網(wǎng)應用上,聚類分析被用來在網(wǎng)上進行文檔歸類來修復信息。
聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標就是在相似的基礎上收集數(shù)據(jù)來分類。聚類源于很多領域,包括數(shù)學,計算機科學,統(tǒng)計學,生物學和經(jīng)濟學。在不同的應用領域,很多聚類技術都得到了發(fā)展,這些技術方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。
2.聚類分析的計算方法
聚類分析計算方法主要有如下幾種:分裂法(partitioning methods):層次法(hierarchical methods):基于密度的方法(density-based methods): 基于網(wǎng)格的方法(grid-basedmethods): 基于模型的方法(model-based methods)。
1、分裂法又稱劃分方法(PAM:PArtitioning method) 首先創(chuàng)建k個劃分,k為要創(chuàng)建的劃分個數(shù);然后利用一個循環(huán)定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。
- 典型的劃分方法包括:
- k-means,k-medoids,CLARA(Clustering LARge Application),
- CLARANS(Clustering Large Application based upon RANdomized Search).
- FCM
2、層次法(hierarchical method) 創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結合,如循環(huán)定位。
- 典型的這類方法包括:
- BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然后再利用其它聚類方法對這些聚類進行優(yōu)化。
- CURE(Clustering Using REprisentatives) 方法,它利用固定數(shù)目代表對象來表示相應聚類;然后對各聚類按照指定量(向聚類中心)進行收縮。
- ROCK方法,它利用聚類間的連接進行聚類合并。
- CHEMALOEN方法,它則是在層次聚類時構造動態(tài)模型。
3、基于密度的方法,根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度(如DBSCAN)不斷增長聚類。
- 典型的基于密度方法包括:
- DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密度區(qū)域來進行聚類;它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個聚類定義為一組“密度連接” 的點集。
- OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產(chǎn)生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。
4、基于網(wǎng)格的方法,首先將對象空間劃分為有限個單元以構成網(wǎng)格結構;然后利用網(wǎng)格結構完成聚類。
- 典型的基于網(wǎng)格的方法包括:
- STING(STatistical INformation Grid) 就是一個利用網(wǎng)格單元保存的統(tǒng)計信息進行基于網(wǎng)格聚類的方法。
- CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基于網(wǎng)格與基于密度相結合的方法。
5、基于模型的方法,它假設每個聚類的模型并發(fā)現(xiàn)適合相應模型的數(shù)據(jù)。
- 典型的基于模型方法包括:
傳統(tǒng)的聚類算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問題。但是由于實際應用中數(shù)據(jù)的復雜性,在處理許多問題時,現(xiàn)有的算法經(jīng)常失效,特別是對于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因為傳統(tǒng)聚類方法在高維數(shù)據(jù)集中進行聚類時,主要遇到兩個問題。①高維數(shù)據(jù)集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進行聚類的,因此在高維空間中無法基于距離來構建簇。
高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數(shù)據(jù)聚類也是聚類技術的難點。隨著技術的進步使得數(shù)據(jù)收集變得越來越容易,導致數(shù)據(jù)庫規(guī)模越來越大、復雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達數(shù)據(jù)等,它們的維度(屬性)通??梢赃_到成百上千維,甚至更高。但是,受“維度效應”的影響,許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個非?;钴S的領域,同時它也是一個具有挑戰(zhàn)性的工作。目前,高維數(shù)據(jù)聚類分析在市場分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應用。
3.聚類分析的特征
聚類分析是根據(jù)事物本身的特性研究個體的一種方法,目的在于將相似的事物歸類。它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大。這種方法有三個特征:
(1)適用于沒有先驗知識的分類。如果沒有這些事先的經(jīng)驗或一些國際標準、國內標準、行業(yè)標準,分類便會顯得隨意和主觀。這時只要設定比較完善的分類變量,就可以通過聚類分析法得到較為科學合理的類別;
可以處理多個變量決定的分類。例如,要根據(jù)消費者購買量的大小進行分類比較容易,但如果在進行數(shù)據(jù)挖掘時,要求根據(jù)消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題;
(3)聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規(guī)律,并根據(jù)相似性原則對事物進行分組,是數(shù)據(jù)挖掘中常用的一種技術。
4.聚類分析在市場分析中的應用
這種較成熟的統(tǒng)計學方法如果在市場分析中得到恰當?shù)膽?,必將改善市場營銷的效果,為企業(yè)決策提供有益的參考。其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟件(如SPSS、SAS等)求得結果,由專家解讀結果,并轉換為實際操作措施,從而提高企業(yè)利潤,降低企業(yè)成本。
聚類分析在客戶細分中的應用
消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業(yè)可以制定出不同的營銷組合,從而獲取最大的消費者剩余,這就是客戶細分的主要目的。常用的客戶分類方法主要有三類:經(jīng)驗描述法,由決策者根據(jù)經(jīng)驗對客戶進行類別劃分;傳統(tǒng)統(tǒng)計法,根據(jù)客戶屬性特征的簡單統(tǒng)計來劃分客戶類別;非傳統(tǒng)統(tǒng)計方法,即基于人工智能技術的非數(shù)值方法。聚類分析法兼有后兩類方法的特點,能夠有效完成客戶細分的過程。
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定。要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變量,并將所有目標客戶每一個分析變量的指標值量化出來,再運用聚類分析法進行分類。在指標值量化時如果遇到一些定性的指標值,可以用一些定性數(shù)據(jù)定量化的方法加以轉化,如模糊評價法等。除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類;還可以在區(qū)分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變量劃分為五類:產(chǎn)品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據(jù)這些分析變量聚類得到的歸類,可以為企業(yè)制定營銷決策提供有益參考。
以上分析的共同點在于都是依據(jù)多個變量進行分類,這正好符合聚類分析法解決問題的特點;不同點在于從不同的角度尋求分析變量,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現(xiàn)。
聚類分析在實驗市場選擇中的應用
實驗調查法是市場調查中一種有效的一手資料收集方法,主要用于市場銷售實驗,即所謂的市場測試。通過小規(guī)模的實驗性改變,以觀察客戶對產(chǎn)品或服務的反應,從而分析該改變是否值得在大范圍內推廣。
實驗調查法最常用的領域有:市場飽和度測試。市場飽和度反映市場的潛在購買力,是市場營銷戰(zhàn)略和策略決策的重要參考指標。企業(yè)通常通過將消費者購買產(chǎn)品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度?;蛘咴诔霈F(xiàn)滯銷時,企業(yè)投放類似的新產(chǎn)品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力。前述兩種措施由于利益和風險的原因,不可能在企業(yè)覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產(chǎn)品的價格實驗。這種實驗往往將新定價的產(chǎn)品投放市場,對顧客的態(tài)度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產(chǎn)品上市實驗。波士頓矩陣研究的企業(yè)產(chǎn)品生命周期圖表明,企業(yè)為了生存和發(fā)展往往要不斷開發(fā)新產(chǎn)品,并使之向明星產(chǎn)品和金牛產(chǎn)品順利過渡。然而新產(chǎn)品投放市場后的失敗率卻很高,大致為66%到90%。因而為了降低新產(chǎn)品的失敗率,在產(chǎn)品大規(guī)模上市前,運用實驗調查法對新產(chǎn)品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的。
在實驗調查方法中,最常用的是前后單組對比實驗、對照組對比實驗和前后對照組對比實驗。這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同。
通過聚類分析,可將待選的實驗市場(商場、居民區(qū)、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性。聚類時,商店的規(guī)模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變量。聚類分析在抽樣方案設計中的應用
抽樣設計是市場調查中非常重要的一個部分,它的合理性直接決定了市場調查結果的可信度。在抽樣方案設計的步驟中,抽樣組織形式的選擇又是一個關鍵環(huán)節(jié),它決定了樣本對總體的代表性的高低。依據(jù)抽樣誤差由低到高的順序排列,按照標志排隊的等距抽樣方式抽樣誤差最小,其次分別為分層抽樣、按照無關標志排隊的等距抽樣、簡單隨機抽樣、整群抽樣和非隨機抽樣。結合資源的限制和操作的方便性進行綜合選擇,分層抽樣在實踐中的應用最為廣泛。分層抽樣又稱類型抽樣,它是先將總體所有單位按照重要標志進行分組,然后在各組內按照簡單隨機抽樣或等距抽樣方式抽取樣本單位的一種抽樣方式。在分組時引入聚類方法,可以增強組別的合理性。
聚類分析在銷售片區(qū)確定中的應用
銷售片區(qū)的確定和片區(qū)經(jīng)理的任命在企業(yè)的市場營銷中發(fā)揮著重要的作用。只有合理地將企業(yè)所擁有的子市場歸成幾個大的片區(qū),才能有效地制定符合片區(qū)特點的市場營銷戰(zhàn)略和策略,并任命合適的片區(qū)經(jīng)理。聚類分析在這個過程中的應用可以通過一個例子來說明。某公司在全國有20個子市場,每個市場在人口數(shù)量、人均可支配收入、地區(qū)零售總額、該公司某種商品的銷售量等變量上有不同的指標值。以上變量都是決定市場需求量的主要因素。把這些變量作為聚類變量,結合決策者的主觀愿望和相關統(tǒng)計軟件提供的客觀標準,接下來就可以針對不同的片區(qū)制定合理的戰(zhàn)略和策略,并任命合適的片區(qū)經(jīng)理了。
聚類分析在市場機會研究中的應用
企業(yè)制定市場營銷戰(zhàn)略時,弄清在同一市場中哪些企業(yè)是直接競爭者,哪些是間接競爭者是非常關鍵的一個環(huán)節(jié)。要解決這個問題,企業(yè)首先可以通過市場調查,獲取自己和所有主要競爭者在品牌方面的第一提及知名度、提示前知名度和提示后知名度的指標值,將它們作為聚類分析的變量,這樣便可以將企業(yè)和競爭對手的產(chǎn)品或品牌歸類。根據(jù)歸類的結論,企業(yè)可以獲得如下信息:企業(yè)的產(chǎn)品或品牌和哪些競爭對手形成了直接的競爭關系。通常,聚類以后屬于同一類別的產(chǎn)品和品牌就是所分析企業(yè)的直接競爭對手。在制定戰(zhàn)略時,可以更多的運用“紅海戰(zhàn)略”。在聚類以后,結合每一產(chǎn)品或品牌的多種不同屬性的研究,可以發(fā)現(xiàn)哪些屬性組合目前還沒有融入產(chǎn)品或品牌中,從而尋找企業(yè)在市場中的機會,為企業(yè)制定合理的“藍海戰(zhàn)略”提供基礎性的資料。