數(shù)據(jù)整理
1.數(shù)據(jù)整理概述
數(shù)據(jù)整理是對調(diào)查、觀察、實驗等研究活動中所搜集到的資料進(jìn)行檢驗、歸類編碼和數(shù)字編碼的過程。它是數(shù)據(jù)統(tǒng)計分析的基礎(chǔ)。
在二十世紀(jì)90年代中晚期,為了揭示一些隱含數(shù)據(jù)性質(zhì)、趨勢和模式,很多商家開始探討把傳統(tǒng)的統(tǒng)計和人工智能分析技術(shù)應(yīng)用到大型數(shù)據(jù)庫的可行性問題,這些探討最終發(fā)展成為基于統(tǒng)計分析技術(shù)的正規(guī)數(shù)據(jù)整理工具。
2.數(shù)據(jù)整理技術(shù)
從商業(yè)角度來看,從前未知的統(tǒng)計分析模式或趨勢的發(fā)現(xiàn)為企業(yè)提供了非常有價值的洞察力。數(shù)據(jù)整理技術(shù)能夠為企業(yè)對未來的發(fā)展具有一定的預(yù)見性。而OLTP僅僅能夠?qū)崿F(xiàn)對過去的數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)整理技術(shù)可以分成3類:群集、分類和預(yù)測。
群集技術(shù)就是在無序的方式下集中信息。群集的一個例子就是對未知特點的群體商業(yè)客戶的分析,對這一例子輸入相關(guān)信息就可以很好的定義客戶的特點。
分類技術(shù)就是集中和指定object以預(yù)先確定事先定義好值的集合。集合通常用上面的技術(shù)來形成,可以舉一個例子就是把客戶按照他們的收入水平分成特定的銷售群體。
預(yù)測技術(shù)就是對某些特定的對象和目錄輸入已知值,并且把這些值應(yīng)用到另一個類似集合中以確定期望值或結(jié)果。比如,一組戴頭盔和肩章的人是足球隊的,那么我們也認(rèn)為另一組帶頭盔和肩章的人也是足球隊的。
下面的這幾條是現(xiàn)在常用的數(shù)據(jù)整理技術(shù),每種技術(shù)都存在集中變異,而且可以應(yīng)用到上面幾種技術(shù)中。
- 回退模型――這一技術(shù)把標(biāo)準(zhǔn)統(tǒng)計技術(shù)應(yīng)用到數(shù)據(jù)中來證明或推翻事先的假設(shè)。一個例子就是線性回退,這種情況下變量是根據(jù)一定時間內(nèi)標(biāo)準(zhǔn)或變化路徑來衡量。另一個例子是邏輯回退,這種情況下是根據(jù)以前相似事件發(fā)生的已知值來確定事件發(fā)生的可能性。
- 可視化――這一技術(shù)是建立多維圖形,讓數(shù)據(jù)分析人員確定數(shù)據(jù)的變化趨勢、模式以及相互關(guān)系。
- 相關(guān)性――這一技術(shù)用來確定數(shù)據(jù)集合內(nèi)兩個或多個變量間的相互關(guān)系。
- 變化分析――這一統(tǒng)計技術(shù)是用來確定目標(biāo)或已知變量與非獨立變量或可變數(shù)據(jù)集合間平均值的差異。
- 差異分析――這一分類技術(shù)用于確定或“區(qū)別”集合中的關(guān)系要素。
- 預(yù)測――預(yù)測技術(shù)是根據(jù)過去事件的已知值來確定未知結(jié)果
- 群集技術(shù)――群集技術(shù)是把數(shù)據(jù)分成很多組,并分析這些組的特性。
- 決策樹――決策樹是采用能用“if-then-else”語言表示的規(guī)則來分配數(shù)據(jù)。
- 神經(jīng)網(wǎng)絡(luò)――神經(jīng)網(wǎng)絡(luò)是用來模擬已知函數(shù)的數(shù)據(jù)模型,這一技術(shù)通過對數(shù)據(jù)進(jìn)行迭代,同時在確定變化模式和趨勢上有更大的靈活性。
3.數(shù)據(jù)整理的方法
(1)歸納法: 可應(yīng)用直方圖、分組法、層別法及統(tǒng)計解析法。
(2)演繹法: 可應(yīng)用要因分析圖、散布圖及相關(guān)回歸分析。
(3)預(yù)防法: 通稱管制圖法, 包括Pn管制圖、P管制圖、C管制圖、U管制圖、管制圖、X-Rs管制圖。
4.數(shù)據(jù)整理的步驟
(1)原始數(shù)據(jù)之審核。
(2)分類項目之確定。
(3)施行歸類整理。
(4)列表。
(5)繪圖。
5.數(shù)據(jù)整理的注意事項
(1)現(xiàn)場收集數(shù)據(jù), 應(yīng)逐日、逐周和品管部門所收集的數(shù)據(jù)作核對, 以求整理真實且具有代表性的數(shù)據(jù)。
(2)數(shù)據(jù)整理, 改善前、后所具備的條件要一致, 如此所作的數(shù)據(jù)整理和比較才有意義。
(3)異常發(fā)生要采取措施, 一定要以整理后之?dāng)?shù)據(jù)為研究依據(jù)。
(4)使用經(jīng)別人發(fā)表的次級數(shù)據(jù)應(yīng)注意:
- a.原搜集數(shù)據(jù)之目的與數(shù)據(jù)之來源如何?
- b.原使用之單位是否與所欲研究者一致, 如不一致應(yīng)如何調(diào)整始為合用?
- c.原來搜集所得之?dāng)?shù)字, 可靠程度如何? 如何靠當(dāng)然可以取用, 不可靠時, 應(yīng)尋求原因, 力謀解決。
- d.原來搜集方法如何? 有無重復(fù)或遺漏之處?
- e.如根據(jù)兩種以上不同原始來源之?dāng)?shù)據(jù), 使用之前應(yīng)查明其內(nèi)容互異之處, 尋求錯誤原因再定取舍。