在增量提升曲線中標(biāo)示了各個(gè)分段的命中數(shù)。 在圖1中可以看到,增量提升曲線在第4個(gè)分段后和隨機(jī)期望線(275個(gè)響應(yīng)的10%,即平均每個(gè)分段27.5個(gè)響應(yīng))交叉。 不管營(yíng)銷經(jīng)理怎么去看,上述的表格和圖形都可以把必要的信息傳遞給他們。 營(yíng)銷人員可以借助模型評(píng)估工具,來(lái)設(shè)定要給多少個(gè)客戶發(fā)郵件。 以表1為例,營(yíng)銷人員可以向前四個(gè)分段的客戶(占整個(gè)評(píng)分名單的40%)發(fā)郵件,并預(yù)期可以命中70%的潛在響應(yīng)客戶。
很多數(shù)據(jù)挖掘工具的廠商都對(duì)這個(gè)過(guò)程進(jìn)行了簡(jiǎn)化,使之更加清晰。 SAS將數(shù)據(jù)挖掘過(guò)程劃分為五個(gè)階段: 抽樣(Sample),解釋(Explain),處理(Manipulate),建模(Model),評(píng)估(Assess)。 過(guò)去人們常用循環(huán)式的飲水器來(lái)比喻數(shù)據(jù)挖掘過(guò)程。 水(數(shù)據(jù))首先涌上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經(jīng)處理過(guò)”的水之后,就溢出來(lái)流到下一個(gè)更低的層中。 不斷地進(jìn)行這種“處理”,直到水流到最低層。在那里它被抽回頂層,開始新一輪的“處理”。 數(shù)據(jù)挖掘和這種層次式的疊代過(guò)程非常相像。 甚至在很多數(shù)據(jù)挖掘算法的內(nèi)部處理也是如此,比如神經(jīng)網(wǎng)絡(luò)算法,就是在數(shù)據(jù)集上多次運(yùn)行(epochs),直至發(fā)現(xiàn)最優(yōu)解。 Insightful Miner已經(jīng)在其用戶界面中內(nèi)建了簡(jiǎn)單過(guò)程模型。 這種集成可以幫助用戶把必要的數(shù)據(jù)挖掘任務(wù)組織起來(lái),讓任務(wù)能夠按照正確的順序來(lái)處理。
但使用飲水器來(lái)比喻數(shù)據(jù)挖掘過(guò)程還不算恰當(dāng),因?yàn)樗鼪](méi)有反映出反饋環(huán)路,而反饋環(huán)路在數(shù)據(jù)挖掘過(guò)程中是很常見(jiàn)的。 例如,通過(guò)數(shù)據(jù)評(píng)估可以發(fā)現(xiàn)異常的數(shù)據(jù),從而要求從源系統(tǒng)中抽取更多的數(shù)據(jù)。 或者,在建模之后,會(huì)發(fā)現(xiàn)需要更多的記錄才能反映總體的分布。
在CRISP過(guò)程模型中進(jìn)行了解決這個(gè)問(wèn)題的嘗試,該模型是由Daimler-Benz、ISL (Clementine的開發(fā)者)和NCR共同制定的。 CRISP同時(shí)也被集成到Clementine挖掘工具(現(xiàn)在屬于SPSS公司)的設(shè)計(jì)中。 CRISP幾乎反映了完整的數(shù)據(jù)挖掘環(huán)境。

圖2: CRISP圖例
使用數(shù)據(jù)建模其實(shí)和做陶土模型或者大理石模型差不多。 藝術(shù)家首先從一大堆材料開始著手,經(jīng)過(guò)許多次的加工和檢查,才誕生了最終的藝術(shù)品。很多人在建模過(guò)程中常常沒(méi)有充分理解建模的本質(zhì),由此帶來(lái)了一系列問(wèn)題,使得建模變得很復(fù)雜。 Eric King發(fā)現(xiàn)數(shù)據(jù)挖掘是一個(gè)循環(huán)的過(guò)程(就象上圖中的CRISP流程圖),而非線性的過(guò)程。 這種循環(huán)式的數(shù)據(jù)挖掘過(guò)程會(huì)讓您想起Wankel轉(zhuǎn)式汽車發(fā)動(dòng)機(jī)。 這種發(fā)動(dòng)機(jī)是一圈一圈旋轉(zhuǎn)的(而非上下運(yùn)動(dòng)),不斷輸出動(dòng)能來(lái)驅(qū)動(dòng)汽車。 與之相似,數(shù)據(jù)挖掘過(guò)程也是不斷循環(huán),產(chǎn)生信息來(lái)幫助我們完成商業(yè)目標(biāo)。 信息就是推動(dòng)商業(yè)的“能量”。 在挖掘過(guò)程中會(huì)有很多對(duì)前一個(gè)階段的反饋(例如,在完成初步建模之后可能需要獲取更多的數(shù)據(jù))。
不過(guò),在CRISP流程中還是遺漏了一個(gè)要素——那就是對(duì)數(shù)據(jù)倉(cāng)庫(kù)或源系統(tǒng)的反饋。 前一次CRM營(yíng)銷活動(dòng)的結(jié)果應(yīng)該導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù),為后續(xù)的建模提供指導(dǎo),并能跟蹤營(yíng)銷活動(dòng)間的變化趨勢(shì)。 我在CRISP流程圖中加入了這些反饋,以紅線表示(見(jiàn)圖2)。
通過(guò)數(shù)據(jù)挖掘過(guò)程的結(jié)構(gòu),我們可以得知數(shù)據(jù)挖掘工具必需能完成那些任務(wù),但是工具常常會(huì)缺少對(duì)部分功能的支持。 當(dāng)產(chǎn)生了挖掘結(jié)果時(shí),你會(huì)怎么使用這些結(jié)果呢? 此外,針對(duì)挖掘結(jié)果所采取的這些行動(dòng)又將如何影響后續(xù)的挖掘? 數(shù)據(jù)挖掘工具應(yīng)該具備的一些功能包括:
- 將模型導(dǎo)出到多種數(shù)據(jù)庫(kù)結(jié)構(gòu)中
- 模型的導(dǎo)出格式,適合于決策支持和商業(yè)行動(dòng)的應(yīng)用
- 挖掘算法的輸出數(shù)據(jù),可以為另外的算法所用
- 能夠比較不同算法的結(jié)果
IT專家網(wǎng)