大規(guī)模定制企業(yè)CRM系統(tǒng)中數(shù)據(jù)倉庫的應(yīng)用設(shè)計
劉同華 吳清烈 2008/07/15
少量的客戶數(shù)據(jù)不足以提供有關(guān)客戶偏好和消費(fèi)的真實、實時的信息。從客戶數(shù)據(jù)的來源來看,客戶數(shù)據(jù)有一部分可以從企業(yè)現(xiàn)有的操作型系統(tǒng)獲取,如ERP、SCM、HR系統(tǒng)但這對有效的客戶智能實現(xiàn)是遠(yuǎn)遠(yuǎn)不夠的。
一、大規(guī)模定制客戶智能數(shù)據(jù)倉庫技術(shù)
數(shù)據(jù)的抽取。由于數(shù)據(jù)倉庫是一個獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量,轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面。
數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫遇到的第一個問題是對大量數(shù)據(jù)的存儲和管理。這里所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多且隨時間的推移而累積。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了其對外部數(shù)據(jù)表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。從當(dāng)今的技術(shù)發(fā)展來看,面向決策支持?jǐn)U充的并行關(guān)系數(shù)據(jù)庫將是數(shù)據(jù)倉庫的核心。
數(shù)據(jù)的表現(xiàn)。實際的應(yīng)用中,客戶需要通過對數(shù)據(jù)的統(tǒng)計來驗證他們對某些事物的假設(shè),以進(jìn)行決策。與數(shù)理統(tǒng)計相似,數(shù)據(jù)挖掘與數(shù)據(jù)倉庫也沒有直接的聯(lián)系,而且這個概念在現(xiàn)實中有些含混。數(shù)據(jù)挖掘強(qiáng)調(diào)的不僅僅是驗證人們對數(shù)據(jù)特性的假設(shè),而且它更要主動地尋找并發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律。市場上許多數(shù)據(jù)挖掘工具并不是真正尋找出數(shù)據(jù)的規(guī)律,而是驗證盡可能多的假設(shè),最后由人來判斷其合理性。因此在當(dāng)前的數(shù)據(jù)倉庫應(yīng)用中有效地利用數(shù)理統(tǒng)計就已經(jīng)能夠獲得可觀的效益。
二、客戶數(shù)據(jù)倉庫模型設(shè)計
數(shù)據(jù)結(jié)構(gòu)圖。星型和雪花結(jié)構(gòu)是在數(shù)據(jù)倉庫中最為廣泛的數(shù)據(jù)結(jié)構(gòu),它們的主要優(yōu)點(diǎn)是能提供多維的模式,并能實現(xiàn)對數(shù)據(jù)的快速查詢和連接。星型結(jié)構(gòu)是非范式、以查詢?yōu)橹行牡哪P停@種模型的最大優(yōu)點(diǎn)是能夠提供所謂的星連接,通過一步連接就可以獲取大部分所需要的信息,并能很快得到輸出結(jié)果,這種模型里信息可分為兩大類:事實表和維表。
概念模型設(shè)計。概念模型設(shè)計是建立數(shù)據(jù)倉庫的第一步,是主客觀之間的一個橋梁,是客觀世界到機(jī)器世界的一個中間層次。描述概念模型最常用的方法是E-R圖法,運(yùn)用E-R圖可以清晰的表示客戶、訂單和產(chǎn)品之間的關(guān)系。
數(shù)據(jù)結(jié)構(gòu)圖。星型和雪花結(jié)構(gòu)是在數(shù)據(jù)倉庫中應(yīng)用最為廣泛的數(shù)據(jù)結(jié)構(gòu),它們的主要優(yōu)點(diǎn)是能夠提供多為的模式,并能實現(xiàn)對數(shù)據(jù)的快速查詢和連接。星型結(jié)構(gòu)勢非范式的,以查詢?yōu)橹行牡哪P,這種模型的最大優(yōu)點(diǎn)是能夠提供所謂的星連接,通過一步連接就可以獲取大部分所需要的信息,并能很快得到輸出結(jié)果,這種模型里信息可分為兩大類:事實表和維表。
邏輯數(shù)據(jù)模型設(shè)計。邏輯模型式通用化的數(shù)據(jù)模型它的典型產(chǎn)品是實體關(guān)系圖,用于描述現(xiàn)實世界中實體和實體間的關(guān)系。
(1)客戶數(shù)據(jù)。少量的客戶數(shù)據(jù)不足以提供有關(guān)客戶偏好和消費(fèi)的真實、實時的信息。從客戶數(shù)據(jù)的來源來看,客戶數(shù)據(jù)有一部分可以從企業(yè)現(xiàn)有的操作型系統(tǒng)獲取,如ERP、SCM、HR系統(tǒng)但這對有效的客戶智能實現(xiàn)是遠(yuǎn)遠(yuǎn)不夠的。大多客戶知識的發(fā)現(xiàn)需要集成至少5年甚至更長時間的客戶數(shù)據(jù)。因此,能對客戶智能起到全面支持作用的數(shù)據(jù)環(huán)境必須包括集成的客戶數(shù)據(jù)和該客戶的歷史數(shù)據(jù)。
(2)產(chǎn)品數(shù)據(jù)。產(chǎn)品數(shù)據(jù)包括下面幾個方面:產(chǎn)品類別信息:包括類別ID和名稱;產(chǎn)品價格信息:產(chǎn)品ID、單價等;產(chǎn)品材料信息:材料ID、名稱;供應(yīng)商信息:供應(yīng)商ID、名稱、供應(yīng)價、供應(yīng)日期。
(3)訂單信息數(shù)據(jù)。訂單信息包括下面幾個方面:訂單固有信息:包括訂單ID、日期等;客戶信息:包括客戶ID、名稱等;產(chǎn)品信息:包括產(chǎn)品名稱、設(shè)計屬性等。
三、數(shù)據(jù)倉庫的物理設(shè)計
(1)表空間設(shè)計。表空間設(shè)計主要是為了把邏輯意義的區(qū)分開,也為性能考慮,所以可以在表名前加前綴作為區(qū)分表所在的區(qū)。
(2)歸檔設(shè)計。由于數(shù)據(jù)在數(shù)據(jù)倉庫中的頻繁加載、刪除,以及插入的操作,如果選用歸檔模式會使數(shù)據(jù)倉庫產(chǎn)生大量日志。如果歸檔將嚴(yán)重影響性能,而且數(shù)據(jù)倉庫對數(shù)據(jù)恢復(fù)的要求不高,所以采用非歸檔模式。
(3)安全性設(shè)計。數(shù)據(jù)庫中所有法人用任務(wù)表全部放在一個用戶下,以方便在各個區(qū)之間加載轉(zhuǎn)換,再建一個用戶用于展現(xiàn),對所有的業(yè)務(wù)表只有只讀權(quán)限。
(4)參數(shù)設(shè)計。由于數(shù)據(jù)倉庫經(jīng)常刪除、插入,很少更新的特點(diǎn),相對一般業(yè)務(wù)系統(tǒng),加大塊的大小,增加preused和減少prefree。
(5)備份恢復(fù)。這里采用每2天一次冷備份和一周一次邏輯備份?梢越邮芑謴(fù)兩天前的數(shù)據(jù),然后通過ETL重新從源數(shù)據(jù)庫中獲取最新數(shù)據(jù)。
http://crm.ctocio.com.cn
相關(guān)鏈接: