首頁>>>技術>>>CRM  CRM產品

數據挖掘在電信行業(yè)關系管理的應用

龍志勇 中國電信集團北京研究院技術部研發(fā)人員 2004/01/06

  摘 要 文章介紹了數據挖掘技術的相關知識及其在電信行業(yè)客戶關系管理中的應用,并以客戶流失分析作為實例,詳細描述了數據挖掘的整個應用過程,最后對國內數據挖掘應用的現狀進行了分析。

  關鍵詞 數據挖掘 客戶關系管理 客戶流失

  隨著國內電信市場競爭的日趨激烈,電信運營商的經營模式逐漸從“技術驅動”向“市場驅動”、“客戶驅動”轉化。這就要求運營商要采取以客戶為中心的策略,根據客戶的實際需求提供多樣化、層次化、個性化的服務解決方案。因此,客戶關系管理(CRM)成了電信運營商增加收入和利潤,提高客戶滿意度、忠誠度的有效工具。在客戶關系管理的流程中,為了準確、及時地進行經營決策,必須充分獲取并利用相關的數據信息對決策過程進行輔助支持。近幾年迅速發(fā)展起來的數據挖掘技術就是實現這一目標的重要手段。

一、數據挖掘的概念和過程

1.數據挖掘的概念

  數據挖掘是根據企業(yè)的既定業(yè)務目標和存在的問題,對大量的業(yè)務數據進行探索,揭示其中隱藏的規(guī)律,并將其模型化,指導并應用于企業(yè)的實際經營。

  數據挖掘是建立在數據倉庫基礎上的高層應用,但數據挖掘跟數據倉庫的其它一些應用如OLAP分析、預定義報表和即席查詢等有很大的區(qū)別。后三者通常是用戶根據已知的情況對所關心的業(yè)務指標進行分析;而前者則是在業(yè)務問題和目標明確但考察的問題不清楚時,對數據進行探索,揭示隱藏其中的規(guī)律性,進而將其模型化。

2.數據挖掘過程

  數據挖掘是一個循環(huán)往復的過程,通常涉及數據準備、建立模型、評估和解釋模型、運用和鞏固模型等步驟。

(1)數據準備:數據準備工作包括數據的選擇(選擇相關和合適的數據)、探索(了解數據分布情況和異常數據等)、修正(包括缺失數據的插值等)和變換(離散值數據與連續(xù)值數據的相互轉換,數據的分組分類,數據項的計算組合等)。

(2)建立模型:選取數據挖掘工具提供的算法并應用于準備好的數據,選取相應參數,生成模型。

(3)評估和解釋模型:對模型進行比較和評估,生成一個相對最優(yōu)模型,并對此模型用業(yè)務語言加以解釋。

(4)運用和鞏固模型:對模型在實際應用中的表現進行監(jiān)控,如果模型表現不好,則對模型作進一步的考察和修正,以反映業(yè)務運作規(guī)律的變化。

二、數據挖掘在客戶關系管理中的應用

  電信運營商擁有許多成熟的數據庫應用系統(tǒng),如網管系統(tǒng)、財務系統(tǒng)、計費賬務系統(tǒng)、112障礙管理系統(tǒng)、繳費銷賬系統(tǒng)等,并產生了大量的業(yè)務處理數據。如果針對客戶關系管理相關決策分析的需求,對這些數據進行重組整合,就能充分利用這些寶貴的數據,體現信息的真正價值。

數據挖掘技術在電信行業(yè)客戶關系管理的主要應用領域如下:

(1)客戶消費模式分析

  客戶消費模式分析(如固話話費行為分析)是對客戶歷年來長話、市話、信息臺的大量詳單、數據以及客戶檔案資料等相關數據進行關聯分析,結合客戶的分類,可以從消費能力、消費習慣、消費周期等諸方面對客戶的話費行為進行分析和預測,從而為固話運營商的相關經營決策提供依據。

(2)客戶市場推廣分析

  客戶市場推廣分析(如優(yōu)惠策略預測仿真)是利用數據挖掘技術實現優(yōu)惠策略的仿真,根據數據挖掘模型進行模擬計費和模擬出賬,其仿真結果可以揭示優(yōu)惠策略中存在的問題,并進行相應的調整優(yōu)化,以達到優(yōu)惠促銷活動的收益最大化。

(3)客戶欠費分析和動態(tài)防欺詐

  通過數據挖掘,總結各種騙費、欠費行為的內在規(guī)律,并建立一套欺詐和欠費行為的規(guī)則庫。當客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關部門采取措施,從而降低運營商的損失風險。

(4)客戶流失分析

  根據已有的客戶流失數據,建立客戶屬性、服務屬性、客戶消費情況等數據與客戶流失概率相關聯的數學模型,找出這些數據之間的關系,并給出明確的數學公式。然后根據此模型來監(jiān)控客戶流失的可能性,如果客戶流失的可能性過高,則通過促銷等手段來提高客戶忠誠度,防止客戶流失的發(fā)生。這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現客戶關懷的狀況。

三、數據挖掘的應用實例——客戶流失分析

  一個完整的數據挖掘過程可進一步細分為:業(yè)務問題定義,數據選擇,數據清洗和預處理,模型選擇與預建立,模型建立與調整,模型的評估與檢驗,模型解釋與應用。

1.業(yè)務問題定義

  針對客戶流失的不同種類分別定義業(yè)務問題,進而區(qū)別處理。在客戶流失分析中有兩個核心變量:財務原因/非財務原因、主動流失/被動流失?蛻袅魇Э梢韵鄳譃樗姆N類型,其中非財務原因主動流失的客戶往往是高價值的客戶,他們會正常支付服務費用,并容易對市場活動有所響應。這種客戶是我們真正需要保住的客戶。此外在分析客戶流失時必須區(qū)分集團/個人客戶,以及不同消費水平的客戶,并有針對性地制定不同的流失標準。例如,平均月消費額2 000元的客戶連續(xù)幾個月消費額降低到500元以下,就可以認為客戶流失發(fā)生了,而這個流失標準不適用于原來平均月消費額500元的客戶。國外成熟的應用中通常根據相對指標來判別客戶流失,例如大眾的個人通信費用約占總收入的1%~3%,當客戶的個人通信費用遠低于此比例時,就認為發(fā)生了客戶流失。

2.數據選擇

  數據選擇包括目標變量的選擇、輸入變量的選擇和建模數據的選擇。

(1)目標變量的選擇

  客戶流失分析的目標變量通常為客戶流失狀態(tài)。根據業(yè)務問題的定義,可以選擇一個已知量或多個已知量的組合作為目標變量。實際的客戶流失形式有兩種:因賬戶取消發(fā)生的流失,因賬戶休眠發(fā)生的流失。對于因賬戶取消發(fā)生的流失,目標變量可以直接選取客戶的賬戶狀態(tài)(取消或正常);對于因賬戶休眠發(fā)生的流失,可以認為持續(xù)休眠超過一定時間長度的客戶發(fā)生了流失。這時需要對相關的具體問題加以考慮:持續(xù)休眠的時間長度定義為多少?每月通話金額低于多少即認為處于休眠狀態(tài),或者是綜合考慮通話金額、通話時長和通話次數來劃定休眠標準?選擇目標變量時面臨的這些問題需要業(yè)務人員給予明確的回答。

(2)輸入變量的選擇

  輸入變量是模型中的自變量,在建模過程中需要尋找自變量與目標變量的關聯。輸入變量分為靜態(tài)數據和動態(tài)數據。靜態(tài)數據指不常變化的數據,包括服務合同屬性(如服務類型、服務時間、交費類型)和客戶的基本資料(如性別、年齡、收入、婚姻狀況、學歷、職業(yè)、居住地區(qū));動態(tài)數據指頻繁或定期改變的數據,如月消費金額、交費記錄、消費特征。業(yè)務人員在實際業(yè)務活動中可能會感覺到輸入變量與目標變量的內在聯系,只是無法量化表示出來,這就給數據挖掘留下了發(fā)揮的空間。如果一時無法確定某種數據是否與客戶流失概率有關聯,應該暫時將其選入模型,并在后續(xù)步驟考察各變量分布情況和相關性時再行取舍。

(3)建模數據的選擇

  客戶流失的方式有兩種。第一種是客戶的自然消亡,例如身故、破產、遷徙、移民而導致客戶不再存在,或者由于客戶服務的升級(如撥號接入升級為ADSL接入)造成特定服務的目標客戶消失。第二種是客戶的轉移流失,通常指客戶轉移到競爭對手,并使用其服務。第二種流失的客戶才是運營商真正關心的、具有挽留價值的客戶。因此在選擇建模數據時必須選擇第二種流失客戶數據參與建模,才能建立有效的模型。

3.數據清洗和預處理

  數據清洗和預處理是建模前的數據準備工作,一方面保證建模數據的正確性和有效性,另一方面通過對數據格式和內容的調整,使數據更符合建模的需要。數據整理的主要工作包括對數據的轉換和整合、抽樣、隨機化、缺失值處理等等。例如按比例抽取未流失客戶和已流失客戶,將這兩類數據合并,構成建模的數據源。此外,模型在建立之后需要大量的數據來進行檢驗,因此通常把樣本數據分為兩部分,2/3的數據用于建模,1/3的數據用于模型的檢驗和修正。

4.模型選擇與預建立

  在模型建立之前,可以利用數據挖掘工具的相關性比較功能,找出每一個輸入變量和客戶流失概率的相關性,刪除相關性較小的變量,從而可以縮短建模時間,降低模型復雜度,有時還能使模型更精確,F有的數據挖掘工具提供了決策樹、神經網絡、近鄰學習、回歸、關聯、聚類、貝葉斯判別等多種建模方法?梢苑謩e使用其中的多種方法預建立多個模型,然后對這些模型進行優(yōu)劣比較,從而挑選出最適合客戶流失分析的建模方法。此外數據挖掘工具還提供了選擇建模方法的功能,系統(tǒng)可自動判別最優(yōu)模型,供使用者參考。

5.模型建立與調整

  模型建立與調整是數據挖掘過程中的核心部分,通常由數據分析專家完成。需要指出的是,不同的商業(yè)問題和不同的數據分布屬性會影響模型建立與調整的策略,而且在建模過程中還會使用多種近似算法來簡化模型的優(yōu)化過程。因此還需要業(yè)務專家參與調整策略的制定,以避免不適當的優(yōu)化造成業(yè)務信息丟失。

6.模型的評估與檢驗

  應該利用未參與建模的數據進行模型的評估,才能得到準確的結果。檢驗的方法是使用模型對已知客戶狀態(tài)的數據進行預測,將預測值與實際客戶狀態(tài)作比較,預測正確率最高的模型是最優(yōu)模型。

7.模型解釋與應用

  業(yè)務人員應該針對最優(yōu)模型進行合理的解釋。如發(fā)現開戶時長與客戶流失概率的相關度較高,利用業(yè)務知識可以解釋為:客戶在使用一定年限后需要換領新SIM卡,而這一手續(xù)的繁瑣導致客戶寧愿申請新號碼,從而造成客戶流失。通過對模型做出合理的業(yè)務解釋,可以找出一些潛在的規(guī)律,用于指導業(yè)務行為。反過來,通過業(yè)務解釋也能證明數學模型的合理性和有效性。

  在模型應用過程中,可以先選擇一個試點實施應用,試點期間隨時注意模型應用的收益情況。一旦發(fā)生異常偏差,則立即停止應用,并對模型進行修正。試點結束后,若模型被證明應用良好,可以考慮大范圍推廣。推廣時應注意,由于地區(qū)差異,模型不能完全照搬?梢韵扔杉瘓F總部建立一個通用模型,各省分公司在此基礎上利用本地數據進行修正,從而得到適用于本省的精確模型。在模型應用一段時期,或經濟環(huán)境發(fā)生重大變化后,模型的偏差可能會增大,這時應該考慮重新建立一個適用性更強的模型。

四、國內數據挖掘應用中存在的問題

(1)數據質量和完備性

  國內電信運營商現有的、面向事務的數據在質量、完整性和一致性上存在許多問題,必須投入大量的精力去進行數據的抽取、凈化和處理。此外,業(yè)務問題的相關數據有時難以全面收集。例如客戶信用是客戶價值評估中的關鍵因素,但由于國內未建立完善的信用體系,無法根據現有客戶數據建立優(yōu)質的信用評價模型,從而導致客戶價值模型有效性的降低。

(2)相應的人員素質

  在數據挖掘應用過程的多個環(huán)節(jié)中,人的主觀辨識和控制是應用成敗的關鍵,這就對系統(tǒng)使用人員提出了很高的要求。如果沒有具備相應素質的使用和維護人員,必將導致分析系統(tǒng)與現實脫鉤,無法達到預期效果。

(3)應用周期

  數據挖掘存在一個較長的應用周期。技術本身不能給使用者解決任何問題,只能從數據中把一些潛在的情況呈現到使用者面前,由使用者采取相應措施。數據挖掘應用的有效方法是:從一個較小的、關鍵的問題出發(fā),建立起相對有效的模型,并通過應用實踐不斷檢驗和完善模型,逐步替使用者解決問題。

中國通信網(www.c114.net)—信息網絡


相關鏈接:
2003年CRM市場發(fā)展回顧 2004-01-06
HOLLYCRM:側重應用 2004-01-06
客戶關系管理中的另一核心:服務和支持體系 2004-01-05
2004年CRM發(fā)展方向預測 2003-12-31
智能化您的CRM 2003-12-29

分類信息:  電信_與_CRM     文摘   行業(yè)_電信_解決方案   技術_CRM_技術文摘