于亮,鐘宏偉,李海濤,陳海洋,杜欣然
(國網北京市電力公司客戶服務中心,北京 100078)
數據挖掘可通過大數據分析的方式,從海量數據中發現其中所蘊含的存儲規律,大體上由數據準備、規律尋找、規律表達三個環節組成。數據準備是指在待挖掘數據信息中,提取所需的信息參量,并將其整合成全新的數據集合文件[1-2];規律尋找可通過多種方法,將數據集合文件所蘊含的信息規律表達出來;規律表示則是以用戶對象可以理解的方式,將已尋找到的規律條件翻譯成計算機識別語言。
輿情分析是根據問題需要,對該問題的輿情進行深度分析,并得出最終結論的處理過程。對企業單位來說,由于互聯網平臺的出現,客戶言論具備了更為廣闊的交流空間,可使輿情信息得到快速地傳播與培育。傳統入侵檢測型監控系統通過離群程度分值計算的方式,確定客戶輿情信息參量的實際傳輸能力,再借助各級硬件設備結構,實現對預警條件的準確表達。然而此系統對于預警信息的增刪處理能力有限,并不能實現對客戶輿情數據的準確查詢。為避免上述情況的發生,設計基于數據挖掘的客戶輿情預警監控系統,在數據簇中心提取結果的支持下,對監控樣本條件進行準確定義,再按照客戶輿情數據的轉換方式,計算得到準確的預警復雜分值結果。
客戶輿情預警監控系統的硬件執行環境搭載,包含數據挖掘架構連接、客戶輿情數據轉換方式表達等多個處理環節,具體操作方法如下。
數據挖掘架構作為客戶輿情預警監控系統搭建的基礎硬件執行結構,由客戶輿情信息數據庫、客戶信息系統、預警監控引擎、用戶審核平臺等多個模塊共同組成,如圖1 所示。其中,輿情信息數據庫負責存儲與企業客戶信息相關的數據參量,可在企業中轉站體系的作用下,按照既定挖掘規則對數據信息進行重新排列,并將全新的數據包文件傳輸至系統預警監控引擎中[3-4]。客戶信息系統分列于預警監控引擎與用戶審核平臺兩端,可在提取數據庫組織中關鍵客戶輿情信息參量的同時,生成與初始形態完全不同的可發布信息參量,并可將其中的部分待審核數據信息文件反饋回企業中轉站。

圖1 數據挖掘架構示意圖
在客戶輿情預警監控系統中,數據挖掘引擎可在網絡爬蟲結構的作用下,對待傳輸的數據信息參量進行轉換處理,一方面可將存儲于數據庫主機中的原始客戶輿情信息調度成更加積極的傳輸狀態,另一方面也可使處于空閑狀態的數據挖掘引擎得到良性化占據[5-6]。一般情況下,原始的客戶輿情信息只能以網絡資源的形式存儲于數據庫主機中,而隨著采集指令的實施,這些格式已定的數據參量則會自發轉換成HTML、URL 等多種形式的信息文件,在預警監控索引條件的支持下,完成轉換的客戶輿情數據可自動存儲于系統數據庫主機中,且其后續傳輸行為也不再對數據挖掘框架的應用穩定性造成影響。客戶輿情數據轉換原理如圖2 所示。

圖2 客戶輿情數據轉換原理
客戶輿情信息的自身結構功能由預警搜索程序、監控指令編碼、挖掘數據列表三類條件共同組成。其中,預警搜索程序能夠定義客戶輿情信息的初始查詢能力,在已知數據轉換方式的情況下,待傳輸的數據參量值越大,客戶輿情信息所能遍歷的監控設備元件數量也就越多[7-8]。監控指令編碼能夠約束客戶輿情信息的實際傳輸距離,可在數據挖掘架構體系的作用下,實現對系統預警監控功能的初步完善。挖掘數據列表的結構功能相對較為單一,僅能表達客戶輿情信息的現有應用能力,并可借助相關信道組織,建立企業中轉站與輿情客戶端主機之間的物理連接關系[9-10]。自身結構功能定義如表1所示。

表1 客戶輿情信息的自身結構功能定義
在相關硬件設備結構體系的支持下,按照數據簇中心提取、監控樣本定義、預警復雜分值計算的處理流程,完成系統的軟件執行環境搭建,兩相結合,實現基于數據挖掘客戶輿情預警監控系統的順利應用。
數據簇中心提取是數據挖掘算法實施的必要處理環節,可在已知客戶輿情信息自身結構功能條件的基礎上,將預警監控系統的執行模塊劃分成多個功能性結構,其中一部分功能性結構用于構建全新的數據挖掘框架,另一部分功能性結構則用于獲取系統預警監控指令中的非合理傳輸信息。在不考慮其他干擾條件的情況下,數據簇中心提取結果受到信息數據傳輸時長、系統預警監控系數幾項物理指標的直接影響[11-12]。信息數據傳輸時長可表示為ΔT,由于數據挖掘框架體系的存在,該項物理量在客戶輿情信息的處理過程中,不具備無線延長的能力。i、j分別代表兩個不同的系統預警監控系數,在客戶輿情信息的單位傳輸時長中,i>j的物理表達式恒成立。聯立上述物理量,可將客戶輿情預警監控系統的數據簇中心提取結果表示為:

其中,n代表單位時間內的客戶輿情信息定義項參量,xi、xj分別代表i與j條件下的客戶輿情信息數據特征值。
監控樣本是以客戶輿情信息傳輸需求為基礎的系統應用指令判別條件,在預警監控系統的實施環境中,數據挖掘框架所能定義的監控樣本總量越大,系統主機所具備的客戶輿情信息篩選能力也就越強。規定yˉ代表獨立數據挖掘框架中客戶輿情信息參量的傳輸均值,通常情況下,隨著預警監控指令執行時間的延長,該項物理量的數值形式也會呈現不斷增大的變化狀態,進而促使待定義監控樣本的數量級水平不斷增多[13-14]。λ代表既定的客戶輿情信息監控指標參量,受到系統應用時長、數據信息傳輸量等多項物理條件的影響,該項物理系數指標的數值水平將直接影響監控樣本參量的實際定義結果。在上述物理量的支持下,聯立式(1),可將客戶輿情信息的監控樣本定義結果表示為:

式中,f代表與數據挖掘框架匹配的客戶輿情信息單向傳輸系數,代表數據信息參量的預警監控特征參量值。
預警復雜分值計算是客戶輿情預警監控系統設計的末尾處理環節,可在數據挖掘框架結構的支持下,在預存儲客戶輿情信息中選擇出最關鍵的數據指標參量,再根據系統執行指令所屬的具體操作環節,對系統數據庫主機進行清空處理,從而使得待傳輸的客戶輿情信息得到有效地轉存處理[15-16]。設r1、r2分別代表兩個不同的客戶輿情預警系統監控指征值,由于數據挖掘框架體系的存在,上述兩項物理指標在整個系統執行周期內,始終不具備相等的可能。在上述物理量的支持下,聯立式(2),可將系統的預警復雜分值計算結果表示為:

其中,β代表系統環境中的客戶輿情信息清空處理系數,kmax代表最大的信息數據傳輸指標參量,kmin代表最小的信息數據傳輸指標參量。至此,實現各項軟、硬件基礎執行模塊的搭建,在數據挖掘框架體系的支持下,完成新型客戶輿情預警監控系統的設計[17]。
在圖3 所示的運行環境中,分別將實驗組、對照組應用主機與數據傳輸網絡相連,其中實驗組應用主機搭載基于數據挖掘的客戶輿情預警監控系統,對照組應用主機搭載傳統入侵檢測型監控系統。出于實驗公平性考慮,除所應用監控系統不同外,實驗組、對照組所有信息參量數值始終保持一致。

圖3 客戶輿情預警監控系統運行模式
UDR 指標能夠反映系統所獲客戶輿情信息與原始客戶輿情信息間的匹配度水平,通常情況下,UDR指標數值越大,所獲信息與原始信息間的匹配度水平也就越高,反之則越低。表2 記錄了實驗組、對照組UDR 指標的具體數值情況。

表2 UDR指標記錄數值
表2 中,實驗組UDR 指標在前20 min 的實驗時間內,始終保持絕對平穩的數值變化趨勢,而從第25 min 開始,UDR 指標的數值變化趨勢開始逐漸趨于穩定且連續的波動。對照組UDR 指標在前35 min的實驗時間內,一直維持不斷上升的數值變化態勢,而從第40 min 開始,這種數值變化狀態開始逐漸趨于穩定。整個實驗過程中,實驗組最大值68.20%與對照組最大值40.18%相比,上升了28.02%。
PPS 指標則反映了系統主機對于客戶輿情信息的處理能力,在既定網絡環境中,PPS 指標均值水平越高,系統主機對于客戶輿情信息的處理能力越強。具體實驗記錄值如表3 所示。

表3 PPS指標記錄數值
上述實驗數值結果顯示,實驗組PPS 指標數值始終保持連續上升的變化狀態;對照組PPS 指標則始終保持相對穩定的數值變化趨勢。從平均值角度來看,實驗組均值71.43%與對照組均值44.67%相比,上升了26.76%。
綜上可知,隨著新型客戶輿情預警監控系統的應用,UDR 指標數值、PPS 指標數值均出現了不同程度的提升,不僅大幅提升了系統所獲客戶輿情信息與原始客戶輿情信息間的匹配度水平,能夠實現對客戶輿情信息的快速準確判定,為后續安排客戶服務相關舉措提供有力支撐。
在傳統入侵檢測型監控系統的基礎上,新型客戶輿情預警監控系統引入數據挖掘框架,在定義客戶輿情數據轉換方式的同時,實現對數據簇中心參量的準確提取,不僅加強了監控樣本信息的實用性能力,也計算得到了更為標準的預警復雜分值結果。從實用性角度來看,UDR 指標與PPS 指標數值的提升,可在互聯網平臺中較好地維護客戶言論的交流空間,從而對企業客戶服務工單進行輿情監測。