戈邱
摘 要 ITSM是ITIL(一種企業信息技術最佳實踐的標準)在我行落地的實施工具,目前該工具中常用的有服務請求、事件管理、變更管理等流程模塊,與之對應的有日常工作中被廣泛使用的各流程工單。自2017年5月份上線以來,各流程共積累了幾萬件工單,利用好這些承載了我行信息技術工作內容的信息對于整體把握我行科技工作情況,更加合理調配信息科技資源會很有幫助。比如通過對工單所屬目錄和數量反映出的某時間段內IT服務工作內容的著重點和飽和度,可以幫助判斷目前工作中人員的工作內容和工作強度,以便有針對性地調配人力物力資源;對事件的出現數量和分布范圍進行分析,幫助解決當前遇到的事件,同時可以輔助預測和排查潛在的風險點,早發現早解決,防患于未然。結合一些數據挖掘和數據分析的知識,本文主要就數據挖掘的過程同具體ITSM系統中積累的工單的結合情況探討一下其中幾個需要注意和研究的點。
關鍵詞 ITSM;數據挖掘;python
1 數據挖掘技術簡述
數據挖掘首先要了解待處理的數據,具體的工單一般包含序號、標題、描述、申請人、負責人、滿意度等屬性。其中,序號一般對于數據挖掘沒有太大意義,可以舍去,比如員工年齡和工號這兩個屬性,談論員工平均年齡是有意義的,但看員工的平均工號并沒有太大價值。對于標題、描述這種沒有標準結構的數據,可以利用python的分詞包比如jieba來對中文分詞,可以統計出關鍵詞的出現頻次,之后還可以使用詞云工具來生成更形象的詞云來較直觀地描述這些詞匯的出現頻次。原始數據會存在數據缺失、遺漏、重復等影響數據質量的情形,在使用數據前,應當預先將數據進行預處理,把離群點刪去或選擇忽視掉;對于數據缺失和遺漏,可以比如用0或者null來補全;重復的數據進行合并規整。數據清洗是使數據適合挖掘的預處理步驟,例如,可能需要將連續值屬性(如長度)轉換成具有離散的分類值屬性(如短、中、長);又如,數據集屬性的數目通常不能太多,否則會影響數據挖掘的準確性和有效性,因此需要刪去一些相對較弱的屬性,使得數據挖掘結果更準確。
數據挖掘方法眾多,對于不同的場景各有不通的優缺點,比較常見的有聚類中的K均值和分類中的決策樹等。
1.1 聚類
聚類是無監督學習的一種,這是相對有監督而言的。監督其實可以理解為在已有的數據推導的模型基礎上將模型應用在待驗證和處理的數據上,即有沒有類似外界其他同類數據的“指導監督”。K均指方法即K-means,大體的思想是對于N個對象,主觀地指定一個值K,使其分為K類,每個類都有一個隨機的中心點Px,然后計算所有點到這K個中心點Px的距離,這些點到K個中心點最近的歸到這個初始中心點的類中,這時便完成了首次聚類,然后再次計算每個類中除中心點外所有的點到中心點的平均距離,將這個平局距離所確定的點的坐標作為新的中心點(這個新的中心點很可能沒有落在原本真實的點上,也很可能不是之前的點),之后再次按照上述過程算出每個類中新的中心點,直到下次計算的中心點不再變化或者在規定的可接受范圍之內。這種方法比較簡單,計算時間相對也比較快,效果也還不錯。但缺點也很明顯,需要提前人為確定K值,這就加大了不確定性,甚至如果每次選擇的K不同,結果也會有所區別,另外如果沒有提前篩選掉異常點,則聚類結果可能會被異常值帶偏,因為計算方式僅僅看距離,遠離群里的點在這其中的影響會很大。
1.2 分類
與聚類相對的是有監督的分類方法,所謂監督,一般是說對于已有的數據,已知某個指標是正向或反向的,那么將這些指標作為模型應用于余下想要分析的數據。分類方法中決策樹算法較為常見,而Hunt貪心算法是許多決策樹算法的基礎,比如ID3、C4.5和CART。Hunt算法簡單來說就是把比如二元的數據分類,使用樹形結構,到葉子節點就不再分,遇到子女節點則繼續遞歸使用hunt算法進行分類,直到分為葉子節點為止,這是一種局部最優的策略。上述所謂子女節點,就是包含不通類別可以再分的,葉節點就是所屬同一個類不可再分的。
2 數據挖掘和數據分析
結合具體工單和分類與聚類兩個不同數據挖掘方式的典型方法的優缺點,可以嘗試使用聚類的方式來找出一些異常點,再加以人工評測是否準確。或者可以嘗試用分類的方法結合時間維度的關聯分析,找出特殊時間段內的一些特殊事件或者哪些時間段內集中出現的事件或者服務請求。
數據挖掘是在海量的原始數據基礎上找尋其中蘊含的內在關系、潛在規律和發展趨勢等,而數據分析是將比較明確的數據按照明確的方向去對數據進行分析。借用一個例子,運營商發現總有客戶不按時繳費,如何評估這一現象?一個數據分析人員可能會得到逾期繳費用戶大多收入不高,那么適當優化套餐內容,降低套餐額度會是改善的方向。而一個從事數據挖掘的人員可能會發現不按時繳費的用戶地理位置分布大多距離營業廳較遠,那么對此的改善建議可能是優化網點布局。近期行內舉辦的數據分析課程就python數據分析做了初步教學和討論,讓我們了解到python中pandas、numpy包的強大功能,下一步還需要結合實際場景進一步提高所學技能,更好地應用在工作中去。
3 結束語
不同的方法和角度會得到不通的結論,無論哪種方式,利用好手上的數據,加以探索處理,去主動發現問題解決問題對于提高工作效率都會有巨大幫助。