褚希,周笑天,任廣治,王中英
(1.山東省氣象服務中心,山東 濟南 250031;2.山東省氣象信息中心,山東 濟南 250031)
隨著經濟發展和社會進步,為滿足人們日益增長的氣象服務需求,山東省氣象局于2004年4月成立了氣象聲訊服務中心,對外開展氣象聲訊服務工作,此時氣象短信應運而生。氣象短信為手機用戶獲取天氣預報提供了一種更快捷簡便的方式,用戶可以隨時隨地獲取及時、準確、專業、全面的氣象信息。十年間,氣象短信憑借其傳播便捷、準確高效等服務優勢,得到了通信運行商的大力支持,一度在各通信運行商增值業務品牌排名中名列前茅,同時也受到了廣大手機用戶的喜歡。目前山東省氣象短信用戶數由2004年初的100萬增長到近500萬。
但是,近年來隨著3G網絡和智能手機的發展,出現了諸多的天氣通、墨跡天氣等智能手機應用終端軟件,人們可以隨時隨地獲取各種氣象信息。另外,再加上各種非正規渠道發布的氣象信息充斥著市場,導致氣象短信用戶在近幾年一直處于下滑狀態[1]。據統計,山東省的氣象短信用戶的下滑率已高達5%,如何減少氣象短信用戶的流失已成為氣象服務部門急需解決的問題。
為減少用戶流失,氣象部門除了要不斷提高氣象服務能力之外,還應對氣象短信用戶的相關情況進行分析和研究,探討哪些用戶是氣象短信的重點需求用戶很有必要。本文以數據挖掘的相關理論為基礎,利用概念描述數據挖掘的相關知識,提出了一種基于特征化概念描述的氣象短信重點用戶數據挖掘方法,能夠對氣象短信用戶進行發現,對重點用戶的特征進行提取,發掘氣象服務重點用戶,從而為氣象部門進行有的放矢的用戶挽留、減少用戶流失提供參考。
數據挖掘(Data Mining)是數據庫知識發現(Knowledge Discovery in Databases)中的一個步驟。它是從大量的數據中提取或挖掘可能有用的信息和知識,是在數據庫中發現有效的、新穎的、潛在有用的、可理解的模式的非平凡過程。通過數據挖掘,可以從數據庫提取有趣的知識、規律或高層信息,并可以從不同角度觀察或瀏覽數據,數據挖掘發現的知識可以用于決策、過程控制、信息管理、查詢處理等。數據挖掘一般按照數據清理、數據集成、數據選擇、數據變換、數據挖據、模式評估、知識表示等步驟進行。目前,數據挖掘已廣泛地應用于制造業、零售業、保險業、電信業、市場營銷、互聯網等諸多領域[2-5]。
概念描述是對含有大量數據的數據集合進行概述性總結,并獲得簡明、準確的描述,通過綜合、匯總、歸納和對比來分析事物的特征。概念描述數據挖掘是描述式數據挖掘中的一種,它能夠以簡單的、概要的方式描述數據,對給出數據進行簡潔匯總并形成目標類數據的特征情況[6]。一般用t-weight 度量表示描述規則中對應概化關系的某個元組的典型性,對于某個概化元組qa而言,qa的t-weight 是來自初始工作關系被qa涵蓋目標類元組的百分比,t-weight 在特征規則中表示的是條件成為目標類的充分條件。將目標類與對比類進行比較,其度量一般用d-weight 表示,qa的d-weight 是初始目標類工作關系中被qa覆蓋的元組數與初始目標類和對比類工作關系中被qa覆蓋的元組數的比,d-weight 表示的是條件成為目標類的必要條件。因此,利用t-weight 和d-weight 即可對應目標類的充分必要條件。
按照數據挖掘的步驟,給出基于特征化概念描述的氣象短信重點用戶挖掘方法的具體步驟如下:
(1)選取要進行挖掘的氣象短信用戶數據,確定數據結構。
(2)刪除與挖掘任務無關的用戶屬性。
(3)概化處理有大量不同值的用戶屬性。

其中,步驟(1)為數據挖掘任務的描述,步驟(2)、(3)為數據挖掘的預處理,步驟(4)、(5)、(6)為數據挖掘,步驟(7)為數據挖掘的結果表示。
以氣象短信用戶的相關數據為例,隨機抽取氣象短信用戶系統數據庫中的3 000條信息,對上文提出的方法進行驗證。為了更好地分析氣象短信的用戶相關特征,抽取的用戶既包含當前在網定制氣象短信業務的用戶,也包含曾經定制過氣象短信但目前已退訂業務的用戶。
定制氣象短信的用戶作為普通的手機用戶,首先,用戶的屬性信息一般包含姓名、身份證號、電話號碼;其次,用戶在定制氣象短信時會產生相應的屬性信息,如定制時間、退訂時間、定制來源、定制產品類型、費率、用戶號碼所在地、定制地區等信息。因此,氣象短信服務用戶的數據結構包含以下多種屬性。相應的數據結構如表1所示:

表1 氣象短信用戶的數據結構
由表1可知,氣象短信用戶系統中共有20個屬性,這些屬性在系統中存在是為了對氣象短信用戶進行更好的管理。針對數據挖掘而言,有些屬性跟挖掘任務并不相關,需要刪除;有些屬性的數據粒度太過細節,需要進行概化處理后再進行挖掘。
氣象短信用戶的數據結構中,姓名、出生日期、身份證號、家庭地址、電子郵箱、手機號碼等屬性都是針對個人信息而言的,數據粒度太過細節,每個屬性均存在大量不同值,無法進行數據概化處理,而且這些屬性對氣象短信重點用戶的特征化數據挖掘任務而言沒有挖掘意義,因此將這些屬性刪除。另外,性別、年齡、民族、文化程度、職業、郵政編碼、退訂時間屬性雖然可以進行屬性的概化,但對氣象短信重點用戶的特征提取意義不大,為避免大數據量的挖掘運算,也將這些屬性刪除。
經過用戶屬性的刪除步驟后,氣象短信系統中需要概化的屬性及其取值情況處理為以下幾方面:
(1)在網時長
在網時長屬性反映用戶使用氣象短信業務的時間長短,通過用戶的定制起始時間和退訂時間可得到其值,根據統計結果的情況,對該屬性概化為4項,取值為:{1(小于0.5年)、2(0.5—1年)、3(1—2年)、 4(大于2年)}。
(2)定制起始時間
定制起始時間屬性能反映不同時期用戶定制氣象短信的情況,并體現各階段氣象短信業務的發展狀況,根據統計結果,對該屬性概化為4項,取值為:{1(最近半年內)、2(最近1年內)、3(最近2年內)、4(2年前)}。
(3)定制地區
氣象短信業務目前針對用戶的定制地區只有某市區氣象短信和某縣區氣象短信這2類,因此對該屬性概化為2項,取值為:{1(市區)、2(縣)}。
(4)號碼歸屬地區
山東省共有濟南、青島、淄博、棗莊、東營、煙臺、濰坊、濟寧、泰安、威海、日照、萊蕪、臨沂、德州、聊城、濱州、菏澤17個地級市,縣級單位140個。由于短信用戶的定制情況與當地的經濟發展水平、人口數量等密切相關,因此根據山東省地市的實際經濟與發展狀況,將其概化為3項,取值為:{1(副省級市)、2(沿海地區)、3(中西部地區)}。其中,副省級市為:濟南、青島;沿海城市為:煙臺,威海,日照,東營,濰坊;中西部城市為:淄博、棗莊、濟寧、泰安、萊蕪、臨沂、德州、聊城、濱州、菏澤。
(5)定制來源
氣象短信系統中該屬性共有3項取值:{1(客服電話)、2(網站)、3(上行短信)},該屬性不需再概化。同樣,費率和定制產品在氣象短信系統中的取值較少也不需概化,直接使用其取值。
經過對屬性的刪除和概化,數據挖掘中的氣象短信用戶屬性共有8個。用于數據挖掘的屬性表如表2所示:

表2 用于數據挖掘的屬性表




由此可知,氣象短信重點用戶特征為:通過客服電話定制的、費率為包月2元、定制某市區下午天氣預報產品的用戶。
下面對上述結果進行總結和分析。
首先,從氣象短信重點用戶特征提取的情況可知,如果一個用戶為氣象短信的重點用戶,那么他可能是省內的沿海地區用戶,在網時長為2年以上、在2年前定制了某市區的天氣預報地區,也可能是通過客服電話定制包月2 元的下午天氣預報。另一方面,如果一個用戶在省內的中西部地區,在網時長為0.5—1年,而且最近2年內定制了某市區的包月2元的下午天氣預報,那么他很可能就是氣象短信的重點用戶。
其次,從氣象短信重點用戶的統計樣本數據來分析。氣象短信重點用戶的在網時長和定制起始時間占較大的選項均為2年前,說明在2年前氣象短信的用戶認可度高、定制率高;最近半年內的在網用戶以及定制起始時間在半年內的用戶占比均不到10%,說明近半年氣象短信用戶的發展較為緩慢。定制地區為市區的氣象短信用戶占70.63%,說明氣象短信在城市用戶中認可度較高,在縣級以下地區的認可度較低,這與縣級以下地區經濟發展水平欠發達以及氣象短信產品的基層宣傳力度不足有關。費率為包月2元的業務更受用戶歡迎,說明價格低廉是氣象短信的一大優勢。另外,定制來源中客服電話的占比最高,說明氣象短信的發展還主要依賴通信運營商的定制渠道,氣象部門自身拓展用戶市場的能力還不足,應該進一步加強與通信運營商的合作,借助通信運營商的力量更好地開拓氣象短信用戶市場。

表3 氣象短信重點用戶目標類、對比類的t-權和d-權表
本文以數據挖掘的相關理論為基礎,利用概念描述數據挖掘的相關知識,提出了一種基于特征化概念描述的氣象短信重點用戶數據挖掘方法。該方法能夠對氣象短信重點用戶的特征進行提取,發掘氣象服務重點用戶特征。通過實例進一步驗證,該方法具有較強的可操作性,能夠為氣象部門進行氣象短信用戶的市場分析、減少用戶流失提供參考。
[1] 李建,張鋒. 短網址技術在浙江省氣象短信業務中的應用[J]. 計算機與網絡, 2013(14): 72-75.
[2] 趙海青,李社宗,周幸福,等. 數據庫中的知識發現及其在氣象中的應用[J]. 河南氣象, 2002(2): 35-36.
[3] Mehmed Kantardzic. 數據挖掘——概念、模型、方法和算法[M]. 北京: 清華大學出版社, 2003.
[4] Han J W, Kamber M. 數據挖掘概念與技術[M]. 北京: 機械工業出版社, 2001.
[5] 馬廷淮,穆強,田偉,等. 氣象數據挖掘研究[J]. 武漢理工大學學報, 2010,32(16): 110-114.
[6] 徐鎮輝. 特征化概念描述的數據挖掘方法在學生評教中的應用[J]. 漳州職業技術學院學報, 2006,8(4): 21-23.★