劉曉云
(臨沂職業學院 山東 臨沂 276017)
近年來,隨著計算機網絡的不斷發展,在居民小區中物流技術和網絡技術逐漸廣泛應用,文中通過設計開發居民便利服務系統,建立網絡信息墻,向小區居民分欄發布最新的蔬菜產品價格行情、日常實用新產品技術、醫療保健信息、家政供求信息、政策法規通知等各類小區居民生活服務信息,供居民選用、訂制,形成新的商品、服務營銷模式。“網絡信息墻”的設立,為供需雙方的溝通提供了新的方式,提高了小區居民的信息化應用水平。
數據挖掘是指在已構建的數據對象中,采用數據準備、數據開采、結果表達和解釋3個處理階段從隱含在人們事先未知的、潛在的有用信息和知識中提取出可表示為概念規則、規律、模式等形式的知識。文中采用由R.Agrawal等提出的關聯規則進行分析、研究[4-6]。
在居民便利服務系統中,根據小區居民訂制的各類生活服務信息,及時匯總、保存,并進行數據信息挖掘、分析,以便發現瀏覽者感興趣的信息或者服務,并根據該相關信息,預測出最近將來一段時間內,該用戶還可能要購買那種商品的一種關聯,以此形成的服務信息鏈為信息服務鏈。
在居民便利服務系統中,根據信息服務鏈的定義,會在數據庫中存在大量的有用信息需要分析、挖掘,以便為后續營銷或服務提供知識發現。如圖1居民便利服務系統數據挖掘處理流程模型所示。

圖1 居民便利服務信息庫的數據挖掘流程模型Fig.1 Data mining procedural model of resident convenient service information database
居民便利服務是多層次、多方位、復雜化的。網絡信息墻中存有大量的數據信息,首先從中進行取樣(sampling)[8],通過對局部數據的統計和分析,建立確定從概念層次的中間挖掘的起點,以此挖掘到符合閾值的關聯規則,最后采用多層次關聯規則挖掘算法對網絡信息墻中進行數據挖掘。
多層次關聯規則挖掘算法ML_ARDM[6-7]
輸入:貿易數據庫TDB,概念層次樹Tree,最小支持度Smin,最小可信度Cmin。
輸出:多層次關聯規則信息集。
主挖掘算法:
l)以Tid為依據進行取樣,然后另存為取樣數據庫TDatabase;
2)運用取樣挖掘算法對TDatabase中的數據進行取樣挖掘;
3)把取樣挖掘產生的S_Tree作為概念層次樹,用于實現挖掘算法對整體數據進行實現挖掘。
取樣挖掘算法:
l)計算頻繁項集得到S_Tree;
2)從S_Tree中刪除當前節點以及后續都不能組成頻繁規則的節點,記為S_Tree′;
3)擴展S_Tree′中的S_Tree的葉子節點;
4)S_Tree:=S_Tree′+根節點, 重新構建S_Tree, 使之成為一棵完整的帶有信息服務的樹;
5)擴展S_Tree中的所有節點的下一級子節點,加入S_Tree,S_Tree使降低一層。
實現挖掘算法:
l)進行頻繁項集計算處理;
2)計算后選規則集;
3)生成優化的規則集;
算法說明:取樣挖掘算法目的是為了得到取樣樹S_Tree,為實現挖掘算法選擇合適的起點。
取樣挖掘算法中步驟3~5的作用是為S_Tree中盡可能多的包含可能組成規則的節點,目的是使實現挖掘得出的規則在挖掘結果中更具完整性。
在居民便利服務中,各類資源之間存在較為復雜的關系,比如:日用品及蔬菜配送、醫療保健、家政供求、人力配備、價格、居民人數等6個因素會存在利用沖突的問題。為此,居民服務中心從采購中心購進日用百貨時,應考慮最大盈利問題,即:早上進的貨零售,晚上將沒有售掉的退回。根據居民區內居民通過網絡或者實時通訊工具向居民服務中心提交的需求信息,由多層次關聯規則挖掘算法,可以建立日用百貨需求購進量模型。
設豆漿每份的購進價格b(buy),零售價為s(sale),返回價為r(return),則根據正常市場經濟運行規則,可設:s>b>r。 因此,居民服務中心每銷售一份豆漿可賺s-b,返回一份賠b-r。居民服務中心每天如果購進的豆漿太少,則無法滿足顧客需要,盈利則少;如果豆漿購進太多,則無法全部售出,還要退回賠錢。為此,應根據需求量確定購進量。需求量是根據多層次管理關聯規則算法得出的每日豆漿需求量概率數為x份的概率是f(x)(x=0,1,2,3…),則可以在f(x)和s,b,r之間建立關于需求購進量優化模型[7-9]。
假設每天豆漿購進量為n份,因為需求量x是隨機不確定的,x可以小于n,等于n或大于n,因此,豆漿的日盈利也是變化不定的,作為優化模型的目標函數,應考慮的是一段時間的平均盈利。
若居民服務中心每天購進n份豆漿時的平均盈利為G(n),如果當天的需求量x≤n,則售出x份,退回n-x;如果當天的需求量x>n,則n份全部售完。考慮到需求量x的概率是f(x),所以

問題歸結為在f(x),b,s,r已知時,求n使G(n)最大。
通常需求量x的取值和購進量n都相當大,將x視為連續變量更便于分析和計算,此時概率函數f(x)轉化為概率密度函數p(x),(1)式變為:

化解計算得:


要使居民服務中心的平均盈利達到最大的購進量n應滿足(3)式。因為,因此表達式(3)也可表示為:
由需求量的概率密度p(x)的圖形能交容易從(3)式確定購進量n。 在圖2中,P1,P2分別表示曲線p(x)下的兩塊面積,則(3)式可表示為:

圖 2 由p(x)確定n的圖解法Fig.2 By p(x) graphic method of determining n

居民服務中心可以運用此優化模型的目標函數在其他進貨商品中使用,以此提高需求進貨量的效益。而基于局域網的服務信息,通過網絡信息墻及時顯示已預定的相關便利服務,以便其他居民及時調整選擇其他服務[10]。網絡信息墻的部署圖如圖3所示。

圖3 網絡信息墻的部署圖Fig.3 Deploy diagram of network information wall
在居民小區局域網中,根據居民個體需要,在其家內安裝信息墻,利用網絡實時獲取小區居民訂制的各類日常服務信息,并運用多層次關聯規則挖掘算法和需求購進量模型目標函數分析、挖掘得到確定的居民便利服務信息,同時通過網絡將相關信息顯示在信息墻,方便其他居民選擇不同的便利服務信息,以此提高居民信息化服務水平。
[1]蔡敏,徐慧慧,黃炳強.UML基礎與Rose建模教程[M].北京:人民郵電出版社,2006.
[2]刁成嘉.UML系統建模與分析設計[M].北京:機械工業出版社,2007.
[3]Ronald J.Norman:Object-oriented system analysis snd design[M].Prentice Hall,inc,1996.
[4]范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
[5]康曉東.基于數據倉庫的數據挖掘技術[M].北京:機械工業出版社,2004.
[6]陳子陽,郭景峰.多層次關聯規則的快速挖掘算法[J].燕山大學學報,2003(10):363-366.CHEN Zi-yang,GUO Jing-feng.Fast mining algorithm for multilevel association rules[J].Journal of Yanshan University,2003(10):363-366.
[7]程繼華,施鵬飛.多層次關聯規則的有效挖掘算法[J].軟件學報,1998(12):937-942.CHENG Ji-hua,SHI Peng-fei.Effective mining algorithm for multi-level association rules[J].Journal of Software,1998(12):937-942.
[8]胡健穎,孫山澤.抽樣調查的理論、方法和應用[M].北京:北京大學出版社,2000.
[9]范錫軍.基于博弈的供應鏈均衡模型研究[D].山東:山東師范大學,2008.
[10]陳蜀宇,陳四清.基于局域網的系統級概率分布式故障診斷[J].計算機科學,2000(5):516-522.CHEN Shu-yu,CHEN Si-qing.Fault diagnosis of probabilistic distributed system-level based on LAN[J].Computer Science,2000(5):516-522.