孫慧



摘? 要: 傳統行為分析方法存在預測能力不足、分析片面化,獲取的行為特征數據規律性較差等問題,導致得到的分析結果與實際不符?;诖?,提出大數據挖掘技術的圖書館移動用戶行為分析方法。該方法將獲取的大數據預先清洗、篩選,并利用轉換算法集成特征數據;使用BP神經網絡適應度函數構建評估預測模型,挖掘行為特征規律,根據預測結果將特征相互信息值排序;通過聚類算法捕捉具有關聯的數據,利用交叉分析法分析用戶行為內在性質,實現全面的圖書館移動用戶行為的全面挖掘。實驗結果表明,與傳統方法相比,所提分析方法挖掘用戶行為特征數據的能力更強,分析結果準確度更高,可應用于現階段圖書館移動用戶行為分析。
關鍵詞: 圖書館移動用戶; 行為分析; 大數據挖掘技術; 數據獲取; 預測建模; 交叉分析
中圖分類號: TN919?34; TP392? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)18?0164?04
Abstract: As the traditional behavior analysis method has some problems, such as insufficient prediction ability, one?sided analysis and poor regularity of the obtained behavior characteristic data, which leads to the fact that the analysis results are not consistent with the actual situation. On this basis, a library mobile users′behavior analysis based on big data mining technology is proposed. In this method, the acquired big data is cleaned and screened in advance, and the feature data is integrated by means of the transformation algorithm. The fitness function of BP neural network is used to construct the evaluation prediction model, excavate the behavior feature law, and sort the feature mutual information values according to the prediction results. The related data are captured by clustering algorithm, the inherent properties of user behavior are analyzed by means of cross analysis method, and the comprehensive mining of library mobile users′ behavior is realized. The experimental results show that, in comparison with the traditional methods, the proposed analysis method has stronger ability to mining users′behavior features, and higher accuracy of analysis results. It can be applied to the analysis of library mobile users′behavior at present.
Keywords: library mobile users; behavior analysis; big data mining technology; data acquisition; prediction modeling; cross analysis
0? 引? 言
現階段,信息環境高速變革,趨于全面化發展,正處于信息化網絡化時代。圖書館作為信息供給機構之一,可以深度挖掘圖書館用戶的需求偏好,提供針對性強的服務方案,從而達到吸引用戶的目的。由于圖書館用戶的基本信息量龐大,選擇條件居多,因此針對海量用戶信息,采用多種方法對圖書館移動用戶的行為進行分析,根據用戶需求偏好的變化情況,提出滿意度更高的服務方案,完成對圖書館用戶的維護工作。由于科技飛速發展,互聯網的普及令圖書館的基本職能、服務方式和服務內容均發生實質性改變,圖書館正在由過去的封閉式管理模式,向主動化、個性化開發型圖書館轉變。但同時也給圖書館的發展帶來諸多困難,包括圖書館使用率不高、圖書館用戶滿意度較低以及用戶借書率下降等問題[1]。為此,相關研究人員也提出了多種解決方法。
文獻[2]通過預測算法,對圖書館移動用戶行為進行分析;文獻[3]通過情景分析,挖掘圖書館用戶行為特征;文獻[4]則通過元分析法采納影響用戶行為的因素,以此確定用戶行為。上述所提出的3種方法,雖然在一定程度上掌握了圖書館用戶的行為特征,但不具有普遍性。當圖書館用戶超過一定數量時,行為數據失去其所具有的行為特征,進而失去了用戶。
針對上述存在的問題,提出大數據挖掘技術的圖書館移動用戶行為分析方法。該方法通過數據挖掘,找出海量用戶的行為特征,利用聚類算法獲取行為特征與用戶選擇偏好之間的隱含關聯,從而制定合理的服務方案,以提高圖書館針對性強的管理能力,為圖書館的長遠發展,提供合理的技術支持。
1? 圖書館移動用戶行為分析
1.1? 圖書館移動用戶行為數據獲取與處理
數據獲取和預處理是數據挖掘分析的首要前提,預處理后的數據結果,直接關系到分析結果的可靠程度,因此分析用戶行為,需要預先獲取圖書館移動用戶行為數據,并對此數據進行過濾。從圖書館應用系統的源數據庫中,抽取圖書館移動用戶的基本訪問信息,并對這些基本信息進行預處理,過程如圖1所示。
現階段的數據抽取方式主要包括全量抽取和增量抽取。本文提出的分析方法,在全量抽取的基礎上,增量抽取insert,update或者delete數據[5]。通常,在這些龐大的用戶信息數據中,包含有不完整、質量差的基本信息數據,從而無法從這些數據中獲取有價值的信息。為了避免因數據采集錯誤、計算錯誤等失誤造成噪聲、不一致且重復數據的出現,需對這些數據進行過濾清洗,實現對數據的預處理[6?7]。首先將獲取的數據清洗,通過清洗發現、糾正數據集合中的可識別錯誤,同時檢查數據是否屬性一致、真實有效。對于存在問題的集合,需要填補遺漏數據、消除異常數據以及平滑噪聲數據,分別抽取、整合集合中的清洗數據,通過轉換將數據集合統一格式,去除集合中冗余等數據,合并數據意義一致或屬性類別相似的數據,再將數據集合到一個新的數據集中,實現對清洗數據的集成[8]。集成結果如表1所示。
根據表1中集成的數據信息,利用轉換算法對行為特征數據進行轉換處理,該算法的計算公式為:
式中:[H]表示轉換后得到的評價指標;[n]表示轉換次數;[λ]表示移動用戶的日?;顒訁?。利用該公式轉換不同行為特征數據集合,根據所獲結果將集合無規律的混合,重新按照數據特征屬性劃分集合。
1.2? 評估預測模型挖掘行為變化規律
評估預測模型是數據挖掘過程中的關鍵步驟,該環節直接決定了分析結果的可靠程度[9],因此該文以上述數據為基礎,構建評估預測模型,利用該模型分析圖書館用戶的行為變化規律。采用改進的BP神經網絡算法,預測圖書館移動用戶行為,將用戶網絡行為構成的參數作為樣本數據,通過該算法的不斷學習、判斷、更新,促使數據輸出值逼近預期數值。該神經網絡的拓撲結構如圖2所示。
BP神經網絡結構確定后,初始化維度數據、位置數據、權重參數,確定用戶行為特征集合,利用適應度函數[10]計算待分析數據的適應度值,將當前數據最優位置記為[b],將集合中同類屬性特征數據收縮的最優位置記為[b0]。根據適應度函數的計算結果,得到評估預測模型為:
式中:[git]表示數據經由輸出層[t]和隱含層[i]輸出預測結果;[f*]表示適應度函數;[kit]表示隱含層[i]與輸出層[t]之間的節點連接權值;[m]表示輸出次數;[h*]表示預測函數;[ωij]表示隱含層[i]與輸入層[j]節點之間的連接權重;[d]表示輸入次數;[Xit]表示輸出的行為數據影響因素;[τi]表示隱含層閾值;[μt]表示輸出層閾值。利用評估預測模型分析用戶行為變化規律,輸出結果如圖3所示。
根據圖3曲線走勢可知,利用該模型分析用戶行為變化規律與期望結果基本相似,該模型分析的用戶規律可信。根據該規律分析用戶偏好行為,將特征數據進行排序,排序結果如表2所示。
根據挖掘的行為變化規律獲取特征相互信息參數值,通過大數據聚類,實現對圖書館用戶的行為分析[11?13]。
1.3? 基于聚類算法交叉分析用戶行為
利用聚類算法將所獲特征數據劃分為[n]個有序數據集,以數據集在空間分布的稠密度為依據,在帶有干擾數據的數據集中,挖掘出影響用戶行為的關鍵數據,同時允許這些數據之間大小不同、屬性不一。在樣本集合中,對象[a]在核心對象[q]的領域內,那么[a]從[q]直接密度可達;當樣本集合中,存在[q=q1],[a=qn]時,那么此時[qi+1]從[qi]直接密度可達,此時稱[a]從[q]密度可達,如圖4所示。圖中字母代表特征數據簇,利用聚類算法[14?15]對具有關聯規則的數據進行聚類,并將聚類結果收斂,得到的結果為:
式中:[Q]表示多個特征數據的收斂結果;[r]表示特征數據類簇數量;[u]表示特征數據;[ui]表第[i]類特征數據的平均值;[k]表示特征數據總個數;[Wi]表示特征數據屬性集合。根據上述聚類結果,交叉分析圖書館移動用戶特征數據的內在性質,主要包括用戶年齡層的交叉分析、使用圖書館目的交叉分析以及年齡和圖書館使用方式的交叉分析。根據該分析結果設置不同年齡層移動用戶行為關鍵詞,完成大數據挖掘技術的用戶行為分析方法。
2? 實? 驗
為了驗證本文所提方法的有效性,對提出的分析方法進行實驗測試,將文獻[2]方法、文獻[3]方法、文獻[4]方法作為實驗對照組,對比4種方法的分析效果,根據差異值明確分析方法之間的功能特性,得出實驗測試結論。
2.1? 實驗準備
為保證實驗數據真實可靠,選擇某市已開設20年的圖書館作為實驗環境,利用4種分析方法,分析該圖書館中移動用戶的行為。該圖書館的實際環境如圖5所示。
收集近1年內圖書館開館基本信息,按照月份進行統計,統計結果如表3所示。
統計1年內圖書館出入用戶的基本信息,包括人數、年齡、職業等,將這些用戶作為行為分析對象,得到的統計結果如表4所示。
根據上述實驗環境數據和實驗對象數據,分別利用4種分析方法進行圖書館用戶行為分析。
2.2? 結果分析
將本文所提方法的測試結果作為實驗A組,將文獻提出的3種方法分別作為實驗B組、C組和D組,圖6為對比實驗測試的結果。分析圖6可知,所提出的分析方法共分析出6組行為特征影響程度不同的數據,且這些數據有序排列。文獻[2]方法雖然獲得了大量的特征數據,但這些數據屬于同一類型;文獻[3]方法獲得的特征數據量少、特征種類不夠齊全;文獻[4]方法挖掘出的行為特征數據極少,分析結果不具備說服力。綜上所述,本文所提分析方法挖掘到的特征數據量大、種類齊全,分析結果更符合實際。
3? 結? 語
本文提出大數據挖掘技術的圖書館移動用戶行為分析方法,利用大數據挖掘技術將圖書館用戶的行為偏好特征進行挖掘,找出特征數據之間的隱含關聯,根據關聯程度分析行為規律,實現對用戶行為的分析。該方法有效解決了傳統分析方法存在的問題,提升了行為分析結果的精準度,為圖書館的發展提供合理的技術支持。但該分析方法還存在很多不足,在今后的研究與探析中需要不斷改進。
參考文獻
[1] 畢強,王福,丁夢曉.移動圖書館信息接受關鍵影響因素識別及調控[J].圖書情報工作,2018,62(15):6?15.
[2] 田磊,任國恒,王偉.面向閱讀推廣的微博用戶轉發行為預測[J].情報學報,2017,36(11):1175?1182.
[3] 高永梅,鮑福光.融入位置情景的移動用戶行為挖掘方法研究[J].數學的實踐與認識,2018,48(16):72?84.
[4] 陳鶴陽.基于元分析的云計算用戶采納行為影響因素研究[J].圖書館雜志,2018,37(4):86?94.
[5] 鄭明輝,呂經華.基于機器學習的企業私有云用戶行為分析模型[J].中南民族大學學報(自然科學版),2017,36(3):95?100.
[6] 趙從軍.一種新的水平分布式隱私保護數據挖掘算法:NPPA算法[J].科技通報,2018,34(3):174?178.
[7] 曹樹金,劉慧云,王連喜.大數據驅動的圖書館精準服務研究[J].大學圖書館學報,2019,37(4):54?60.
[8] 吳文光.基于流程挖掘的圖書館用戶滿意分析[J].圖書館雜志,2018,37(4):108?114.
[9] 梁榮賢.基于用戶畫像的圖書館精準信息服務研究[J].圖書館工作與研究,2019(4):65?69.
[10] 秦鵬,曹天杰.基于樸素貝葉斯網頁分類的用戶行為推衍[J].沈陽工業大學學報,2018,40(1):82?87.
[11] 弓建華,釗林真,李書寧.受眾行為分析視角的圖書館微信運營策略[J].圖書館論壇,2019,39(3):91?96.
[12] 任永功,索全明,劉洋.基于環型網絡模體應用馬爾科夫聚類的圖挖掘模型[J].模式識別與人工智能,2017,30(9):803?814.
[13] 徐永順,劉淵,周宇,等.大學圖書館用戶多需求深度挖掘設計研究[J].圖書館,2019(6):66?73.
[14] 高艷,岳昆,武浩,等.面向用戶偏好發現的隱變量模型構建與推理[J].計算機應用,2017,37(2):360?366.
[15] 李裕礞,練緒寶,徐博,等.基于用戶隱性反饋行為的下一個購物籃推薦[J].中文信息學報,2017,31(5):215?222.