洪碧云
摘要: 關聯規則分析是當前數據挖掘研究的重要模式之一,可以定量地處理圖書館學領域中各類優化問題。本文在簡要介紹關聯規則分析的基礎上,從流通信息、個性化推送、文獻計量、信息檢索等方面總結了關聯規則分析法在國內圖書館學領域的應用。
關鍵詞: 關聯規則分析數據挖掘數字圖書館
近年來,數據挖掘(data mining,也稱知識發現(knowledge discoveryin databases,簡稱KDD),受到當今圖書情報領域的廣泛重視,其主要目的就是設計算法,用于從海量數據中發現未知的、潛在的、讀者感興趣的有用信息。關聯規則是數據挖掘研究中的一個重要的研究課題。
1.關聯分析規則基本原理
Agrawal等人(1993年)[1]最先發現了顧客交易數據庫中的項集間存在關聯規則,其核心方法是基于頻集理論的遞推方法,它側重于確定數據中不同屬性域之間的聯系找出頻繁的數據屬性域之間的相互關系。定義為:
、
此后人們對關聯規則的挖掘問題進行了大量研究,包括對Apriori算法優化[2]、多層次關聯規則算法[3]、多值屬性關聯規則算法[4]等,以提高算法挖掘規則的效率。
關聯規則的挖掘一般可分成兩個子問題:①找出所有支持度≥最小支持度閾值的頻繁項集。②由頻繁模式生成滿足可信度閾值的關聯規則。第二個問題比較容易,它在第一步的基礎上很容易實現,因此關聯規則挖掘算法的性能主要由第一個問題決定。因為這個問題的挑戰性在于數據量巨大,所以算法的效率是關鍵。
2.關聯規則分析在國內圖書館學領域的應用
關聯規則分析經過十幾年的發展,目前已經在各個領域廣泛應用。從國內已有的研究成果來看,國內圖書情報界越來越重視關聯規則分析在圖情領域各類優化問題的定量應用,并針對不同主題進行了一系列的探討和研究,涉及的主題主要包括關聯規則分析在流通信息、個性化推送、文獻計量、信息檢索、知識管理等方面的應用。
2.1在流通信息統計中的應用
在讀者日常借閱記錄事務中,每天都有大量的借還記錄匯入數據庫中。讀者借閱的對象是文獻資源,根據長期的讀者借閱歷史數據,我們會發現讀者對文獻的借閱存在著一定的關聯,不同學科之間也存在著關聯,以及不同的讀者對文獻的借閱存在著一定的模式。挖掘出這些數據之間的關聯,有利于合理配置資源和提高資源的利用率,以提高圖書館的服務水平。圖書流通量是反映圖書利用率的最重要的技術指標,更是反映圖書館服務質量的重要因素。影響圖書流通量的因素是紛繁復雜的,這些因素不僅包括館藏圖書種類和數量的多少、借閱方式的差異、讀者群體的大小、借閱權限的區分,而且包括由于讀者個體間的差異和不同性別、年齡、不同專業及知識層次的讀者對讀物產生的不同需求。顯然,在上述復雜而又相關的各因素中,既有大量已知信息,又有不少未知信息、非確知信息。圖書流通系統的這種既含有已知信息,又含有未知的、非確知的信息,實際上是一種灰色系統[5]。關聯規則的挖掘可以發現圖書館流通數據庫中一組借閱書籍之間某種關聯關系的規則,其作用在于對圖書流通的關聯性分析和相關借閱圖書的推薦。這樣可以優化圖書館館藏結構、館內書籍分布,不僅可以幫助師生的學習教研工作,甚至可以發掘不同學科間的隱藏聯系[6]。
珵繼華[7]等認為多維數據空間數據的稀疏性,在低層或原始層的數據項之間很難找出強關聯規則。在較高的概念層發現強關聯規則很可能提供普遍意義的知識。而多層關聯規則挖掘是直接面向海量數據庫系統的,這類數據庫通常有上百個屬性和數百萬個記錄,并且數據表之間包含復雜的關系,這就必然導致數據挖掘過程中搜索維數和搜索空間的激增,利用高性能分布式計算機設計分布式多層關聯規則算法來進行高效的分布式挖掘已經成為當前數據挖掘的一個迫切需要解決的問題。
聶珍[8]在分析單數據庫多層關聯規則算法SMAM的基礎上提出了分布式多層關聯規則挖掘算法PMAM,使得其具有較高的分布式特點。在PMAM算法中利用全局頻繁與局部頻繁之間的關系減少候選集,并利用概念間的層次關系及項集長度的分布規律對事務表進行約減。這樣可使算法的效率得到提高,改善了內存的使用率。
2.2在個性化推送中的應用
未來圖書館的發展趨勢是數字化的,然而目前,國內圖書館技術與應用基礎薄弱,起步較晚,網絡個性化服務發展更是滯后,其應用仍處于初始探索階段。鑒于數據挖掘技術在數據的組織、分析與發現等方面存在巨大的潛力,學術界普遍認為它可為數字圖書館的個性化服務提供關鍵技術。
圖書推薦服務是圖書館個性化服務的一種,在圖書館巨大的館藏資源中,每個讀者感興趣的只能是其中的一小部分,如何高效率地找出對讀者有用的書目是圖書館學要研究的問題[9]。數字圖書館個性化服務是基于用戶的行為、習慣、偏好、特點及特定需求,向用戶提供滿足其個性化需求的信息內容和功能的一種服務[10]。
鮑靜[11]運用Apriori算法通過對讀者借閱數據的關聯挖掘,挖掘出各年齡層次、各職業、各學歷層次及不同職稱的讀者對圖書館圖書資源利用的關聯規則,并引入興趣度,對挖掘出的關聯規則做進一步分析,分析正相關關聯規則、負關聯規則,并根據興趣度來分析規則的有效性,提出了基于關聯挖掘的讀者個性化服務模型,由借閱記錄數據庫、數據挖掘引擎、圖形用戶界面、匹配器、規則庫等部分組成。
韓開來[12]等利用讀者五年內書籍的借閱數據,在Apriori關聯挖掘算法的基礎上,對事務集中每個項集按每個項的最小支持度從小到大排列有序,最小支持度的值采用根據每個項的值結合用戶指定的最小支持度上限和下限來計算。針對新書推薦特點,采用新書推薦關聯規則挖掘隱藏在借閱歷史數據中的有價值的信息。為個性化服務平臺的構建打下基礎;轉換圖書館的服務模式,由被動轉為主動,建立以讀者為中心的個性化服務體系。
2.3在文獻計量中的應用
在文獻計量學的研究中,通常需要通過定量分析以確定核心期刊、核心作者、核心情報源等等。對最優目標或某種具體要求的量化數據列,即標準數據列或最優數據列,來源一般有兩種方式[13],一種是人為指定,另一種是從被分析的項集合的指標值中選取最優值。用關聯分析法進行處理,相較其他方法具有更為廣泛的適用性,只要是由某些指標數據來對目標項或要求進行優化排序的均可用此法。方法簡單,原理直觀明了,計算量較少,對指標因素無任何限制,因此應用廣泛。
科學文獻的編排格式為文獻計量學提供了可統計的外部特征。鄒常詩[14]從引文、關鍵詞、分類號等外部特征入手,采用文獻計量方法分析了文獻的關聯性——相關文獻群和相關著者群,并闡述了兩個相關群的實際應用。
楊代慶等[15]分別從合著者、共關鍵詞、共引三個角度對來自于萬方數字化期刊群、SCI、EI的院士期刊文獻進行關聯性分析,通過期刊及院士作為媒介,最終映射到學部之間的關聯關系。根據生成的關聯圖從關聯廣度、關聯孤立性、關聯強度分析了學部之間的關聯程度及原因,并揭示了作為合著者的外部文獻特征與作為關鍵詞、共引的內容特征在學部關聯性上的差異。
曹志杰[16]等提出了基于共詞分析的隱性關聯知識發現方法,用于發現這些尚未被發現的聯系或復現這些被主觀隱藏的特定聯系,揭示出技術發展動向,以提高情報研究質量和情報工作地位。
徐慧[17]等利用頻數統計、關聯規則算法,對中國中醫藥期刊文獻數據庫中1984~2007年病毒性心肌炎文獻涉及的主題詞和副主題詞進行分析,抽取隱含規律,為病毒性心肌炎的臨床診療及科研提供思路。
2.4在信息檢索中的應用
金瑋[18]等針對Web信息檢索系統在海量數據下的服務質量和效率問題,討論了數據挖掘技術在Internet信息檢索中的運用,在經典的關聯規則算法研究基礎上,通過引入多維鏈表結構,提出了利用事務集合匹配運算和鏈表操作高效地挖掘關聯規則的算法ARMLL用于提高Web信息檢索質量。實驗結果表明該算法是可行的,有較高的效率。
黃名選[19]等以關聯規則挖掘技術的發展為主線,將目前的研究方法歸納為五類:項無加權關聯規則挖掘、項加權關聯規則挖掘、項完全加權關聯規則挖掘、負關聯規則挖掘和增量挖掘,對這五類挖掘技術進行整體性闡述和比較性研究,指出了挖掘技術的局限性。
劉俊熙[20]認為搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,對搜索引擎的相關技術(搜索技術、索引技術、檢索技術和接口技術)進行關聯分析。
于春[21]等介紹相關性是信息檢索科學的核心概念,用戶觀點則是相關性研究的主要觀點;從用戶角度研究相關性理論,以試驗法為研究方法,力圖證明存在一個核心的、可以跨不同用戶類型、問題情境和信息源環境的關于信息用戶在信息需求檢索中的相關性判斷的因素集,以此闡述如何提高信息檢索的準確率,指導信息用戶能夠及時、準確地查找到所需信息。
2.5其他方面
除以上幾個方面外,關聯分析還應用在圖書館學領域的諸多方面。有的學者運用灰色關聯度分析法對所調研圖書館讀者滿意程度進行對比分析,并進一步對讀者滿意度評價指標進行灰色關聯分析,得出影響圖書館讀者滿意度的主要指標[22]。還有學者將關聯規則分析應用在期刊評價、館藏建設、專利分析等方面。
3.關聯規則分析在國內圖書館學領域應用的總結和思考
從關聯規則分析在國內圖書館學領域應用的文獻數量來看,國內學者越來越重視這種分析工具的應用。從近年來文章的主題來看,關聯規則分析在國內圖書情報領域應用的研究主要集中在以下幾個方面:(1)在流通信息統計中的應用;(2)在個性化服務推介方面的應用;(3)文獻計量分析;(4)信息檢索方面的應用;(5)讀者滿意度滿意度評價,此外還包括期刊評價、館藏建設、專利分析、編目規則、文獻采訪、學科館員選拔、知識管理和競爭情報等。
通過對國內研究的分析,可以看到該主題的研究越來越豐富,應用越來越廣泛,既有理論研究,又有實踐探討。但是同國外相比,國內的理論探討不夠深入,實證研究相對比較少,因此不論從理論還是實踐上都需要向國外借鑒和學習。
參考文獻:
[1]Agrawal R,Srikant R.Mining association rules between sets of items in large databases[A].Prco ACM SIGMOD Intl Conf Management of data[C].Washington DC, May,1993:207-216.
[2]Agrawal R,SrikantR. Fast algorithms for mining association rules[A].Prco 20th Intl Conf Very Large Database[C].Santiago,Chile,Sept,1994:487-499.
[3]Srikant R,Agrawal R.Mining generalized association rules[A].Proceedings of the 21th International Conference on Very Large Databases[C].Zurich,Switzerland,Sept,1995:407-419.
[4]尹阿東等.基于數值屬性的關聯規則挖掘算法[J].微機發展,2003(4):67-70.
[5]高波.對高校圖書流通的灰關聯法分析[J].遼寧師范大學學報(自然科學版),2001(03):327-330.
[6]王磊,劉東蘇.關聯規則挖掘在圖書館信息服務中的應用[J].情報雜志,2008(2):154-158.
[7]珵繼華,施鵬飛.多層關聯規則的有效挖掘算法[J].軟件學報,1998(12):937-941.
[8]聶珍.分布式多層關聯規則在圖書流通優化中的應用[J].科技情報開發與經濟,2008(22):1-3.
[9]夏南強,張紅梅.基于數據挖掘的數字圖書館個性化服務[J].圖書館學研究,2006(1):32-34.
[10]馬文峰.數字圖書館個性化信息服務檢索[J].圖書館雜志,2003(4):65-67.
[11]鮑靜.關聯規則挖掘及其在圖書流通數據中的應用研究[D].合肥工業大學,2007.
[12]韓開來.關聯規則在圖書館新書推薦中的研究[J].科技信息,2008(6):10-13.
[13]李蔭濤.關聯分析法在情報學中的應用.情報理論與實踐,1990(1):5-8.
[14]鄒常詩.科學文獻計量分析與文獻關聯性研究[J].情報資料工作,2000(4):18-20.
[15]楊代慶等.從院士期刊文獻對學部關聯度的挖掘探索[J].情報雜志,2009(8):26-29.
[16]曹志杰,冷伏海.共詞分析法用于文獻隱性關聯知識發現研究[J].情報理論與實踐,2009(10):99-103.
[17]徐慧等.病毒性心肌炎主題詞和副主題詞關聯規則分析[J].世界科學技術:中醫藥現代化,2009(4):593-596.
[18]金瑋等.Web信息檢索技術中關聯規則挖掘算法應用研究.情報雜志,2007(01):39-42.
[19]黃名選,陳燕紅.關聯規則挖掘技術研究[J].情報雜志:2008(4):119-121,115.
[20]劉俊熙.搜索引擎的搜索、索引和檢索技術的關聯分析[J].圖書館學研究,2005(09):84-86.
[21]于春等.信息用戶對信息檢索相關性判斷的因素分析.圖書情報工作,2009(03):103-107.
[22]鄭艷玲.灰色關聯分析在讀者滿意度評價中的應用[J].情報雜志,2007(02):117-120.