◎武艷榮 宋宇辰
淺談數字圖書館數據挖掘
◎武艷榮 宋宇辰
隨著我國經濟的迅速發展,計算機網絡技術方面也取得了尤為突出的成果。而在數字圖書館的管理中,數據挖掘是一個特別重要的環節。但因為諸多因素的限制,數據挖掘存在著一定的問題,從而對整個數字圖書館的發展造成了阻礙。本文就對數字圖書館數據挖掘進行簡要的探討。
數字圖書館 數據 挖掘
在科學技術日益發展的今天,已經有越來越多的領域在運用信息化數字技術,并且成效非常顯著。數字挖掘技術作為數字圖書館中極為重要的一部分,把傳統圖書館需要大量人員來完成的工作轉變為數字技術操作,極大地節省了人力和物力。但與其他發達國家相比,我國整體水平仍然偏低,為了有效地改善目前的現狀,我們必須積極地借鑒先進的數據挖掘技術,從而更好地運用在我國的數字圖書館管理中。
在數字圖書館中,要想更好地使用數據挖掘技術,就必須要先準確掌握數據挖掘的具體概念。數據挖掘主要是指從大量的數據當中,運用信息技術準確地挑選出和挖掘一些隱藏的信息,并將這些信息應用在工作實踐中。數據挖掘是一個相對較為繁復的過程,其中包含數據的準備、采集以及結果的顯示與解釋,因此,我們必須在應用數字挖掘技術之前做好這幾項工作。而數字圖書館則是通過計算機和信息檢索技術,整理和保存全部的圖書信息,同時又是收集和使用數字信息的綜合智能數字信息管理和服務的中心,為讀者提供更為全面的服務。
(一)聚類分析
聚類分析是數據挖掘中一個較為重要和復雜的功能特性,主要是指把全部的數據個體所具有的特點,通過計算機技術進行歸納,繼而將這些數據匯聚成具有特殊屬性的一個數據群組。而聚類又可以分為兩種,一種是把同一類型的數據匯聚在一起進行管理和保存,另外一種是把不同類型的數據匯聚后進行統一管理。之后就能夠從獲取的特性中知道同類事物的共同點和不同種類事物之間的差異性。
(二)關聯分析
關聯分析與聚類有著極大的差異性,它主要是指數字圖書館中收集起來的各種數據,它們之間是具有一定關聯性的信息。舉例來說,就是在數字圖書館中的某一組數據,其中大多數的數據都相互之間存在著聯系,從而我們能夠通過對其中一項具體屬性的了解,就可以掌握與其相關聯的其他項的屬性。
(三)概念描述
概念描述是指探討和分析某類對象的內在涵義,并概括出這一類別對象的有關特征,這其中又分為區別描述和特征描述。前者是對不同類別對象之間存在的差別進行描述,后者是對某類對象的共同特征進行描述,并匯總成一個類別的共同特征。
(一)結構挖掘
結構挖掘的應用,就是通過網絡頁面中的鏈接和組成結構,從中可以盡快地掌握圖書館頁面整體的結構形式,以此來對模式的各個特征做好進一步的分類和分析。通過結構挖掘的使用,我們能夠及時準確地為數字圖書館在網絡建設方面給出建議,并且還可以從這些鏈接了解和分析到各學術的發展方向如何。此外,還能夠節省大量的人力和物力,使數字圖書館的工作效率得到提升。
(二)內容挖掘
內容挖掘相比較結構挖掘而言,過程更加復雜,內容也較為豐富。其主要包含組織文獻數據、特征的自動提取和描述以及自動采集整理專題信息等。首先,組織文獻數據主要是指采用現代化的信息技術,整理和分類數字圖書館中全部的文件,清楚地了解和掌握每個分類所包含的內容,這樣有利于用戶在數字圖書館查找信息的過程中,能夠通過想要查詢的信息分類,更為迅速地找到有關的內容區域。另外,還能夠有效地保證準確地查找到所需信息。其次,自動提取和描述特征是一個需要較高技術性的過程。在進行數據挖掘的過程中,利用一個較為具體的內容分析器,分析和提取出其中有關的內容特征,從而可以讓用戶在這些被準確提取的內容特征中更為快捷精準地查找到所需信息的具體位置。最后,是自動采集整理專題信息。數據挖掘雖然取得了一些成果,但其在我國作為一種新型的智能化科技的產物,在發展過程中還會存在很多的難題等待我們去解決,因此,這就要求我們必須積極地借鑒國外的先進數字挖掘技術,并通過不斷地探究和完善,提高我國的數據挖掘技術水平。
總之,在數字圖書館的日常管理中,采用數據挖掘技術能夠有效地優化和豐富信息資源,以給用戶提供更加優質的服務。但為了滿足發展的需要,我們要不斷地完善我國的數據挖掘技術水平。
[1]唐吉深.圖書館數據挖掘技術研究現狀述評[J].圖書館界, 2011(01).
[2]洪麗平.數據挖掘在圖書館讀者忠誠度研究中的應用[J].情報探索,2016(08).
(責任編輯 劉冬楊)
武艷榮,內蒙古科技大學經濟與管理學院碩士研究生,包頭市委黨校,助理館員,研究方向:數據挖掘與圖書館信息;宋宇辰,博士,內蒙古科技大學經濟與管理學院,教授,研究方向:能源經濟環境可持續發展、數據挖掘、大數據分析)