張聞驥
摘要:女子高校圖書館特色數據庫的建設需要通過相應的技術手段來實現,數據挖掘算法可提高同類特色數字圖書資源之間的關聯性,SQL Server數據庫為特色數據庫的建設提供平臺。
Abstract: The construction of the characteristic database of women's university libraries needs to be realized through corresponding technical means. The data mining algorithm can improve the correlation between similar digital book resources. The SQL Server database provides a platform for the construction of featured databases.
關鍵詞:女子高校;圖書館;特色數據庫;挖掘算法;SQL Server數據庫
Key words: women's university;library;characteristic database;mining algorithm;SQL Server database
中圖分類號:G250.76 文獻標識碼:A 文章編號:1006-4311(2018)32-0195-02
0 引言
隨著社會的發展,科學技術的進步,高校數字化圖書館的興起與成熟,以紙質書籍為依托的高校傳統圖書館逐漸向以信息為載體的高校數字化圖書館轉型。信息化時代對高校數字化圖書館提出了更高的要求,高校圖書館不僅要數字化,而且還要做到方便、快捷,便于用戶文獻檢索、信息查詢、數據統計等,例如國內一些高校圖書館數據庫的建設、打破館際信息壁壘做到資源共享等取得了很好的成績。女子高校圖書館為更好地促進特色專業的建設、適應特色學科的發展,更好地滿足教學科研的需要、服務對象(廣大師生)對信息化的需求,在現有數據庫的基礎上建設特色數據庫是大勢所趨,而且很有必要。
1 特色數據庫的定義
特色數據庫是指根據本館館藏特色、地方特色,長期面向特定服務對象而集中收集各類文獻建立的信息資源數據庫[1]。特色數據庫是建立在普通數據庫的基礎之上,更為精準與優化的信息資源數據庫,主要用于滿足特定服務對象的個性化需求。例如:針對家政學、女性學、女性文學、空中乘務、學前教育等特色專業分別建設信息資源數據庫,服務對象只需找到相應的數據庫就可以享受方便、快捷、全面的信息資源服務。
2 數據挖掘算法
2.1 聚類分析算法
聚類分析是將分析的目標數據劃分為相同性質群組的數據挖掘技術,數據挖掘的目標就是通過分析發現數據的一些特征。聚類分析算法最為典型的是k-means算法,簡要過程如下:
從數據樣點中(個數為n),任選k個數據為初始聚類中心,其余樣點數據(n-k)個分別與這k個數據進行距離計算,分別把(n-k)個樣點數據與其最為相似的(相似度計算)的聚類,然后計算新聚類中心的均值,至到標準相似測度函數為收斂,選取方差作為標準相似測度函數。
用公式表示:假設k個數據集為K={ti1,ti2,…,tim},類中心的定義為公式(1)所示。
2.2 關聯分析算法
關聯分析就是從大量的數據中發現項集之間有趣的關聯、相關關系或因果結構以及項集模式。數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析目的是找出數據集中屬性之間的聯系,形成關聯規則。關聯規則有支持率和置信度兩個參數。支持率表明了該規則在所有實例中成立的比例,即規則所具有的代表性;置信度則說明了在規則前件成立的情況下,規則后件也成立的比例,即規則所具有的可信程度。
在論文中以支持率作為關聯分析的指標,具體公式定義如下:
3 SQL Server數據庫
數據庫用于存儲數據資源,為功能實現提供數據支撐。數據庫平臺面向開發人員提供數據存儲、查詢以及執行的接口、命令,另外為數據管理員提供數據庫管理平臺,DBA通過平臺能夠完成SQL語句的執行、數據庫結構和數據記錄的維護操作等[2],除完成數據庫操作外,一般商業數據庫平臺還提供數據分析的接口,在應用數據庫積累到一定規模后,數據庫平臺提供數據聯機分析工具,在一些新版的數據庫平臺中還提供數據倉庫和數據挖掘的相關工具。
數據的安全性在數據庫建設過程中一直是一個非常重要的關注點,因此,一個DBMS的安全性是對系統檢測的一個重要指標[3-4]。當前商業數據庫有SQL Server、Oracle、Sybase等,女子高校圖書館特色數據庫建設采用SQL Server數據庫。
SQL Server數據庫提供了完備的各類數據庫執行腳本語言,這些腳本可應用于應用程序開發的語句執行中,來完成相關的數據庫操作[5],目前最新的SQL Server數據庫對于其他各類語言的支持也相當好,具有很強的兼容性。除此之外,SQL Server數據庫優勢明顯,具體特征如下[6]:①SQL Server數據庫提供了完整的數據鏡像解決方案。其DBMS具有極高的數據處理性能,并支持數據鏡像的功能。在數據庫運行過程中,當數據庫服務器產生嚴重的數據錯誤時,可恢復遠程的數據鏡像文件,數據鏡像備份的周期可按小時、天來設定,備份的數據模式可采用增量備份和全備份。②支持在線檢索[7]。SQL Server數據庫提供了基于Http的在線數據查詢頁面,通過頁面,數據庫管理員可以在線輸入關鍵字來完成特定數據的檢索,提高數據庫的管理效率,在線檢索功能有利于數據庫管理員在非局域網內實現基于外網的數據庫操作,使日常數據庫運行維護操作更方便、更快捷。③支持數據容錯[8],提供快速恢復功能,包括數據記錄的恢復和數據庫結構的恢復,保證了數據的安全。④支持數據聯機分析功能[9]。大數據、人工智能應用是當前信息化發展的一個重要方向,這使數據庫平臺的核心功能由原來的數據庫存儲維護轉變為數據有效利用上來,除了傳統的數據統計分析外,更重要的是提供數據挖掘的工具、大數據分析工具等,能對大規模數據提供高效的數據預處理,能在數據庫平臺上瀏覽數據處理結果。⑤支持基于安全構件的不斷升級。除了以上安全措施外,SQL Server數據庫提供了基于組件式的安全升級模式,當發現數據庫存在安全漏洞時,微軟公司及時發布安全補丁,數據庫管理員通過補丁完成數據庫的在線升級,不影響數據庫的正常運行。⑥SQL Server數據庫提供較安全的數據庫操作策略,數據庫用戶角色較多,除了數據庫管理員外,還有數據庫操作審計管理員,審計管理員能夠對各個用戶的數據庫操作日志進行查詢,當數據庫出現操作異常時,審計管理員可通過查詢操作日志來分析數據異常原因,追溯到操作用戶。⑦SQL Server數據庫平臺提供操作日志記錄,內容包括用戶名、操作時間、IP和操作項目等。⑧SQL Server數據庫提供方便的備份與恢復工具,例如可以直接運用數據鏡像在某些重要的時間節點實現數據庫的備份,減輕了數據庫管理員的工作強度。除以上特點外,SQL Server數據庫的界面友好,熟悉Windows操作的用戶,能快速使用,可完成數據庫的創建、記錄的新增等操作。
4 結語
工欲善其事,必先利其器。女子高校圖書館特色數據庫的建設離不開相關技術的支撐,只有掌握和使用數據挖掘算法,使特色數字圖書資源分門別類地關聯起來,然后熟悉和運用SQL Server數據庫,將女子高校圖書館現有數據庫的數字圖書資源按需求設定條件逐一篩選、導入。數據挖掘算法和SQL Server數據庫是目前建設特色數據庫的兩項關鍵技術,唯兩者緊密結合起來,方可滿足女子高校圖書館特色數據庫建設技術層面的需求。
參考文獻:
[1]李向陽,苗壯.自由文本信息抽取技術[J].情報科學,2004(7):815-821.
[2]Davidson L, Kline K, Klein S, et al. Pro SQL Server 2008 Relational Database Design and Implementation[J]. Apress, 2016,12(13):232-243.
[3]張華東,邵秀麗,吳軍,等.SQL Server數據庫到HBase數據庫的模式轉換和數據遷移研究[J].智能計算機與應用,2016,6(5):24-30.
[4]Kang S, Choi J, Choi J. A method of Securing Mass Storage for SQL Server by Sharing Network Disks-on the Amazon EC2 Windows Environments-[J]. 2016,17(2):1-9.
[5]Shaik M V,Sujatha P. Temporal query processig using SQL server[J]. International Journal on Smart Sensing & Intelligent Systems, 2017(2017): 495-505.
[6]吳才遠.采用Veritas備份軟件對SQL Server數據庫進行恢復測試及應急演練淺析[J].自然科學:全文版,2016(8):187.
[7]范新燦,趙明.基于Struts+Hibernate+Spring的輕量級架構開發應用研究[J].現代計算機(專業版),2010(1).
[8]Sean Baird, Chris Miller. SQL Server System Administration[M].Beijing: Publishing House of Electronics Industry, 2000.
[9]Surajit Chaudhuri, Usama Fayyad, Jeff Bernhardt. Scalable Classification over SQL Database [J]. ICDE 2010:470-479.