李梅珍
(廣東工商職業學院,廣東 茂名 526040)
大數據技術和互聯網技術的進步,為人們獲取信息提供了便利,營造了便捷暢通的學術交流環境。尤其是開放獲取運動的推進,催生了傳統的學術交流體系變革。為了更好地滿足科研用戶的需求,很多高校圖書館與科研機構通力合作,在采集整理數字化科研成果基礎上,建立了科研數據知識庫,以實現學術資源的長期保存和集中式知識管理。然而隨著圖書館數字化進程的加快,科研數據知識庫的資源日益增多,數據來源復雜,形式多樣,極大地增加了用戶手工檢索的難度。面對大數據環境下異構分布的海量信息,若高校圖書館依然提供人工檢索方式,則不僅延長了用戶獲取信息的時間,也容易讓他們產生“信息迷失”。為解決這一問題,高校圖書館可以構建智能推薦系統,從科研數據知識庫中深入挖掘有價值的信息,在集成大規模數據的基礎上,分析與揭示具有關聯的統計數據,發現其中隱含的規律,并通過分析預測用戶需求,達到滿足智能化推送服務的目的。高校圖書館本身擁有大量用戶訪問數據,其中隱藏著很多有用的信息,有助于圖書館全面分析用戶需求,也為智能推薦系統的構建提供了支持。筆者在研究國內科研數據知識庫建設現狀的基礎上,提出了智能推薦系統的建設策略。
科研數據知識庫是由科研機構、圖書館等聯合建立,專門用于存儲、組織、管理與共享科研數據的知識倉儲。它起源于美國,是在開放獲取運動背景下產生的。互聯網時代便捷的信息傳播方式,為學術資源開放存取提供了便利,促進了數據密集型科研活動的開展,也推動了科研數據知識庫的建設與發展。尤其是近年來大數據、物聯網等技術的進步,打破了信息交互的時空障礙,跨學科、跨機構的合作成為現實,營造了協同式科研交流平臺。我國學者于2004年引入國外科研數據知識庫的案例,并在各級圖書情報部門推廣。2005年北京大學圖書館聯合多所高校發表宣言,指出高校圖書館應該“建立一批特色學術機構庫”。2016年9月召開的第四屆中國機構知識庫學術研討會上,高校機構知識庫聯盟(CALIS)正式成立,對建立圖書館科學數據知識庫聯盟具有指導意義。
高校圖書館建設科研數據知識庫的目的,在于幫助科研用戶獲取所需數據,提高科研數據利用率,促進高校學術水平的提升[1]。高校和科研機構是知識庫的建設主體,由科研機構提供數據和技術支持,由高校圖書館負責數據采集、整理與傳播工作。這些知識庫依托先進的信息技術,實現了大規模數據的存儲、傳輸、管理與共享,主要存繳內容為學術論文、專利文獻等,為用戶提供了開放的學術資源服務平臺,具有開放獲取、免費服務的特征,制定了明確的存儲與傳播政策,有常規數據庫無法比擬的優勢。近年來,我國教育部推出高等教育文獻保障項目,要求整合高校圖書館以及各級文獻機構的服務,全面挖掘科研數據資源,進一步推動科研數據開放共享[2]。
高校圖書館科研數據知識庫的建立,是教育科研知識基礎設施的組成部分,具有高級檢索、信息鏈接等服務功能,能夠滿足數字化科研服務需求,實現科研成果開放存取,提升科研數據世界范圍內的能見度。尤其是大數據時代數據類型日益增多,數據傳播途徑更加多樣化,要求科研數據知識庫能夠支持多種數據格式,實現大規模數據的批量導入與導出,在滿足傳統類型數據管理需求的基礎上,及時識別、存儲、整合新的數據種類,促進不同格式數據的轉換,保障數據存儲的系統性和完整性。然而與發達國家相比,國內科研數據知識庫還存在差距,表現在系統功能單一、個性化服務不足等方面,亟待引入先進技術大力趕超。
目前智能推薦系統在電子商務領域得到廣泛應用,成為掌握用戶偏好并提供個性化服務的工具。將智能推薦系統引入高校圖書館,可以提高科研數據的檢索準確率,幫助用戶便捷地獲取信息,進而提升圖書館知識庫的利用率。
大數據時代數字化資源成倍增長,人們對數據資源的需求量也在逐漸變大,對數字化服務的需求程度更深[3]。面對復雜異構的海量科研數據,高校圖書館不僅要做好數據采集、整合與管理工作,要將繁雜的數據轉換為可以統一存儲的資源,也有必要借鑒電子商務領域的成功經驗,將智能推薦系統作為信息過濾器,以適宜的推薦算法實現用戶建模,獲得用戶的喜好,預測他們的行為動向,最大限度滿足他們的深層次需求。加之近年來高校圖書館知識庫發展迅猛,運營環境趨向可兼容、可拓展,服務系統的數據分析能力不斷增強,信息服務也更加追求開放性,這都為引入智能推薦系統提供了良好的條件。
高校圖書館是為教學科研提供服務的場所,科研數據知識庫的建立,目的在于采集、存儲與管理數字化學術資源,減少科研用戶搜集信息的時間,輔助他們更好地開展科研活動。高校圖書館在科研數據管理方面積累了豐富的經驗,擁有穩定的用戶群,其服務系統中也保存著大量用戶訪問數據,若能夠借助智能推薦系統集成這些用戶數據,并深入挖掘分析,發現隱藏在其中的知識,再依據挖掘結果以智能推薦的方式提供服務,將極大滿足用戶的個性化需求,進而吸引更多用戶參與到圖書館建設中來。加之大數據時代用戶的需求日益多樣化,高校圖書館利用智能推薦系統,將提高科研數據整合水平,提高獲取科研數據的速度,強化服務系統的響應能力[4]。
科研數據是科研人員在工作中產生的,包括學術報告、期刊文獻、手稿等。這些資源類型與存儲方式各異,要求高校圖書館提供穩定、安全、長期的存儲環境,實現數字化科研資料的專業化管理。然而目前國內科研數據知識庫不僅數量少,在科研數據管理方面,也存在資源獲取渠道少、用戶不認可、版權糾紛等問題[5]。為了更好地適應大數據環境,高校圖書館引入智能推薦系統,依托適宜的推薦算法與數據挖掘技術,實現對知識庫資源與用戶數據的統一處理,不僅能夠發現當前工作中存在的不足,促進管理程序的改進和完善,也可以全面掌握用戶需求,根據智能推薦情況動態調整系統服務模式,進一步解決數據標準化建設和資源共享問題。
科研數據知識庫主要為科研用戶服務,其中收藏的資源具有很強的專業性。針對不同學科用戶的需求,高校圖書館需要主動掌握用戶偏好,并在此基礎上智能推薦個性化信息。筆者將數據挖掘作為智能推薦系統的核心技術,根據功能差異將推薦系統框架設計為基礎數據層、數據分析層、智能服務層3部分,具體如圖1所示。

圖1 高校圖書館科研數據知識庫智能推薦系統框架
從既有數據庫中挖掘有價值的信息,滿足用戶的智能化服務需求,這是高校圖書館引入智能推薦系統的目標。智能推薦系統在對用戶數據進行深入挖掘,獲得精準推薦結果后,可以推送至結果展示頁面,方便用戶在線瀏覽、評論與交流[6]。智能服務層是圖書館對外服務的窗口和平臺,是智能推薦系統的輸出端,信息管理人員可以借助該層推送科研數據,用戶可以通過該層獲得所需的結果。該層設置多個對外接口以方便用戶與智能推薦系統的人機交互,凡是注冊用戶均可以登錄服務系統,在線發送知識庫訪問請求。系統會根據用戶聚類分析結果,及時從科研數據知識庫中調取數據,然后以直觀的形式向用戶展示推送內容。
數據處理層是對各類數據進行集成處理,通過數據挖掘和語義關聯,得到用戶最感興趣的資源并推送出去的系統。該層是智能推薦系統的核心部分,涉及到多種數據處理技術,也需要利用適宜的推薦算法,如基于效用的推薦、協同過濾等。通常情況下需要多種推薦算法組合使用,達到揚長避短的目的,保障獲得最為精準的推送資源[7]。服務系統需要采集大量用戶數據,包括讀者注冊信息、訪問記錄、閱讀偏好等,并將這些信息導入數據處理層,作為智能推薦的依據。同時要做好用戶聚類工作,根據歷史數據分析不同類型用戶的特點,歸納不同用戶群體之間的關聯,設置對應的用戶標簽,以便迅速從知識庫中調取相匹配的數據。
基礎數據層是長期存儲各類數據的場所,涵蓋所有館藏資源和用戶信息,為數據挖掘和智能推薦提供了條件。根據智能推薦系統數據處理的實時性,這些數據分為原始數據、線下處理數據、緩存數據等類型。其中原始數據包括用戶信息、文本檔案等,線下處理數據包括相似度計算數據、索引文件等,緩存數據包括用戶歷史訪問數據、系統運行數據等。當用戶登錄圖書館服務界面,在線檢索知識庫中的資源時,其各項操作均會留下數據記錄[8]。智能推薦系統會根據用戶數據,判斷用戶角色與特點,查詢對應的歷史推薦數據。隨著用戶行為的不斷變化,該層的數據資源也在動態更新,以更好地適應智能化服務需求。
高校圖書館構建智能推薦系統,能夠讓用戶隨時隨地獲得精準動態的服務,為科研活動的順利開展提供數據支持。智能推薦系統依賴于大規模數據的高效處理,技術方法對推薦結果的準確度存在較大影響,需要高校圖書館合理選擇與正確應用。
高校圖書館要想根據科研用戶的需求,為他們提供個性化的科研數據,就需要掌握用戶的興趣愛好,分析不同用戶群體間的異同,確保系統服務的準確度。首先智能推薦系統會調取歷史數據,分析服務系統中的用戶日志文件,通過數據清洗去除冗余部分,然后將這些數據映射至每個項目對應的屬性值上,生成用戶偏好矩陣,然后根據屬性值計算不同矩陣的相似度,通過相似度對比找到最符合用戶需求的資源,將其作為推送結果。在構建用戶興趣模型時,需要借助計時器實現實時更新。若特定時間內的用戶日志記錄超過閾值,則需要重新生成用戶偏好矩陣,并更改既有的數據處理狀態,若未超過閾值則不需要更新。
智能推薦模塊是高校圖書館服務系統的核心部分,該模塊需要處理大規模數據,并選擇適宜的算法得到符合用戶需求的推送信息。智能推薦模塊在工作過程中,對于穩定的用戶群體,由于系統中存儲有大量用戶信息,可以選擇協同過濾算法進行數據處理,根據當前用戶對既有項目的偏好數據,對其他用戶對當前服務項目的偏好進行預測(如下圖2)。而對于新用戶或信息不完整的用戶,就需根據這些用戶的基礎信息,查詢該用戶所屬機構的借閱記錄,掌握他們瀏覽較多的數據資源,以預測他們的興趣所在。同時系統可以利用基于內容的推薦算法,詳細分析科研數據知識庫中的信息類別,建立所有資源的屬性數據庫,對這些數據進行關鍵詞標注,計算不同科研數據之間的相似度。然后依托用戶數據分析,掌握不同用戶的借閱習慣,將相似度較高的數據推送給相匹配的用戶。
高校圖書館可以利用關聯規則,對科研數據知識庫中的信息進行關聯挖掘,發現不同數據項之間的聯系,發現知識庫中蘊含的有價值的規則,為個性化資源推薦提供依據。首先智能推薦系統需要根據既有關聯規則,計算知識庫中各項集的最小支持度,找到所有頻繁項集。然后通過置信度計算過濾不相關集合,尋找其中的強關聯規則,在度量各類規則重要性基礎上,選擇最優規則。關聯規則挖掘的應用,不需要建立復雜的模型,推薦準確度較高,可以實現離線操作,避免了在線操作過程中系統數據過載的問題。在離線挖掘過程中,系統可以根據既有規則發現用戶的瀏覽模式,并對其進行深入分析,然后將分析結果轉化為知識,以此指導智能推薦服務行為。
科研數據是大數據時代的新型戰略資源,在驅動科技創新方面發揮著重要作用。信息技術的日新月異,改變了傳統的學術科研交流模式,數字密集型科研得到蓬勃發展,建立科研數據知識庫成為順應開放獲取運動的必然趨勢。現階段國內科研數據知識庫的數量雖然不斷增加,但依然存在科研數據管理不當、服務模式單一等問題。為此,高校圖書館需要引入智能推薦系統,依托數據挖掘等先進技術,在掌握用戶興趣基礎上實現個性化推送,在更高層次上為用戶提供智能化服務環境,實現科研數據利用價值的最大化。