杜 君
(齊齊哈爾大學圖書館,黑龍江 齊齊哈爾 161000)
大數(shù)據(jù)這一概念是繼云計算之后覆蓋社會各領域的又一熱點,可以被看作是數(shù)字化時代的升級版本,意為融合移動互聯(lián)網、物聯(lián)網、云計算等多種科技信息技術的環(huán)境,具有智能化、泛在化的特點,進一步造就了全新意義的數(shù)據(jù)傳播方式,使不同媒介之間的界限更加模糊,促進了資源的交流與互通。與此同時,伴隨知識經濟時代的到來,人們對知識的渴望越來越強烈,高校圖書館作為重要的知識服務機構,有義務承擔起知識服務的社會職責。實際上,數(shù)據(jù)的發(fā)現(xiàn)和挖掘是知識發(fā)現(xiàn)的前提與基礎,在大數(shù)據(jù)環(huán)境下,高校圖書館的知識發(fā)現(xiàn)主要基于本館的館藏資源,同時與網絡上的學術資源進行互聯(lián),將價值較高的學術資源納入知識發(fā)現(xiàn)系統(tǒng)中,豐富高校圖書館知識發(fā)現(xiàn)服務的資源基礎。因此,大數(shù)據(jù)與高校圖書館知識發(fā)現(xiàn)服務之間存在著必然聯(lián)系,數(shù)據(jù)處理技術的進步在一定程度上決定著高校圖書館館藏資源知識發(fā)現(xiàn)服務的過程與效果。
高校圖書館館藏資源以學術資源為主,學術資源的建設趨向數(shù)字化和網絡化,通過數(shù)據(jù)傳播的方式推動高校師生學術研究進一步向社會延伸,逐步向公眾提供學術數(shù)據(jù)支持。在這樣的背景下,學術大數(shù)據(jù)環(huán)境為知識發(fā)現(xiàn)服務的創(chuàng)新提供了支撐,高校圖書館學術資源建設從過去單一領域向交叉領域深入融合,信息的構建也呈現(xiàn)全方位和多角度的特點。
基于學術大數(shù)據(jù)平臺,作者與高校圖書館學術數(shù)據(jù)庫之間可以進行雙向選擇。一方面,大數(shù)據(jù)的編輯模式可以綜合多種信息源,了解到學術領域的熱點問題和前沿情況,進一步了發(fā)現(xiàn)作者的研究領域和已有的學術成果,對學術期刊的作者有一個前期的綜合評價,進而聚焦其研究重點,進行有針對性的選題與組稿,對其學術研究數(shù)據(jù)進行深度挖掘[1]。另一方面,大數(shù)據(jù)的雙向流通特點也給予了作者選擇學術資源庫的權利,社會化的學術資源編輯模式,使作者能夠了解到更多類型和專業(yè)指向的資源庫平臺,可以選擇與自己研究課題匹配度較高的學術資源庫平臺發(fā)布其科研成果,擴大其學術研究的流通范圍,并進一步尋求協(xié)作研究目標,促進學術研究成果的有效轉化。由此構成了以學術大數(shù)據(jù)為基礎的作者與高校數(shù)據(jù)庫之間的科研流通路徑,進一步豐富高校圖書館學術館藏資源的學科領域與數(shù)據(jù)類型,為其開展知識發(fā)現(xiàn)服務奠定良好基礎。
高校圖書館學術館藏資源需要結合大數(shù)據(jù)技術進行精細的數(shù)據(jù)挖掘與整合。高校圖書館依托大數(shù)據(jù)技術,以知識發(fā)現(xiàn)服務與讀者閱讀需求為指引,結合學術館藏資源的內涵與特征,構建起集合大數(shù)據(jù)處理體系、數(shù)據(jù)分析系統(tǒng)、過程管理系統(tǒng)等技術在內的集成式知識發(fā)現(xiàn)服務平臺,實現(xiàn)學術數(shù)據(jù)的廣泛傳播與面向讀者用戶的精準化嵌入式有效知識服務,從而提高高校圖書館學術館藏資源知識發(fā)現(xiàn)工作的成效。
高校圖書館應用大數(shù)據(jù)的分析、組織、存儲、獲取等新技術,創(chuàng)新對館藏資源的構建,加快了以學術期刊為主的全媒體出版進程。大數(shù)據(jù)環(huán)境的一個特點在于網絡平臺延伸服務的廣泛性,尤其是媒體時代的來臨,進一步推動了數(shù)據(jù)的交流與傳播,高校圖書館學術期刊的知識發(fā)現(xiàn)服務可以與媒體環(huán)境相結合,推出云出版、網絡出版、信息定制等知識發(fā)現(xiàn)和資源推送服務,豐富圖書館知識發(fā)現(xiàn)的內涵[2]。同時,高校圖書館可以此為契機,搭建以學術期刊為紐帶的人才對接、產學研合作平臺等,適應大數(shù)據(jù)時代對學術期刊的新要求,增強高校圖書館學術資源的附加價值。
高校圖書館館藏資源的知識發(fā)現(xiàn)服務分為數(shù)據(jù)準備階段、數(shù)據(jù)挖掘階段和結果評估階段。數(shù)據(jù)準備階段是建設學術數(shù)據(jù)資源的過程;數(shù)據(jù)挖掘階段結合讀者的知識需求對數(shù)據(jù)進行整合與關聯(lián),是知識發(fā)現(xiàn)服務的核心環(huán)節(jié);結果評估階段則指將知識發(fā)現(xiàn)成果以可視化的直觀方式展現(xiàn)給讀者。
在學術大數(shù)據(jù)環(huán)境下,學術數(shù)據(jù)呈現(xiàn)出爆炸式增長,數(shù)據(jù)類型也越來越復雜。在數(shù)據(jù)準備階段,高校圖書館主要是對館藏數(shù)據(jù)進行全面的梳理和建設,解決知識服務中數(shù)據(jù)的有效識別問題。受高校圖書館館藏資源學術數(shù)據(jù)密集研究范式的影響,知識發(fā)現(xiàn)研究成為對已有的數(shù)據(jù)進行處理,進而達到知識發(fā)現(xiàn)目的的一種過程性服務手段,而非為了實現(xiàn)一個研究目的而尋找實驗數(shù)據(jù)的指向性服務方式[3],這就要求學術數(shù)據(jù)的構建要盡量覆蓋全面和多樣化,這在高校圖書館知識發(fā)現(xiàn)服務的數(shù)據(jù)準備階段尤為重要。
數(shù)據(jù)挖掘階段是高校圖書館進行知識發(fā)現(xiàn)服務的關鍵環(huán)節(jié),主要解決數(shù)據(jù)的集合、關聯(lián)、聚類等問題。在此過程中與大數(shù)據(jù)技術緊密結合,應用了大量的數(shù)據(jù)統(tǒng)計學和計算機自動化數(shù)據(jù)識別技術,充分保證館藏資源中的學術數(shù)據(jù)是有效的、可理解的。同時,根據(jù)讀者知識獲取的實際需求,采取相應的技術方法(如遺傳算法、神經網絡等),優(yōu)化知識發(fā)現(xiàn)產品的質量,最大程度符合學術數(shù)據(jù)與讀者需求的匹配要求。總之,數(shù)據(jù)挖掘階段實現(xiàn)的成效直接影響到高校圖書館學術數(shù)據(jù)知識發(fā)現(xiàn)服務的效率和精準度,將多學科理論進行交叉和數(shù)據(jù)挖掘,針對多源異構數(shù)據(jù)采取適合的數(shù)據(jù)處理技術,實現(xiàn)學術數(shù)據(jù)的縱深整合,是知識發(fā)現(xiàn)研究領域的研究重點。
結果評估與解釋階段是指高校圖書館將知識發(fā)現(xiàn)服務成果展示給讀者用戶的過程,同時也是檢驗知識發(fā)現(xiàn)服務工作成效的反饋環(huán)節(jié)。數(shù)據(jù)準備階段和數(shù)據(jù)挖掘階段是高校圖書館針對學術期刊數(shù)據(jù)進行處理,并不與讀者用戶直接發(fā)生關系,而結果評估與解釋階段是將數(shù)據(jù)處理的結果以可視化的方式展示給讀者,直接與讀者產生聯(lián)系,讀者對高校圖書館知識服務的感受在很大程度上反映了前兩個階段的工作成效。因此,這一環(huán)節(jié)既可以看作是學術大數(shù)據(jù)環(huán)境下高校圖書館知識發(fā)現(xiàn)服務的應用終端,也與前兩個階段形成反饋機制,起到促進知識發(fā)現(xiàn)服務技術與數(shù)據(jù)處理方式創(chuàng)新完善的作用。
基于上述對學術大環(huán)境和高校圖書館館藏資源知識發(fā)現(xiàn)服務的分析,筆者認為,高校圖書館要將其知識發(fā)現(xiàn)服務的重難點放在數(shù)據(jù)的整理方面,提高核心數(shù)據(jù)競爭力,深度挖掘學術數(shù)據(jù)間的內在關聯(lián)性,打造內容全面的、豐富的學術資源數(shù)據(jù)庫,服務于讀者用戶的知識發(fā)現(xiàn)需求。因此,筆者構建了如下高校圖書館知識發(fā)現(xiàn)服務模型。該模型自上而下分為界面展示層、知識發(fā)現(xiàn)處理層和數(shù)據(jù)資源層3個層次,根據(jù)每個層次的功能,結合學術大數(shù)據(jù)的環(huán)境特征,可從整體上提高圖書館基于大數(shù)據(jù)技術的知識發(fā)現(xiàn)服務效率。下文將對每一個層次的構建內容進行詳細設計。

圖1 學術大數(shù)據(jù)環(huán)境下高校圖書館館藏資源知識發(fā)現(xiàn)服務的總體設計
數(shù)據(jù)資源開發(fā)利用是高校圖書館館藏資源知識發(fā)現(xiàn)工作的基礎,為數(shù)據(jù)的編碼和計算提供條件。如圖1 所示,數(shù)據(jù)資源層從各數(shù)據(jù)源中集成資源,收錄到學術情報數(shù)據(jù)庫中,形成結構化的查詢語言系統(tǒng)(簡稱SQL)[4]。一般來說,高校圖書館學術數(shù)據(jù)庫的建設會直接影響到知識發(fā)現(xiàn)服務的效率,從目前的高校圖書館數(shù)據(jù)庫構建情況來看,比較成熟的學術資源數(shù)據(jù)庫種類有關系型與非關系型兩種。關系型的數(shù)據(jù)庫更多地采用表型結構存儲數(shù)據(jù),更加符合讀者用戶的資源獲取需求,從操作便捷性和知識發(fā)現(xiàn)結果匹配性來看,關系型的學術數(shù)據(jù)庫更有利于強化數(shù)據(jù)關聯(lián)、深化數(shù)據(jù)挖掘,其流程為“確定分析目的→確定研究范圍→收集情報”,從而形成完整的知識發(fā)現(xiàn)服務鏈。然而,在學術大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)數(shù)量十分龐大,數(shù)據(jù)的結構也十分復雜,這使修改數(shù)據(jù)庫表結構較為耗時,尚存在改善的空間。
知識發(fā)現(xiàn)處理層的功能是針對數(shù)據(jù)資源層的數(shù)據(jù)資源進行深度挖掘和關聯(lián),通過數(shù)據(jù)處理技術進行數(shù)據(jù)的整合與情報編碼,使海量數(shù)據(jù)進行有規(guī)律的排列。如圖1 所示,在高校圖書館館藏資源知識發(fā)現(xiàn)服務的處理層中,主要分為3個功能的模塊:第一,制定編碼體系,通過文本預處理、專業(yè)述評詞典、停止詞詞典和同義詞詞典將數(shù)據(jù)資源進行歸類;第二,編碼功能,通過中文分詞、去停止詞、合并同義詞、特征選擇與文本量表示,對學術資源進行規(guī)范性的編碼處理,便于知識發(fā)現(xiàn)的內部數(shù)據(jù)關聯(lián)與結果輸出;第三,數(shù)據(jù)分析功能,通過相似度算法與聚類算法等數(shù)據(jù)處理方法,實現(xiàn)情報串聯(lián)和自動聚類的學術資源知識發(fā)現(xiàn)成果。
學術大數(shù)據(jù)環(huán)境下高校圖書館館藏資源知識發(fā)現(xiàn)服務的界面展示層包括兩個部分:外觀界面與可視化分析。外觀界面是指讀者用戶獲取知識的操作系統(tǒng),有利于實現(xiàn)用戶與圖書館之間的互動交流,是圖書館獲取讀者反饋的重要平臺。可視化分析則指展現(xiàn)出學術資源知識發(fā)現(xiàn)的成果,屬于知識發(fā)現(xiàn)服務成果輸出的環(huán)節(jié),可視化分析有利于準確地表達知識發(fā)現(xiàn)與資源匹配的具體信息,既有利于提高用戶學術知識獲取的效率,也有利于協(xié)助圖書館情報人員更好地處理情報[5]。
在學術大數(shù)據(jù)環(huán)境下,高校圖書館的學術資源知識發(fā)現(xiàn)服務要著力加大數(shù)據(jù)挖掘力度,發(fā)現(xiàn)知識資源內隱含的價值和數(shù)據(jù)間的關聯(lián),這是知識發(fā)現(xiàn)的內涵所在,也是實現(xiàn)資源價值重組的關鍵步驟。結合讀者用戶的個性化學術知識需求,筆者提出以下幾點知識發(fā)現(xiàn)服務策略。
高校圖書館知識發(fā)現(xiàn)的目的是從館藏資源數(shù)據(jù)中抽取出有意義的知識,不同的數(shù)據(jù)挖掘技術和算法的應用,導致同樣參數(shù)條件的數(shù)據(jù)檢索成果大不相同。因此,高校圖書館要通過反復調試,加強數(shù)據(jù)聚類、挖掘、分析等技術在高校圖書館學術數(shù)據(jù)資源庫中的應用,充分挖掘學術數(shù)據(jù)內隱含的價值,對學術資源數(shù)據(jù)庫進行深層次的探討,保證讀者在知識發(fā)現(xiàn)服務中能夠得到相對滿意的結果,提高高校圖書館知識發(fā)現(xiàn)服務的成效。
我國高校圖書館學術資源應用的最大困境在于缺乏有影響力的平臺,導致學術資源的孤島現(xiàn)象[6]。從宏觀層面來說,大數(shù)據(jù)環(huán)境具有數(shù)據(jù)共享和交流的特點,旨在促進數(shù)據(jù)的廣泛傳播,而現(xiàn)實情況卻是各高校圖書館“各自為營”,即便在本館內加大學術數(shù)據(jù)資源開發(fā)力度,但其前提也僅局限在本館的學術數(shù)據(jù)資源支持上,缺乏與其他圖書館或學術情報機構的合作交流,難以形成覆蓋范圍廣、學科領域豐富的集成式學術數(shù)據(jù)資源庫。因此,依托學術大數(shù)據(jù)的環(huán)境與理念,高校圖書館應該打造集數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)交互等功能于一體的廣泛的知識發(fā)現(xiàn)平臺,促進學術數(shù)據(jù)資源的館際互通。例如與學術機構進行項目合作,利用數(shù)據(jù)關聯(lián)規(guī)則引入相關度等指標,開發(fā)出檢索范圍廣泛、功能齊全的數(shù)據(jù)挖掘平臺。
高校圖書館學術資源的知識發(fā)現(xiàn)服務平臺建設,一方面要確保學術資源數(shù)量的充足,另一方面也要重視學術資源的質量,并對學術資源進行知識間的關聯(lián)與挖掘,為讀者提供可操作的知識發(fā)現(xiàn)服務平臺。同時,高校圖書館要充分考慮到數(shù)據(jù)對象的多樣化,在知識發(fā)現(xiàn)成果的呈現(xiàn)方式上也要有所創(chuàng)新,如非結構化的圖像、視頻、音頻等,豐富高校圖書館學術數(shù)據(jù)知識發(fā)現(xiàn)形式,提高高校圖書館學術數(shù)據(jù)的知識發(fā)現(xiàn)效率。
在學術大數(shù)據(jù)環(huán)境的影響下,高校圖書館知識發(fā)現(xiàn)服務的范圍得到拓展,從學術數(shù)據(jù)的開發(fā)利用角度看,高校圖書館要主動更新數(shù)據(jù)處理方式,加大數(shù)據(jù)挖掘、整合與關聯(lián)的力度,為讀者用戶提供個性化、多元化和智能化的知識發(fā)現(xiàn)服務,充分體現(xiàn)出數(shù)據(jù)時代的便捷性和高效性特點,為讀者用戶的知識獲取提供強有力的保障。