林宗英,林民山
(泉州職業(yè)技術(shù)大學(xué)智能制造學(xué)院 福建 泉州 362000)
信息技術(shù)作為文獻檢索水平的衡量標準,逐漸向各大高校發(fā)展。在信息化技術(shù)逐步完善的背景下,各大高校的文獻檢索水平也越來越高,簡單便捷的文獻檢索方式越來越受到學(xué)生的喜愛[1]。信息化的到來,增加了各大高校的文獻檢索量,但是檢索量的增加,導(dǎo)致檢索人數(shù)過多時,學(xué)生無法快速有效地找到自己所需的文獻資料,所以檢索響應(yīng)時間長是當前亟待改善的問題。如何基于大數(shù)據(jù)改善文獻檢索問題,逐步成為高校文獻檢索設(shè)計的研究方向?;诖髷?shù)據(jù)的高校文獻檢索系統(tǒng)的設(shè)計以縮短檢索響應(yīng)時間為目標,以個性化檢索服務(wù)為長期發(fā)展方向,避免因文獻檢索時間長,造成學(xué)生學(xué)習(xí)效率低的現(xiàn)象[2]。而這免不了設(shè)計無線通信設(shè)備與播放器等硬件,通過硬件設(shè)計,將檢索模式信息化,過濾無用文獻,自動保留可能用到的文獻資料,提升學(xué)生的檢索效率。同時,優(yōu)化軟件也是必不可少的。首先,采集多個文獻檢索數(shù)據(jù),將他們匯總后,分析其優(yōu)缺點,進而設(shè)計一個檢索流程,提高檢索效率。其次,改進原有的算法模式,將檢索響應(yīng)時間縮短至原基礎(chǔ)的一半甚至更多。最后,構(gòu)建一個數(shù)據(jù)庫,將文獻檢索率較高的文獻排在檢索順序的優(yōu)先位置,一次排列,定時更新數(shù)據(jù)庫內(nèi)容,保持文獻檢索的快捷有效性,并通過實驗測試,驗證基于大數(shù)據(jù)的高校文獻檢索系統(tǒng)是否可行。
有線通信設(shè)備的價格較低,用途廣泛,具有操作簡單,方便快捷,且待機時間長等優(yōu)勢,因為其不能安裝新軟件,受眾較為單一,高校使用率較低。而無線通信設(shè)備主要有檢索信息傳送、收發(fā)檢索信息、播放檢索文獻視頻等功能,并且由于成本和技術(shù)條件的支持,無線通信設(shè)備所播放文獻視頻的格式比較多維化,音質(zhì)和畫質(zhì)效果相對較高,適合于各類用戶的使用[3]。尤其是在檢索文獻時,無線通信設(shè)備可以發(fā)揮很好的作用。由于無線通信設(shè)備方便接入網(wǎng)絡(luò),可以獲取更多的文獻資源,并且能夠以多人在線交流的方式,方便高校學(xué)生之間在檢索文獻方面的溝通與交流。無線通信設(shè)備具有可操作性與在線升級功能,可以進行文獻的改進與上傳,并且文獻資源的檢索方式也更加豐富,可以隨時實現(xiàn)文獻檢索軟件的安裝。檢索技術(shù)水平在不斷地提升,但是成本卻在降低。所以,無線通信設(shè)備會擁有更廣闊的發(fā)展空間,也會更加廣泛地應(yīng)用到檢索領(lǐng)域。
MPEG檢索器是指遵循檢索文獻的標準,通過存儲卡、存儲或下載文獻視頻的檢索設(shè)備,常見的檢索設(shè)備有M3、M4、M5等。這種類型的檢索設(shè)備除了具有下載文獻、存儲資源、播放文獻錄音等基本功能外,也具有通過檢索設(shè)備的存儲卡升級,實現(xiàn)拓展文獻資源的檢索方向。在高校檢索文獻的過程中,學(xué)生根據(jù)自己的專業(yè)方向,播放文獻錄音來開展學(xué)習(xí)工作。近年來,我國開始普及MPEG檢索器這種檢索設(shè)備,早期的檢索器主要是指文獻檢索工具,較為呆板,只能單一地檢索文獻,不能提高高校學(xué)生的檢索興趣?,F(xiàn)如今的MPEG檢索器,學(xué)生可以該檢索設(shè)備學(xué)習(xí)外語文獻、翻譯外語文獻,同時還具有檢索文獻學(xué)習(xí)的日程表的功能。經(jīng)過檢索技術(shù)的發(fā)展,以及檢索器的更新?lián)Q代,MPEG檢索器的功能開始廣泛發(fā)展,部分檢索器甚至具有可更改檢索系統(tǒng),并集成了以往檢索器的優(yōu)點,在高校文獻檢索領(lǐng)域的應(yīng)用也更為廣泛。
采集文獻檢索數(shù)據(jù)需要與高校文獻管理系統(tǒng)聯(lián)機、通過高校文獻管理系統(tǒng)中的文獻流通數(shù)據(jù),將文獻檢索數(shù)據(jù)采集成同步的檢索模塊與檢索對象。首先,采集的文獻檢索數(shù)據(jù)需要包括文獻的題名檢索次數(shù)、作者檢索次數(shù)、索書號檢索次數(shù)以及ISBN號的檢索次數(shù)等。其次,將文獻中的作者介紹、內(nèi)容介紹、電子樣本介紹等信息,作為檢索對象,最大程度地保證文獻檢索數(shù)據(jù)的檢索效率。最后,文獻檢索數(shù)據(jù)需要對文獻的基本屬性進行采集,采集到的數(shù)據(jù)最終歸于文獻檢索檔案管理處,作為每次優(yōu)化的文獻檢索標準,此種采集數(shù)據(jù)模式為分布式鍵值型采集方法,具有采集數(shù)據(jù)準確、采集速度快等優(yōu)點,對于文獻檢索的流通數(shù)據(jù)管理應(yīng)用,具有良好的實用性。
首先,檢索環(huán)節(jié)都會有對應(yīng)的文獻信息,學(xué)生可以通過大數(shù)據(jù)的檢索與專業(yè)相關(guān)的文獻;其次,文獻檢索系統(tǒng)可以通過大數(shù)據(jù)幫助學(xué)生群體獲取相關(guān)文獻的信息,了解文獻的價值,幫助學(xué)生快速檢索自己所需的文獻資源;最后,從檢索系統(tǒng)分析并處理文獻大數(shù)據(jù),將其中檢索次數(shù)較高的文獻信息提取出來并歸檔,當學(xué)生檢索相關(guān)關(guān)鍵詞時,檢索系統(tǒng)會依據(jù)大數(shù)據(jù)歸檔的信息,快速檢索,提高學(xué)生二次檢索文獻的效率。具體檢索流程見圖1。

圖1 基于大數(shù)據(jù)的文獻檢索流程圖
如圖1所示,高校文獻檢索流程圖基于大數(shù)據(jù)制定,大數(shù)據(jù)可以及時更新文獻資源,為學(xué)生提供了較為清晰的檢索方式,縮短了學(xué)生二次檢索的時間,提高了高校學(xué)生的檢索效率,極具推廣意義。
與常規(guī)檢索算法相比,改進后的大數(shù)據(jù)檢索算法,在檢索文獻的過程與學(xué)生檢索效率有一定的關(guān)聯(lián)性。改進算法需要了解學(xué)生群體的需求偏好,并基于此進行維護與分析改進的目標,分析檢索文獻較為相似的學(xué)生。基于大數(shù)據(jù)的高校檢索系統(tǒng)中,學(xué)生的二次檢索文獻,與多次檢索文獻均會被記錄,未曾記錄過的文獻,將不會出現(xiàn)在檢索詞條內(nèi),因此可以通過查找記錄的形式對文獻進行檢索。
基于常規(guī)算法的矩陣算法,改進的算法與檢索文獻有以下關(guān)系:

公式(1)中,η代表檢索文獻效率,q為文獻總量,△neo是二次檢索文獻效率,A是檢索文獻的數(shù)量,Tc為檢索時間。由公式(1)可以得出,在一致的檢索文獻效率且文獻總量固定的條件下,二次檢索文獻效率與檢索文獻數(shù)量成正比,因此,改進算法是一種提高檢索時間的有效方法。
高校文獻檢索數(shù)據(jù)庫是一種提高學(xué)生檢索文獻效率的方式,該數(shù)據(jù)庫可以按照學(xué)生的想法來改造數(shù)據(jù)庫。該數(shù)據(jù)庫的表示方法比較多,較為常見的是實體聯(lián)系數(shù)據(jù)庫,也就是ER數(shù)據(jù)庫,學(xué)生接受程度較高,因此,ER數(shù)據(jù)庫的構(gòu)建較為簡便。首先,ER數(shù)據(jù)庫是文獻檢索系統(tǒng)的實體模型。即具有與現(xiàn)實世界中相同性質(zhì)的一類檢索方式,可以是具體的檢索對象,比如文獻作者、導(dǎo)入時間等,也可以是抽象的檢索對象,比如學(xué)生檢索文獻次數(shù),文獻信息、作者信息等。其次,ER數(shù)據(jù)庫的屬性多維化。屬性多維化是指該數(shù)據(jù)庫具有不同的性質(zhì),可以由多個屬性來檢索文獻,例如:學(xué)生可以通過檢索文獻書號、文獻作者姓名、性別、文獻類型等屬性,排除多余的文獻。最后,ER數(shù)據(jù)庫與學(xué)生的聯(lián)系是密不可分的。這種聯(lián)系是與文獻非常有意義的連接,仿佛身臨其境,切身體會文獻中的故事,更有助于提高學(xué)習(xí)效率。
本次實驗以某高校為例,設(shè)計了基于大數(shù)據(jù)的高校文獻檢索系統(tǒng),從檢索人數(shù)、檢索內(nèi)容、標準頁面響應(yīng)時間以及實際頁面響應(yīng)時間等方面測試,此次實驗的目的在于使用本文設(shè)計的方法,測試高校文獻檢索系統(tǒng)頁面響應(yīng)速度,分析該方法的響應(yīng)時效性,驗證本文設(shè)計的檢索系統(tǒng)在高校檢索文獻方面是否存在價值。
本文設(shè)計的方法需要分析采集到的數(shù)據(jù),并將改進的算法帶入到檢索頁面中,頁面檢索的響應(yīng)時間長短,關(guān)系到高校學(xué)生檢索速度的快慢,因此將本文設(shè)計的檢索系統(tǒng)頁面的響應(yīng)時間作為本次實驗的測試重點。
在檢索人數(shù)、檢索內(nèi)容、標準頁面響應(yīng)時間均相同的條件下,測試兩種常規(guī)系統(tǒng)Var檢索系統(tǒng)、Tex檢索系統(tǒng)以及本文設(shè)計的檢索系統(tǒng),在文獻檢索頁面的實際響應(yīng)時間,具體響應(yīng)結(jié)果見表1。

表1 本文設(shè)計的方法檢索頁面響應(yīng)測試
由表1可知,常規(guī)的兩種檢索系統(tǒng)在檢索人數(shù)較多時,響應(yīng)時間均超過標準時間,而本文設(shè)計的檢索系統(tǒng)在同樣人數(shù)的前提下,檢索響應(yīng)時間在標準響應(yīng)時間內(nèi),有較強實用性的結(jié)果,符合本文設(shè)計方法的初衷。
本文通過無線通信設(shè)備與MPEG檢索器等硬件進行設(shè)計,分析出高校檢索系統(tǒng)存在的問題,進而提出采集文獻檢索數(shù)據(jù)、基于大數(shù)據(jù)繪制高校文獻檢索流程圖、改進大數(shù)據(jù)檢索算法以及設(shè)計高校文獻檢索數(shù)據(jù)庫等軟件設(shè)計的方式,補足硬件的漏洞,展現(xiàn)出本文設(shè)計的文獻檢測系統(tǒng)的魅力,實現(xiàn)高效檢索、操作簡單、縮短頁面響應(yīng)時間以及便捷的檢索功能。