(黑龍江大學(xué)信息管理學(xué)院 黑龍江哈爾濱 230051)
為了更深入地了解國(guó)內(nèi)學(xué)界對(duì)信息檢索相關(guān)性的研究狀況,本文選用中國(guó)知網(wǎng)數(shù)據(jù)的可視化功能繪制信息技術(shù)領(lǐng)域(包括圖書情報(bào)領(lǐng)域)信息檢索相關(guān)性主題詞文獻(xiàn)的科學(xué)知識(shí)圖譜,對(duì)近15年(2002—2016)國(guó)內(nèi)該領(lǐng)域的研究狀況進(jìn)行了統(tǒng)計(jì)研究,并對(duì)研究過程中的缺失和改良對(duì)策進(jìn)行了詳細(xì)的說明。
本文采用文獻(xiàn)計(jì)量法統(tǒng)計(jì)和分析信息技術(shù)領(lǐng)域(包括圖書情報(bào))信息檢索相關(guān)性研究論文,借助文獻(xiàn)的內(nèi)外部特征,采用文獻(xiàn)計(jì)量學(xué)中的洛特卡和布拉德福定律的期刊分布等,通過繪制知識(shí)結(jié)構(gòu)圖譜來展現(xiàn)該范疇的研究特征以及研究的前沿領(lǐng)域。
為了提高查詢結(jié)果的準(zhǔn)確度,在中國(guó)知網(wǎng)(CNKI)高級(jí)檢索界面上,采用邏輯與的檢索方法,運(yùn)用檢索式主題=(信息檢索and相關(guān)性)(精確匹配)檢索2002—2016年中國(guó)信息技術(shù)領(lǐng)域相關(guān)文獻(xiàn),共得到804篇。
利用中國(guó)知網(wǎng)的可視化功能繪制時(shí)序分布情況圖(如圖1),結(jié)合圖1和表1發(fā)現(xiàn),2004—2011年這一段時(shí)間是研究信息檢索相關(guān)性的熱潮階段,2011年達(dá)到高峰期,所占比例為11.7%,2012—2013年發(fā)文量有所下降,2014 年開始有所回升,所占比例8.4%。但是從2015—2016年發(fā)表的論文數(shù)量開始下滑,且2016年是近15年來發(fā)表信息檢索相關(guān)性論文最少的階段,可能在研究相關(guān)領(lǐng)域的問題時(shí)遇到了瓶頸。

圖1 文獻(xiàn)時(shí)序分布圖

表1 文獻(xiàn)時(shí)序分布統(tǒng)計(jì)表
對(duì)近15年的期刊文獻(xiàn)進(jìn)行詞頻統(tǒng)計(jì),并從中抽取55個(gè)高頻關(guān)鍵詞,其中關(guān)于信息檢索、搜索引擎、查詢擴(kuò)展、相關(guān)性、本性、向量空間模型、文本分類等關(guān)鍵詞研究的文獻(xiàn)比較多,而關(guān)于相關(guān)性反饋、網(wǎng)絡(luò)蜘蛛、XML、分詞等方面研究的不多。由齊普夫定律可知,某學(xué)科相關(guān)論文關(guān)鍵詞出現(xiàn)的頻次和規(guī)律能顯示出學(xué)科學(xué)術(shù)研究的熱點(diǎn)以及預(yù)示未來發(fā)展趨勢(shì)[1]。(見圖2和表2)。

圖2 關(guān)鍵詞知識(shí)圖譜

表2 對(duì)信息檢索相關(guān)性詞頻較高的計(jì)量研究(部分)
根據(jù)文獻(xiàn)計(jì)量學(xué)的普賴斯定律,即普賴斯根據(jù)級(jí)數(shù)的性質(zhì)提出的,(其中Nmax為高產(chǎn)作者論文數(shù))這是特洛卡定律的一個(gè)重要推論。從中國(guó)知網(wǎng)的可視化分析圖譜上可以看出來自江西師范大學(xué)的王明文和南京大學(xué)的成穎為最高高產(chǎn)作者,發(fā)文量都為8篇,最后得出M約等于2.12,把M向右取整約等于3,則可以得出發(fā)表論文量≥3的則為高產(chǎn)作者(見表3)。

表3 發(fā)文數(shù)在3篇以上的高產(chǎn)作者
由表3可知,高產(chǎn)作者中有來自南京大學(xué)的成穎和江西師范大學(xué)的王明文(8篇),大連理工大學(xué)的林鴻飛、南開大學(xué)的黃名遠(yuǎn)(7篇),武漢大學(xué)的孫建軍(6篇),大連理工大學(xué)的林原、江西科技技師學(xué)院的王知津(5篇),還有武漢大學(xué)陸偉(4篇)等等,由此可知,高等學(xué)校專業(yè)教師和圖書館員是我國(guó)圖書情報(bào)領(lǐng)域信息檢索相關(guān)性研究的核心群體,他們擁有豐厚的知識(shí)蘊(yùn)涵以及尖鉆的科研水平,是國(guó)內(nèi)圖情領(lǐng)域信息檢索相關(guān)性研究的核心力量,但是公共圖書館對(duì)該領(lǐng)域的研究比較薄弱,應(yīng)鼓勵(lì)相關(guān)人才加入公共圖書館進(jìn)行理論分析與實(shí)證研究[2]。
通過中國(guó)知網(wǎng)的機(jī)構(gòu)分布圖譜可以分析得出,哈爾濱工業(yè)大學(xué)發(fā)表的關(guān)于信息檢索相關(guān)性的論文最多(33篇),且處于領(lǐng)先的行列,可以說是該領(lǐng)域研究的高產(chǎn)機(jī)構(gòu)。南京大學(xué)、北京郵電大學(xué)機(jī)構(gòu)的發(fā)文量依次為28篇、25篇等等,如表4所示。

表4 文獻(xiàn)來源機(jī)構(gòu)分布統(tǒng)計(jì)表(部分)
根據(jù)文獻(xiàn)計(jì)量學(xué)的洛特卡定律的關(guān)于作者地區(qū)結(jié)構(gòu)與科學(xué)活動(dòng)中心的應(yīng)用,日本學(xué)者湯淺光朝提出各國(guó)科學(xué)論文作者人數(shù)和科學(xué)成果占全世界科學(xué)家和科學(xué)成果總數(shù)的比重作為規(guī)定科學(xué)活動(dòng)中心的指標(biāo)。他認(rèn)為,當(dāng)這個(gè)比例超過1/4時(shí),則科學(xué)活動(dòng)的中心轉(zhuǎn)入該國(guó)。但是為了研究我國(guó)某研究機(jī)構(gòu)(某地區(qū))科學(xué)活動(dòng)的活躍性,我引入了以下公式:設(shè)ci為我國(guó)i個(gè)機(jī)構(gòu)或地區(qū)的作者人數(shù)(研究某一領(lǐng)域),N表示我國(guó)研究某一領(lǐng)域總?cè)藬?shù),C是兩者的結(jié)構(gòu)相對(duì)數(shù),則:C=Ci/N ×100%。
華東地區(qū)包括我國(guó)的山東省、安徽省、江蘇省、浙江省、臺(tái)灣省、福建省、江西省和上海,具體的計(jì)量統(tǒng)計(jì)如表5所示。從表5上也可以看出華東地區(qū)的12所高校中研究信息檢索相關(guān)性論文的人數(shù)達(dá)到了19人,且在信息檢索相關(guān)性的研究方面也處于相對(duì)領(lǐng)先的地位,用公式可得,C=(19/55)×100%,計(jì)算比例為34.5%,而其他地區(qū)都低于25%,即我國(guó)華東地區(qū)是研究信息檢索相關(guān)性科學(xué)活動(dòng)最高也是最活躍的地區(qū)。

表5 華東地區(qū)信息檢索相關(guān)性論文人數(shù)統(tǒng)計(jì)
文獻(xiàn)被引頻次是評(píng)價(jià)學(xué)術(shù)質(zhì)量以及學(xué)術(shù)影響力的重要尺度。如果一篇文獻(xiàn)被引的頻次越高,說明該篇文獻(xiàn)對(duì)學(xué)術(shù)交流與學(xué)術(shù)研究的影響力越強(qiáng)[3]。統(tǒng)計(jì)結(jié)果見表6。

表6 文獻(xiàn)被引頻次統(tǒng)計(jì)
從表6可以看出,高被引文獻(xiàn)頻數(shù)大都發(fā)布在2012年之前,且均篇被引頻次最高的是2003年發(fā)表的論文,頻次達(dá)到了11.4。普賴斯關(guān)于“科學(xué)論文在發(fā)表后的2年才能達(dá)到被引用的峰值”的理論也從側(cè)面解釋了論文的被引頻次年代是遠(yuǎn)期大于近期[4]。
為了更好地反映布拉德福關(guān)于圖書情報(bào)領(lǐng)域的期刊分布情況,現(xiàn)按照期刊進(jìn)行搜索,文獻(xiàn)量共117篇。由布拉德福定律的定義可知:如果將科學(xué)期刊按其刊載某個(gè)學(xué)科的論文數(shù)量的大小,按照從大到小的順序排列,那么可以分為三個(gè)區(qū)域:核心區(qū),相關(guān)區(qū),邊緣區(qū),且期刊數(shù)量比成1:a:a2的關(guān)系[5]。將下面14種期刊按文獻(xiàn)數(shù)目分類分為3個(gè)區(qū)域,載文數(shù)量共為 82篇,如表7所示。

表7 載文期刊分布
由此可以得出:p1:p2:p3=1:a:a2,以上三個(gè)區(qū)域期刊數(shù)目比為p1:p2:p3等于3:4:7,即為1:1.33:2.33。何榮利[6]指出“由于期刊文獻(xiàn)分布規(guī)律的發(fā)展,在大部分研究領(lǐng)域中,期刊文獻(xiàn)分布的三個(gè)區(qū)域中,期刊數(shù)量的比例已不再呈現(xiàn)整數(shù)關(guān)系”,可將以上結(jié)果近似看作1/1.33/1.332,其中常數(shù)a為1.33。再按照布氏定律的圖像描述法公式n1/(n1+n2)/(n1+n2+n3)=1:b:b2,即n1/(n1+n2)/(n1+n2+n3)等于3/7/14,即為1/2.33/4.67,同樣近似等于1/2.16/2.162,其中常數(shù)b為2.16,滿足布拉德福定律的圖像描述規(guī)律。
為了了解國(guó)內(nèi)期刊論文、碩博論文、會(huì)議論文對(duì)信息檢索相關(guān)性研究的分布情況,通過中國(guó)知網(wǎng)進(jìn)行統(tǒng)計(jì)檢索共得到相關(guān)論文804篇,具體分布如表8所示。

表8 文獻(xiàn)來源分布統(tǒng)計(jì)
從表8可以看出來,804篇文獻(xiàn)中,碩博士學(xué)位論文占比61%,占據(jù)了檢索總文獻(xiàn)的一半多,說明各高校碩博士研究生對(duì)信息檢索相關(guān)研究作出了重要貢獻(xiàn),也是該研究范疇的主要群體。從表7可以看出,圖書情報(bào)中關(guān)于信息檢索相關(guān)性的論文達(dá)到了82篇,其中10.1%出自圖書情報(bào)領(lǐng)域的核心期刊 (基于CNKI 核心期刊統(tǒng)計(jì)),雖然所占比例較小,但是從中國(guó)知網(wǎng)上也不難看出它們的引用頻次較高,也充分體現(xiàn)了核心期刊的重要研究?jī)r(jià)值地位。
一方面,用戶不僅需要對(duì)所查找的信息有一個(gè)明確的認(rèn)識(shí),更需要將這種認(rèn)識(shí)明確表達(dá)出來,也就是要提高用戶對(duì)信息需求的表達(dá)能力。往往含糊的信息需求表達(dá)可以提高信息檢索的相關(guān)性。而較準(zhǔn)確的信息需要表達(dá)反而會(huì)降低相關(guān)性的準(zhǔn)確度。另一方面,用戶在進(jìn)行信息檢索之前,應(yīng)該針對(duì)自己的信息需求確定最適合自己的檢索系統(tǒng),也就是說應(yīng)加強(qiáng)用戶對(duì)檢索系統(tǒng)的選擇能力。最后,提高用戶的知識(shí)理解水平。當(dāng)用戶檢索時(shí),可以結(jié)合自身知識(shí)水平和已有的文獻(xiàn)材料判斷檢索結(jié)果的相關(guān)性程度。
(1)系統(tǒng)設(shè)計(jì)的角度。在檢索系統(tǒng)構(gòu)造過程中,應(yīng)該以用戶信息需要為導(dǎo)向,盡量做到便于用戶使用。信息檢索過程中相關(guān)性的好與壞以及信息檢索相關(guān)性的不確定因素都是由用戶判斷和引起的,為了減少其不確定性因素,我們應(yīng)該建立以用戶為中心的思維模式。
(2)算法優(yōu)化的角度。鏈接分析法因其具有的高效率以及應(yīng)用引文檢索語言的原理,在關(guān)鍵詞文本匹配的基礎(chǔ)上,利用Web超鏈接結(jié)構(gòu),從一個(gè)網(wǎng)頁鏈接到另一個(gè)網(wǎng)頁,并對(duì)它們之間的關(guān)系進(jìn)行分析,以此明確該網(wǎng)頁在檢索結(jié)果中的等級(jí)。Google和百度正是采用了這種獨(dú)特的方法。
(3)提供智能的信息引導(dǎo)功能。根據(jù)用戶信息需求確定用戶檢索的信息領(lǐng)域,為用戶提供詳實(shí)、準(zhǔn)確的信息分類知識(shí)。對(duì)于不同的用戶而言,檢索系統(tǒng)會(huì)學(xué)習(xí)用戶提交的關(guān)鍵詞和相關(guān)信息,并收錄在其用戶模型之中;當(dāng)用戶再一次提交信息需求任務(wù)時(shí),系統(tǒng)會(huì)自動(dòng)跳出用戶相關(guān)的關(guān)鍵詞,讓用戶點(diǎn)擊確認(rèn),避免用戶操作頻繁。
研究表明,信息檢索相關(guān)性在國(guó)內(nèi)的研究雖然卓有成效,但主要集中在研究的理論層面,而在實(shí)踐方面的研究欠缺,理論研究和實(shí)踐應(yīng)用不能有效結(jié)合。在大數(shù)據(jù)環(huán)境下,以用戶信息需求為基礎(chǔ),簡(jiǎn)化計(jì)算機(jī)檢索系統(tǒng)設(shè)計(jì)算法,朝著系統(tǒng)和用戶需求的雙重設(shè)計(jì)理念出發(fā),是解決信息檢索相關(guān)性的必要渠道。