易中梅 趙 晶 韓 煦 單甜甜
(第二軍醫(yī)大學(xué)圖書館,上海 200433)
會(huì)議論文是一種特殊的信息資源,數(shù)量多、內(nèi)容新、質(zhì)量高、專業(yè)性強(qiáng),是非常具有情報(bào)價(jià)值的一種文獻(xiàn),我國(guó)已經(jīng)建成了一批會(huì)議論文數(shù)據(jù)庫(kù),常用的中文會(huì)議論文數(shù)據(jù)庫(kù)有:《中國(guó)重要會(huì)議論文集全文數(shù)據(jù)庫(kù)》(簡(jiǎn)稱CPCD)、《中國(guó)學(xué)術(shù)會(huì)議論文全文數(shù)據(jù)庫(kù)》(簡(jiǎn)稱PACC)、《中國(guó)學(xué)術(shù)會(huì)議論文文摘數(shù)據(jù)庫(kù)》(簡(jiǎn)稱CACP)、《中國(guó)醫(yī)藥學(xué)術(shù)會(huì)議論文文摘數(shù)據(jù)庫(kù)》(簡(jiǎn)稱CMAC)、國(guó)家科技圖書文獻(xiàn)中心的《中文會(huì)議論文數(shù)據(jù)庫(kù)》(以下簡(jiǎn)稱中心)。筆者對(duì)它們的內(nèi)容和設(shè)計(jì)進(jìn)行了較為詳細(xì)的比較分析,并對(duì)存在的問(wèn)題提出了一些想法和建議。

表1 5個(gè)會(huì)議論文數(shù)據(jù)庫(kù)的內(nèi)容
從表1的提供單位可知,5個(gè)會(huì)議論文數(shù)據(jù)庫(kù)由5個(gè)不同的單位提供,在學(xué)科覆蓋范圍上,只有一個(gè)醫(yī)學(xué)會(huì)議論文數(shù)據(jù)庫(kù)CMAC是專業(yè)性的,其他會(huì)議論文數(shù)據(jù)庫(kù)都是綜合性的,專業(yè)性的會(huì)議論文數(shù)據(jù)庫(kù)太少,特色化會(huì)議論文數(shù)據(jù)庫(kù)建設(shè)嚴(yán)重不足。
數(shù)據(jù)庫(kù)最重要的元素是內(nèi)容,而數(shù)據(jù)庫(kù)提供單位的分散以及各單位之間缺乏溝通和統(tǒng)一將導(dǎo)致數(shù)據(jù)庫(kù)重復(fù)建設(shè),數(shù)據(jù)庫(kù)重復(fù)建設(shè)必然會(huì)帶來(lái)內(nèi)容重復(fù),內(nèi)容重復(fù)的直接后果是嚴(yán)重浪費(fèi)資源。筆者認(rèn)為,我國(guó)會(huì)議論文數(shù)據(jù)庫(kù)的建設(shè)必須規(guī)范化,形成統(tǒng)一認(rèn)識(shí),協(xié)作分工,而不是各自為政,數(shù)據(jù)庫(kù)的數(shù)量不在多而在精,多增加各種專業(yè)性的會(huì)議論文數(shù)據(jù)庫(kù),應(yīng)做好各綜合性會(huì)議論文數(shù)據(jù)庫(kù)之間的兼并與整合,充分發(fā)揮優(yōu)勢(shì)互補(bǔ),建立一到兩個(gè)高質(zhì)量的綜合性會(huì)議論文數(shù)據(jù)庫(kù),多建設(shè)特色化、專業(yè)化的會(huì)議論文數(shù)據(jù)庫(kù)。
由于會(huì)議論文數(shù)據(jù)庫(kù)建設(shè)的分散性,造成了數(shù)據(jù)庫(kù)的形式各異,各個(gè)數(shù)據(jù)庫(kù)在設(shè)計(jì)上有很大的差異。主要表現(xiàn)在如下幾個(gè)方面:

表2 5個(gè)會(huì)議論文數(shù)據(jù)庫(kù)的檢索界面
從表2可知,5個(gè)會(huì)議論文數(shù)據(jù)庫(kù)檢索界面的設(shè)計(jì)差異非常大,筆者認(rèn)為,檢索主界面的設(shè)計(jì)不宜復(fù)雜,各區(qū)的功能應(yīng)該一目了然,簡(jiǎn)捷易懂,在數(shù)據(jù)庫(kù)的設(shè)計(jì)中,檢索提問(wèn)表單和知識(shí)分類導(dǎo)航區(qū)是必需的,其他的能省則省,或者放到其他頁(yè)面,同時(shí)要保持界面的穩(wěn)定性,不可頻繁更換界面,因?yàn)樗菫閷W(xué)術(shù)研究者服務(wù)的,需注重嚴(yán)肅性[5]。
此外,獨(dú)立的數(shù)據(jù)庫(kù)最好有獨(dú)立的檢索界面,因?yàn)槲墨I(xiàn)類型不同,檢索字段的設(shè)置也應(yīng)該不同,不能夠一概而論。以中心為例,因其會(huì)議論文數(shù)據(jù)庫(kù)要與其他類型的數(shù)據(jù)庫(kù)共用一個(gè)檢索界面,所以其檢索字段的設(shè)置是大眾型的,能夠揭示會(huì)議論文特征的檢索字段如會(huì)議名稱、會(huì)議時(shí)間、會(huì)議地點(diǎn)等在檢索界面就不會(huì)出現(xiàn),但這些字段又是會(huì)議論文必須具備的,缺少了這些字段,很難保證檢索的查準(zhǔn)率。
最后,這種設(shè)計(jì)的差異性導(dǎo)致了各個(gè)數(shù)據(jù)庫(kù)的檢索規(guī)則不同,5個(gè)數(shù)據(jù)庫(kù)有4種不同的檢索規(guī)則,增加了用戶的檢索負(fù)擔(dān)。必須解決這些異構(gòu)數(shù)據(jù)庫(kù)的統(tǒng)一檢索,讓用戶熟悉了一種檢索界面就可以輕松使用其他的數(shù)據(jù)庫(kù)。這就要求對(duì)于國(guó)內(nèi)會(huì)議論文數(shù)據(jù)庫(kù)的建設(shè)提供一個(gè)統(tǒng)一的建庫(kù)規(guī)則,在建庫(kù)過(guò)程中嚴(yán)格遵循這一規(guī)則,做到規(guī)范統(tǒng)一。
知識(shí)分類導(dǎo)航檢索是在知識(shí)分類的基礎(chǔ)上進(jìn)行的一種檢索,知識(shí)分類是以《中圖法》為根基的,分類體系為等級(jí)列舉式結(jié)構(gòu),它以事物的性質(zhì)為基礎(chǔ),按照學(xué)科知識(shí)門類層次劃分,并把劃分出來(lái)的類目一一加以列舉。
知識(shí)分類導(dǎo)航檢索具有很高的利用價(jià)值,它有兩種功能:第一,不用檢索提問(wèn)表單,直接用鼠標(biāo)點(diǎn)擊就可查到某一類目下的論文。第二,還可以配合檢索提問(wèn)表單,縮小或擴(kuò)大檢索范圍,提高查準(zhǔn)率或查全率。因而,CPCD、PACC和中心都提供了分類知識(shí)導(dǎo)航檢索服務(wù)。
CPCD以“專題數(shù)據(jù)庫(kù)”的形式設(shè)計(jì)CNKI知識(shí)倉(cāng)庫(kù)分類導(dǎo)航體系,將知識(shí)分為9個(gè)專題,分層次對(duì)知識(shí)按其屬性及相互從屬關(guān)系進(jìn)行并行或樹狀排列,逐級(jí)展開(kāi)。在分類檢索中,可以通過(guò)導(dǎo)航逐步縮小范圍,最后檢索出某一知識(shí)單元中的文章;在初級(jí)檢索和高級(jí)檢索中,根據(jù)各篇論文所涉及的學(xué)科知識(shí)屬性,在檢索的時(shí)候可以選擇全選,選擇多個(gè)專輯或選擇多個(gè)下位的子欄目,這樣可以節(jié)省檢索的時(shí)間,提高查準(zhǔn)率。
PACC按《中國(guó)圖書資料分類法》將其知識(shí)分為26個(gè)大類,直接點(diǎn)擊某一個(gè)大類就可以看到該大類下的所有會(huì)議論文的題錄。
中心也按《中國(guó)圖書資料分類法》分類,共分19個(gè)大類,點(diǎn)擊某個(gè)大類,再選擇會(huì)議論文數(shù)據(jù)庫(kù)也可看到該類目下的所有會(huì)議論文。
可見(jiàn),PACC和中心只具備第一種功能,而CPCD則具備了兩種,因而比較而言,CPCD的知識(shí)分類導(dǎo)航檢索服務(wù)做得更成功,值得其他數(shù)據(jù)庫(kù)借鑒。
目前,大多數(shù)會(huì)議論文數(shù)據(jù)庫(kù)的知識(shí)分類都是在傳統(tǒng)分類法的基礎(chǔ)上以主題與學(xué)科相結(jié)合的分類方式,按照從總到分的方式逐級(jí)展開(kāi),有較強(qiáng)的通用性和直觀性。但是,由于分散建設(shè)數(shù)據(jù)庫(kù),出現(xiàn)了各數(shù)據(jù)庫(kù)在知識(shí)分類上缺乏統(tǒng)一性,分類各異給讀者的檢索帶來(lái)不便,容易造成漏檢。因此,制定一套統(tǒng)一的網(wǎng)絡(luò)信息資源分類法是建設(shè)會(huì)議論文數(shù)據(jù)庫(kù)必須解決的問(wèn)題。

表3 5個(gè)會(huì)議論文數(shù)據(jù)庫(kù)的檢索字段
從表4可見(jiàn),5個(gè)數(shù)據(jù)庫(kù)的檢索字段可謂五花八門。其中,最有特色的是PACC,它將檢索字段分為《會(huì)議名錄》和《會(huì)議論文》兩種,且分別放在不同檢索提問(wèn)表單中,將揭示會(huì)議信息和會(huì)議論文的檢索字段分開(kāi)設(shè)計(jì),使檢索界面更加明了,可以作為其他數(shù)據(jù)庫(kù)設(shè)置檢索字段的參考。
選擇檢索字段是進(jìn)行檢索的前提條件,檢索字段的設(shè)置必須以文獻(xiàn)的種類屬性為依據(jù),要能揭示該檢索系統(tǒng)的文獻(xiàn)特征,否則會(huì)影響檢索的查全率和查準(zhǔn)率,如前所述,中心的檢索字段設(shè)置過(guò)于大眾化,完全不能揭示會(huì)議論文的信息,使得中心的會(huì)議論文檢索非常不方便。

表4 5個(gè)會(huì)議論文數(shù)據(jù)庫(kù)的檢索方式
初級(jí)檢索包括字段級(jí)檢索和全文檢索,適用于不熟悉多條件組合查詢或SQL語(yǔ)句查詢的用戶,對(duì)于一些簡(jiǎn)單查詢,建議使用該檢索系統(tǒng),但查詢結(jié)果有很大的冗余;高級(jí)檢索能進(jìn)行幾個(gè)檢索字段的邏輯組合查詢,又可稱為邏輯檢索;專業(yè)檢索支持布爾檢索、相鄰檢索、截?cái)鄼z索、同字段檢索、同句檢索和位置檢索等全文檢索技術(shù),專業(yè)檢索需用戶建立檢索表達(dá)式,非專業(yè)人士很難使用,但是查詢結(jié)果冗余少、命中率高,對(duì)于專業(yè)人士來(lái)說(shuō)非常有用;二次檢索,在前一次檢索結(jié)果的范圍內(nèi)繼續(xù)檢索,可以逐步縮小檢索范圍,簡(jiǎn)化檢索表達(dá)式的書寫;導(dǎo)航檢索是指利用中圖法的分類體系,將各學(xué)科、各門類的知識(shí)分為專題的形式,按其屬性及相互從屬關(guān)系進(jìn)行并行或樹狀排列,逐級(jí)展開(kāi)。通過(guò)初級(jí)檢索、二次檢索和導(dǎo)航檢索的運(yùn)用,完全可以滿足專業(yè)檢索表達(dá)式達(dá)到的檢索精度,這對(duì)于非專業(yè)人士尤為有用。
從表3中我們可以看到,5個(gè)數(shù)據(jù)庫(kù)的檢索方式稱謂互不相同。據(jù)筆者的了解,CPCD的檢索方式稱謂是正確的,萬(wàn)方數(shù)據(jù)資源系統(tǒng)PACC的一般檢索包括了初級(jí)檢索和高級(jí)檢索,其所謂的高級(jí)檢索需要構(gòu)造檢索式,稱為專業(yè)檢索更為合適;中心的普通檢索相當(dāng)于萬(wàn)方的一般檢索,但其高級(jí)檢索實(shí)際上屬于專業(yè)檢索。
筆者認(rèn)為這幾個(gè)數(shù)據(jù)庫(kù)在檢索方式的稱謂上應(yīng)該統(tǒng)一,特別是對(duì)于一般檢索、初級(jí)檢索、高級(jí)檢索、專業(yè)檢索這幾種檢索方式更應(yīng)該弄清楚,否則會(huì)給用戶帶來(lái)不必要的麻煩。
查全率和查準(zhǔn)率是評(píng)價(jià)和衡量數(shù)據(jù)庫(kù)檢索效果和功能的兩項(xiàng)重要技術(shù)指標(biāo)與重要參數(shù)。查全率是指被檢出的相關(guān)文獻(xiàn)占總文獻(xiàn)內(nèi)所有相關(guān)文獻(xiàn)的百分比,查準(zhǔn)率是指被檢出的相關(guān)文獻(xiàn)占被檢出文獻(xiàn)總數(shù)的百分比,即:查全率=檢出的相關(guān)文獻(xiàn)/實(shí)有相關(guān)文獻(xiàn),查準(zhǔn)率=檢出的相關(guān)文獻(xiàn)/檢出的全部文獻(xiàn)。查全率是用來(lái)描述系統(tǒng)檢出文獻(xiàn)能力的一種尺度,查準(zhǔn)率則是用來(lái)描述系統(tǒng)拒絕不相關(guān)文獻(xiàn)的能力或檢索精確度的一種尺度。
以“中心”為例,在作者項(xiàng)中輸入王平,并在結(jié)果記錄中進(jìn)行二次檢索,在全文項(xiàng)中輸入作者的單位“重慶郵電學(xué)院郵政自動(dòng)化研究所”,得到如下檢索結(jié)果:

查詢時(shí)間:0.918秒查詢結(jié)果:共找9條記錄10條/頁(yè) 第1頁(yè)序號(hào) 文獻(xiàn)標(biāo)題 作者1 電子商務(wù)環(huán)境下物流配送車輛計(jì)劃調(diào)度系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 王平2 電子商務(wù)環(huán)境下物流配送車輛計(jì)劃調(diào)度系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 王平3 電子商務(wù)時(shí)代的郵政運(yùn)輸路由規(guī)劃技術(shù) 王平4 郵政客戶服務(wù)中心的設(shè)計(jì) 王平5 電子商務(wù)環(huán)境下物流配送計(jì)劃調(diào)度專家系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 王平6 郵政車輛計(jì)劃調(diào)度系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 王平7 8敏捷制造模式下物流配送決策支持系統(tǒng)存儲(chǔ)過(guò)程在ASP/ADO中的應(yīng)用王平王平9 存儲(chǔ)過(guò)程在ASP/ADO中的應(yīng)用 王平
從以上的檢索實(shí)例可知,僅僅9條記錄,就有兩條存在重復(fù)現(xiàn)象,其中記錄1、2、5重復(fù),8、9重復(fù),影響了用戶的查準(zhǔn)率。可見(jiàn)檢索工具的質(zhì)量好壞對(duì)檢索用戶的檢索效率有直接影響。
從內(nèi)容方面來(lái)說(shuō),為了保證查全率,應(yīng)該選擇收錄量多、收錄年限長(zhǎng)、更新頻率快的數(shù)據(jù)庫(kù);要保證查準(zhǔn)率,則應(yīng)從文獻(xiàn)的學(xué)科范圍、收錄時(shí)間等考慮。如查找醫(yī)學(xué)會(huì)議論文最好在醫(yī)學(xué)專業(yè)會(huì)議論文數(shù)據(jù)庫(kù)CMAC中查找,查找1985年以前的會(huì)議論文必須在《國(guó)內(nèi)專業(yè)會(huì)議資料數(shù)據(jù)庫(kù)》中檢索。還要注意數(shù)據(jù)庫(kù)的設(shè)計(jì)、同類數(shù)據(jù)庫(kù)的差異等,如PAPC不支持英文字符檢索,在全文項(xiàng)中輸入“PID”則返回0條記錄,其他的會(huì)議論文數(shù)據(jù)庫(kù)基本上都支持中英文字符檢索,而且CPCD還有中文簡(jiǎn)體和中文繁體兩種檢索界面。
筆者在PACC中進(jìn)行檢索時(shí),選擇作者單位項(xiàng),輸入作者的單位“重慶郵電學(xué)院郵政自動(dòng)化研究所”時(shí),檢索結(jié)果為0,這是因?yàn)榻Y(jié)果記錄中沒(méi)有列出作者單位這一項(xiàng)。如前所述的“中心”,它與其他數(shù)據(jù)庫(kù)共用一個(gè)檢索界面,其檢索字段的設(shè)置是大眾型的,能夠揭示會(huì)議論文特征的檢索字段會(huì)議名稱、會(huì)議時(shí)間、會(huì)議地點(diǎn)等就沒(méi)有設(shè)置,而這又是會(huì)議論文所必須具有的。這兩個(gè)例子反映的問(wèn)題是檢索字段要能揭示該檢索系統(tǒng)的文獻(xiàn)特征,不能夠太少,也并非越多越好,最好是選擇那些最能夠揭示文獻(xiàn)特征的檢索字段,而且檢索字段的選擇最好與其結(jié)果記錄列出的內(nèi)容結(jié)合起來(lái),即在結(jié)果顯示記錄中列出的題錄項(xiàng)才在檢索字段中顯示出來(lái),這樣才不至于出現(xiàn)檢索系統(tǒng)中有需要的論文卻出現(xiàn)結(jié)果為0的情況。
目前國(guó)內(nèi)的5個(gè)主要會(huì)議論文數(shù)據(jù)庫(kù)因其提供單位的不同,存在較為嚴(yán)重的內(nèi)容重復(fù)、設(shè)計(jì)差異的問(wèn)題,由此影響了檢索的查全率和查準(zhǔn)率,給讀者的正常使用帶來(lái)了諸多不便。隨著互聯(lián)網(wǎng)的發(fā)展,會(huì)議論文數(shù)據(jù)庫(kù)的應(yīng)用價(jià)值已經(jīng)日益顯現(xiàn),其發(fā)展水平也亟待提高。各大數(shù)據(jù)庫(kù)應(yīng)從讀者的利益出發(fā),達(dá)成共識(shí),分工協(xié)作,不斷提高兼容性,才能更好地為讀者提供優(yōu)質(zhì)服務(wù)。
[1] 李偉華.因特網(wǎng)上會(huì)議文獻(xiàn)信息資源的分布與利用.情報(bào)探索,2010(1).
[2] 張?jiān)?依托TPI系統(tǒng)平臺(tái)構(gòu)建會(huì)議論文全文特色數(shù)據(jù)庫(kù).現(xiàn)代情報(bào),2008(6).
[3] 宋如憶.科技信息檢索與利用.上海:同濟(jì)大學(xué)出版社,2003.
[4] 談鶴玲.論我國(guó)學(xué)術(shù)期刊數(shù)據(jù)庫(kù)的規(guī)范化建設(shè).現(xiàn)代情報(bào),2004(1).
[5]黃春燕,李玲.《中國(guó)期刊全文數(shù)據(jù)庫(kù)》KNS3.5的評(píng)價(jià)分析.圖書館建設(shè),2003(3).
[6] 沈艷紅.信息檢索中檢索詞的選擇對(duì)查全率的影響.情報(bào)探索,2006(11).
[7] 李育嫦.文獻(xiàn)檢索中提高查全率與查準(zhǔn)率的方法探討.圖書館學(xué)研究,2002(11):92-95.
[8]王桂枝,陳建青,顏世剛.《中國(guó)醫(yī)學(xué)學(xué)術(shù)會(huì)議論文數(shù)據(jù)庫(kù)——CMAC》的研制與服務(wù).中華醫(yī)學(xué)圖書館雜志,2000(4).
[9] 王亮,郭一平.基于Web Service的異構(gòu)數(shù)據(jù)庫(kù)檢索系統(tǒng).大學(xué)圖書館學(xué)報(bào),2004(1).
[10]韓紅等.清華同方(CNKI)與重慶維普(VIP)網(wǎng)絡(luò)版中文期刊全文數(shù)據(jù)庫(kù)的比較研究.現(xiàn)代圖書情報(bào)技術(shù),2003(6).