


摘要:[目的/意義] 在科技查新實(shí)踐中,部分查新點(diǎn)所對應(yīng)的檢索式包含大量檢索詞,若檢索結(jié)果中缺少合適文獻(xiàn),對檢索式的進(jìn)一步調(diào)整十分考驗(yàn)查新員的檢索技巧。[方法/過程] 查新檢索式邏輯運(yùn)算符選擇系統(tǒng)以文獻(xiàn)與查新點(diǎn)共同涉及內(nèi)容的信息量來描述文獻(xiàn)對查新點(diǎn)新穎性的否定程度,即兩者的相關(guān)程度,并結(jié)合檢索、分析功能,采集關(guān)鍵詞在數(shù)據(jù)庫中的分布特征計(jì)算信息量,評估文獻(xiàn)相關(guān)性,評估結(jié)果可基于查新員反饋實(shí)時(shí)修正,最終反饋密切相關(guān)文獻(xiàn)對應(yīng)的檢索式。[結(jié)果/結(jié)論] 實(shí)踐表明,該系統(tǒng)可輔助多種類型查新點(diǎn)的檢索策略制定,尤其適用于涉及關(guān)鍵詞較多的查新點(diǎn)。
關(guān)鍵詞:科技查新;文獻(xiàn)檢索;信息量
分類號(hào):G252.7
引用格式:范午攸. 查新檢索式邏輯運(yùn)算符選擇系統(tǒng)[J/OL]. 知識(shí)管理論壇, 2024, 9(1): 57-64 [引用日期]. http://www.kmf.ac.cn/p/377/. (Citation: Fan Wuyou. A Boolean Operator Selection System for Sci-tech Novelty Searching[J/OL]. Knowledge Management Forum, 2024, 9(1): 57-64 [cite date]. http://www.kmf.ac.cn/p/377/.)
1? 引言/Introduction
科技查新作為高校圖書館常規(guī)業(yè)務(wù),支持學(xué)校科研項(xiàng)目立項(xiàng)、驗(yàn)收、成果鑒定、申報(bào)獎(jiǎng)勵(lì)等科學(xué)管理工作??萍疾樾铝鞒掏ǔP?—10個(gè)工作日[1]。其中,文獻(xiàn)檢索與查新結(jié)論的客觀性、準(zhǔn)確性密切相關(guān),也是耗時(shí)相對較多的環(huán)節(jié)。
近年的教育部高校科技查新審核員培訓(xùn)中對查新檢索提出以下要求:①查新員提供的相關(guān)文獻(xiàn)可由其提供的檢索策略檢出;②查新的檢索結(jié)果需經(jīng)查新員逐篇確認(rèn);③每個(gè)查新點(diǎn)應(yīng)檢出10篇以上的相關(guān)文獻(xiàn)。此外,《科技查新技術(shù)規(guī)范》中要求根據(jù)查新點(diǎn)內(nèi)容多角度構(gòu)建檢索式。
為滿足上述需求,科技查新文獻(xiàn)檢索不僅需要準(zhǔn)確構(gòu)造檢索式,以反映查新項(xiàng)目的創(chuàng)新之處,還需在前一檢索式的基礎(chǔ)上進(jìn)行調(diào)整,將檢索范圍擴(kuò)展至內(nèi)容與查新項(xiàng)目部分相同的文獻(xiàn),同時(shí)保證檢索結(jié)果的數(shù)量適中、相關(guān)性強(qiáng)、角度全面?,F(xiàn)有研究已總結(jié)出多種檢索式調(diào)整方法[2],但較少涉及面對具體問題時(shí)的方法選擇[3],技術(shù)規(guī)范亦建議“反復(fù)試檢”,即不斷試錯(cuò)。
本系統(tǒng)可在檢索詞確定的條件下,通過修改邏輯運(yùn)算符調(diào)節(jié)檢索式,并完成試檢與檢索結(jié)果評估,從而協(xié)助查新員制定檢索策略,最終提升科技查新的工作效率。
2? 相關(guān)研究與研究目的/Related research and research purposes
2.1? 相關(guān)研究
由于查新工作的復(fù)雜性,使用計(jì)算機(jī)輔助科技查新一直是該領(lǐng)域的研究課題,其內(nèi)涵與外延也幾經(jīng)擴(kuò)展。最初此類研究特指聯(lián)機(jī)檢索在查新中的應(yīng)用,近年來則以查新項(xiàng)目管理系統(tǒng)為主,在報(bào)告生成方面也有一些研究。而在報(bào)告自動(dòng)生成方面,早期的研究局限于調(diào)整格式,不涉及內(nèi)容生成,但隨著計(jì)算機(jī)語義理解的發(fā)展,檢索式生成、結(jié)果分析與報(bào)告撰寫均成為可能。
檢索式生成原理相對固定,即將關(guān)鍵詞分為同義詞與非同義詞,前者以“邏輯或”連接,后者以“邏輯與”連接,并基于各數(shù)據(jù)庫的規(guī)范生成檢索策略式[4]。在檢索式生成的基礎(chǔ)上,通過數(shù)據(jù)接口或?yàn)g覽器控制工具進(jìn)行聯(lián)機(jī)檢索與去重,實(shí)現(xiàn)科技查新的自動(dòng)檢索[5]。而將檢索式生成與關(guān)鍵詞抽取[6]或同義詞詞典[7]結(jié)合,可從查新點(diǎn)直接獲取檢索式,檢索與查新點(diǎn)內(nèi)容一致的文獻(xiàn)。
關(guān)于檢索策略調(diào)整方面的研究較少,總體可分為兩種思路:①基于結(jié)果數(shù)量,逐步放寬檢索條件直至檢出相關(guān)文獻(xiàn)[3];②基于結(jié)果相關(guān)性,逐一嘗試檢索式直至檢出相關(guān)文獻(xiàn)[5]。
對于文獻(xiàn)相關(guān)性判定,現(xiàn)有研究存在多種方式,具體分為:①詞頻類,如基于關(guān)鍵詞在文獻(xiàn)題錄中的詞頻與所屬字段[8],或綜合考慮關(guān)鍵詞在數(shù)據(jù)庫中詞頻[7]的相關(guān)性分析;②內(nèi)容類,如基于分類算法對查新點(diǎn)和相關(guān)文獻(xiàn)進(jìn)行主題分類,之后進(jìn)行比對[9],或基于聚類算法對檢索結(jié)果進(jìn)行主題詞抽取,從而輔助查新員判斷[10],或基于語義相似度,直接計(jì)算查新點(diǎn)與相關(guān)文獻(xiàn)的相關(guān)性[5]。
此外,科技查新機(jī)構(gòu)分為專精特定領(lǐng)域的專業(yè)類和不限定檢索范圍的綜合類[11],專業(yè)類機(jī)構(gòu)所用系統(tǒng)的算法可能無法適用于其他學(xué)科。
2.2? 研究目的
筆者在現(xiàn)有的檢索式生成與自動(dòng)檢索系統(tǒng)基礎(chǔ)上,對相關(guān)文獻(xiàn)選擇及系統(tǒng)工作流程進(jìn)行改良,設(shè)計(jì)包含檢索功能的科技查新檢索策略調(diào)整系統(tǒng),以期解決面對復(fù)雜查新點(diǎn)時(shí)檢索式構(gòu)建的效率問題。
現(xiàn)有研究主要將一篇文獻(xiàn)作為一個(gè)整體去衡量相關(guān)性。而在科技查新文獻(xiàn)檢索時(shí),相比于研究主題的相似度,是否采用相同的技術(shù)細(xì)節(jié)更為重要,且查新實(shí)踐表明,查新項(xiàng)目使用其他領(lǐng)域技術(shù)的現(xiàn)象十分普遍。另一方面,查新文獻(xiàn)檢索需要可重復(fù)驗(yàn)證的檢索式,這既是工作流程的需求也是報(bào)告審核的需求,但并非所有相關(guān)文獻(xiàn)選擇方法均能提供檢索式。
筆者從科技查新文獻(xiàn)檢索的目的出發(fā),提出以信息論中的定量指標(biāo)“信息量”描述文獻(xiàn)對查新結(jié)論的貢獻(xiàn)程度,并通過文獻(xiàn)計(jì)量的方式計(jì)算這一指標(biāo),作為選擇相關(guān)文獻(xiàn)的依據(jù)。該指標(biāo)具有如下優(yōu)點(diǎn):①僅基于文中出現(xiàn)的關(guān)鍵詞,無關(guān)數(shù)量、位置,因此可通過檢索式對檢索結(jié)果的相關(guān)程度進(jìn)行評估;②選定相關(guān)文獻(xiàn)后,會(huì)優(yōu)先推薦與已有相關(guān)文獻(xiàn)不同的結(jié)果,保證結(jié)果多角度;③僅依據(jù)關(guān)鍵詞組的詞頻計(jì)算,數(shù)據(jù)容易采集;④對局部細(xì)節(jié)的相似較為靈敏。
為充分發(fā)揮本方法的優(yōu)勢,筆者結(jié)合現(xiàn)有查新工作流程與查新員工作習(xí)慣,設(shè)計(jì)交互式系統(tǒng),系統(tǒng)依據(jù)查新點(diǎn)對應(yīng)的檢索詞批量生成檢索式,經(jīng)自動(dòng)檢索,將數(shù)量適中、相關(guān)性強(qiáng)的檢索結(jié)果提交查新員確認(rèn),并通過交互界面,根據(jù)查新員反饋,實(shí)時(shí)修正列表,最終依據(jù)查新員確認(rèn)無誤的檢索結(jié)果生成檢索式。
3? 基于信息量的文獻(xiàn)相關(guān)性排序/Literature relevance ranking based on amount of information
信息量源于信息論,是被廣泛應(yīng)用于多個(gè)不同學(xué)科的定量指標(biāo)。在信息與通訊領(lǐng)域中,信息量代表消息所包含的有意義內(nèi)容的量值,與消息令人驚奇、意外的程度正相關(guān)[12],這一定義與新穎性十分相似。在自然語言處理中,信息量可作為基于文獻(xiàn)計(jì)量的文本相關(guān)性指標(biāo)。
筆者參考上述性質(zhì),以信息量為中間變量,將科技查新的相關(guān)性問題轉(zhuǎn)化為文獻(xiàn)計(jì)量問題。
3.1? 查新中的相關(guān)性
科技查新可視為一項(xiàng)語義檢索任務(wù):①檢索對象為“查新點(diǎn)”中的“實(shí)體”及實(shí)體間“語義關(guān)系”。例如,查新點(diǎn)“PRP原位治療慢性難愈合創(chuàng)面”中實(shí)體為“PRP”“原位治療”“慢性難愈合創(chuàng)面”,語義關(guān)系為“使用……治療”。②檢索結(jié)果為“比對文獻(xiàn)”及“重合部分”。其中,比對文獻(xiàn)指能證明或否定查新點(diǎn)新穎性的文獻(xiàn),重合部分指比對文獻(xiàn)和查新點(diǎn)中同時(shí)出現(xiàn)、相互間語義關(guān)系也一致的一組實(shí)體。③實(shí)際工作中,查新員通過檢索實(shí)體所對應(yīng)關(guān)鍵詞獲取報(bào)道該實(shí)體的文獻(xiàn),通過人工閱讀獲得實(shí)體間的語義關(guān)系,并選擇與查新點(diǎn)相關(guān)性較強(qiáng)的文獻(xiàn)作為比對文獻(xiàn)。但在查新規(guī)范中,相關(guān)與密切相關(guān)均為定性指標(biāo),如何量化查新中的相關(guān)性并無標(biāo)準(zhǔn)。
筆者將“相關(guān)程度”定義為文獻(xiàn)對查新結(jié)論準(zhǔn)確性的貢獻(xiàn)程度,該指標(biāo)可通過引入“信息量”進(jìn)行計(jì)算。
3.2? 信息量的含義
信息量的計(jì)算公式如公式(1)所示:
其中,P(x)為消息所傳遞事件的發(fā)生概率,此概率指基于已知信息估算的條件概率。
在查新工作中,消息指科研文獻(xiàn)或查新點(diǎn),事件指其中報(bào)道的一項(xiàng)或多項(xiàng)技術(shù),事件發(fā)生指技術(shù)可行,技術(shù)可通過實(shí)體及語義關(guān)系表示,已知信息指常識(shí)性的技術(shù),文獻(xiàn)與查新點(diǎn)使用同一項(xiàng)常識(shí)性技術(shù)不影響查新結(jié)論。
筆者以文獻(xiàn)數(shù)為客觀標(biāo)準(zhǔn),將報(bào)道次數(shù)大于閾值的術(shù)語或術(shù)語組合視為已知信息,閾值為人工確認(rèn)文獻(xiàn)數(shù)的上限,如引言所述,查新檢索的結(jié)果數(shù)量需適中,數(shù)量超過上限時(shí),雖然檢索結(jié)果可能與查新點(diǎn)同樣報(bào)道了檢索式所描述的內(nèi)容,但并不以此為依據(jù)將其視為相關(guān)文獻(xiàn),這與常識(shí)性技術(shù)的定義相似。
3.3? 文獻(xiàn)信息量與相關(guān)性
3.1節(jié)中指出,相關(guān)程度可通過信息量計(jì)算,具體而言,文獻(xiàn)與查新點(diǎn)重合部分的信息量越大,與其他比對文獻(xiàn)重合部分的信息量越小,越有助于提升查新結(jié)論準(zhǔn)確性,證明如下:
依據(jù)教育部科技查新規(guī)范,查新點(diǎn)存在新穎性是指查新點(diǎn)中存在未被公開文獻(xiàn)報(bào)道的內(nèi)容。而在查新報(bào)告結(jié)論部分,當(dāng)比對文獻(xiàn)與查新點(diǎn)存在明顯差異時(shí),認(rèn)定查新點(diǎn)存在新穎性。
因此,證明新穎性的過程可表述為:依據(jù)IP>IE,證明IP>IT。其中IP為查新點(diǎn)信息量;IT為全數(shù)據(jù)庫文獻(xiàn)與查新點(diǎn)重合部分總信息量,IE為所有比對文獻(xiàn)與查新點(diǎn)重合部分總信息量。由于IE≤IT,上述證明存在誤差I(lǐng)T–IE,而IE與單篇比對文獻(xiàn)存在關(guān)系如公式(2)所示:
其中,Ki為第i篇比對文獻(xiàn)與查新點(diǎn)的重合部分,以下簡稱該文獻(xiàn)的技術(shù)要點(diǎn),Ii為Ki的信息量。Ii'為第i篇文獻(xiàn)同時(shí)與查新點(diǎn)和前i–1篇文獻(xiàn)重合部分的信息量。
3.4? 基于文獻(xiàn)計(jì)量的信息量公式
信息量可通過關(guān)鍵詞及其組合的詞頻進(jìn)行計(jì)算。
假定關(guān)鍵詞按詞組詞頻隨機(jī)分布,且結(jié)果盡可能接近獨(dú)立概率假設(shè),對公式(1)進(jìn)行近似可得公式(3):
其中,為Kx中的全部實(shí)體;為數(shù)據(jù)庫中報(bào)道的文獻(xiàn)數(shù),≤T時(shí)視為0,T為3.2節(jié)所述閾值,實(shí)踐中通常取值在50至100之間;為的某一子集,表示與的補(bǔ)集,其中N為領(lǐng)域文獻(xiàn)總量,ps*為查新員對相關(guān)文獻(xiàn)在檢索結(jié)果中占比的估值。
當(dāng)所有均存在或時(shí),公式(3)結(jié)果無意義,此時(shí)Kx必然包含多項(xiàng)報(bào)道數(shù)量較少的技術(shù),故人為規(guī)定,對這些技術(shù)的信息量取最大值,作為Kx的信息量,如公式(4)所示:
Ii'完整公式較為復(fù)雜,約分并刪去0項(xiàng)和極小項(xiàng)后可近似化簡為公式(5):
其中,Ki∩Kn表示Ki與Kn所含實(shí)體的交集。f(Ki∩Kn)=I(Ki∩Kn)的條件為:對于任意滿足j
公式(3)—公式(5)中所含數(shù)值通過文獻(xiàn)檢索獲取,其余N、T、ps*均為常量,由于最終目的是依據(jù)(Ii–Ii')進(jìn)行排序,而–log2(ps*/N)通常大于I(Kx)中的其余項(xiàng),故不設(shè)置具體數(shù)值,排序時(shí)先依據(jù)結(jié)果中–log2(ps*/N)的數(shù)量排序,再依據(jù)其余項(xiàng)之和排序。
4? 系統(tǒng)框架與實(shí)現(xiàn)/System design and implementation
前一節(jié)中,筆者將檢索結(jié)果的相關(guān)性問題經(jīng)由信息量轉(zhuǎn)化為文獻(xiàn)計(jì)量問題。本節(jié)將介紹基于該算法的交互式邏輯運(yùn)算符選擇系統(tǒng),該系統(tǒng)使用python開發(fā),整合了文獻(xiàn)自動(dòng)檢索、信息量計(jì)算、檢索式生成3個(gè)主要功能,相比同類工具有半本地半聯(lián)機(jī)檢索、用戶交互、檢索式化簡這3項(xiàng)特色功能,系統(tǒng)運(yùn)行流程如圖1所示:
4.1? 半本地半聯(lián)機(jī)檢索
本系統(tǒng)所用數(shù)據(jù)來源于各大期刊數(shù)據(jù)庫,但所需檢索頻率較高,為提升檢索效率,避免高頻訪問,系統(tǒng)建立本地索引輔助。共建立兩個(gè)索引:①文獻(xiàn)數(shù)索引,儲(chǔ)存各檢索式的檢索結(jié)果數(shù);②題錄索引,儲(chǔ)存各檢索式的結(jié)果題錄,具體包括文獻(xiàn)的標(biāo)準(zhǔn)引用格式、篇名、關(guān)鍵詞、摘要。
在檢索時(shí),將同義詞以O(shè)R連接并視為一個(gè)關(guān)鍵詞,之后對關(guān)鍵詞的所有組合方式按詞數(shù)正序排列,并依次嘗試:①在文獻(xiàn)數(shù)索引中檢索;②若其題錄索引收錄其子集,在題錄索引中檢索,并將結(jié)果存入文獻(xiàn)數(shù)索引;③進(jìn)行聯(lián)機(jī)檢索,將結(jié)果存入文獻(xiàn)數(shù)索引,若可導(dǎo)出全部題錄,則將其導(dǎo)出并存入題錄索引。檢索完成后,對題錄索引進(jìn)行合并、去重,依據(jù)其中的題錄數(shù)更新文獻(xiàn)數(shù)索引。
4.2? 用戶交互
本系統(tǒng)主要特色是依據(jù)選定的比對文獻(xiàn)調(diào)整后續(xù)文獻(xiàn)的排序,交互系統(tǒng)可充分發(fā)揮這一優(yōu)勢,并為查新員提供一定建議。
系統(tǒng)除接受查新員輸入的關(guān)鍵詞外,排序完成后會(huì)逐批顯示結(jié)果并與用戶交互,每次顯示一組相關(guān)程度最高的文獻(xiàn)題錄以及題錄對應(yīng)的關(guān)鍵詞組合,詢問查新員關(guān)鍵詞在文中的含義和語義關(guān)系是否與查新點(diǎn)中一致,并基于反饋調(diào)整各組題錄的相關(guān)度。此外,系統(tǒng)實(shí)時(shí)檢查關(guān)鍵詞的使用狀況,當(dāng)發(fā)現(xiàn)包含某關(guān)鍵詞的所有檢索式均不合適時(shí),將停止操作并提醒查新員修改該關(guān)鍵詞。若每個(gè)關(guān)鍵詞或其同義詞均出現(xiàn)在查新員選定的文獻(xiàn)中,系統(tǒng)將提示檢索工作可以完成。
4.3? 檢索式化簡
本系統(tǒng)另一特色是比對文獻(xiàn)由對應(yīng)檢索式給出,因此在查新員選擇完比對文獻(xiàn)后,系統(tǒng)可提供對應(yīng)檢索式用于查新報(bào)告及后續(xù)審核。
方法具體為:將每組比對文獻(xiàn)對應(yīng)的檢索式進(jìn)行OR連接,之后進(jìn)行化簡。化簡基于AND連接與OR連接的結(jié)合律,采用逐步法,每步枚舉所有可用的化簡方式,取化簡后并列最簡潔的檢索式進(jìn)行下一步的化簡,直至獲得無法化簡的檢索式。該方法可保證查新檢索結(jié)果中包含全部比對文獻(xiàn),且非比對文獻(xiàn)數(shù)量最少。
5? 實(shí)踐驗(yàn)證/Experimental verification
為說明系統(tǒng)的工作流程與原理,本節(jié)以查新點(diǎn)“利用蒸發(fā)冷凝法結(jié)合原位高溫高壓氫化法制備氫化鎂”的中文文獻(xiàn)檢索為例,從系統(tǒng)流程與查新員工作流程來解釋系統(tǒng)的運(yùn)行流程。
5.1? 系統(tǒng)內(nèi)部的工作流程與原理
(1)對于查新員提供的關(guān)鍵詞:蒸發(fā)冷凝、原位、高溫高壓、氫化、氫化鎂以及氫化鎂的同義詞MgH2,依據(jù)同義詞OR連接,非同義詞AND連接的方式,生成31種符合條件的關(guān)鍵詞組合。并依據(jù)4.1節(jié)的流程在知網(wǎng)、萬方數(shù)據(jù)中進(jìn)行檢索與去重, 獲取結(jié)果數(shù)量,如表1所示:
(2)對檢索出文獻(xiàn)的關(guān)鍵詞組合kx,結(jié)果數(shù)在閾值50以上的視為已知信息,信息量I(kx)=0。其余作為備選檢索式,逐篇計(jì)算I(kx)。
例如,“原位 蒸發(fā)冷凝”由“原位”和“蒸發(fā)冷凝”組成,代入公式(3)可得,I(原位 蒸發(fā)冷凝)=–log2(N(原位)?N(蒸發(fā)冷凝)?ps*/N)。N(原位)指關(guān)鍵詞“原位”的檢索結(jié)果數(shù),數(shù)值見表1。又如,“原位 氫化 高溫高壓”中的關(guān)鍵詞可由3種方式分為兩組,其中“高溫高壓”與“原位 氫化”的結(jié)果數(shù)量乘積最大,表明此時(shí)組內(nèi)關(guān)鍵詞間的相關(guān)性最強(qiáng),分組方式最合理,故I(原位 氫化 高溫高壓)=–log2(N(高溫高壓)?N(原位 氫化)?ps*/N)。
(3)依據(jù)I(kx)從高至低的順序逐條提供kx'及對應(yīng)文獻(xiàn)題錄,尋求用戶意見。反饋為無關(guān)的移出備選檢索式列表。直至用戶反饋為相關(guān),將相關(guān)的kx'記錄為第1條相關(guān)檢索式K1'。
(4)逐篇計(jì)算備選檢索式的I2'(kx),Ii'(kx)是kx與前i–1條相關(guān)檢索式重合部分的信息量,由公式(5)計(jì)算。例如,K1'為“原位 氫化 高溫高壓 氫化鎂”,K1'與“氫化 蒸發(fā)冷凝 高溫高壓”重合部分為“氫化 高溫高壓”,故I2' (氫化 蒸發(fā)冷凝 高溫高壓)=I(氫化 高溫高壓),后者計(jì)算見步驟(3)。
(5)依據(jù)3.4節(jié)方法對I(kx)–I2'(kx)進(jìn)行排序,重復(fù)步驟(3)、步驟(4)獲取K2,K3……。獲取第4組相關(guān)檢索式后,用戶反饋檢索完成,使用4.3節(jié)方法將K1–K4合并為最終檢索式。
5.2? 系統(tǒng)使用方法
與程序原理相比,人工處理的步驟相對簡單。
(1)查新員從查新點(diǎn)“利用蒸發(fā)冷凝法結(jié)合原位高溫高壓氫化法制備氫化鎂”中凝練出上述5個(gè)檢索詞與1個(gè)同義詞,由文本框輸入系統(tǒng),選擇“自動(dòng)分析”。
(2)系統(tǒng)彈出提示,發(fā)現(xiàn)可能涉及“蒸發(fā)冷凝 高溫高壓 氫化”的文獻(xiàn),并展示符合條件的文獻(xiàn)題錄與摘要。查新員確認(rèn)上述關(guān)鍵詞在查新點(diǎn)中指“蒸發(fā)冷凝法結(jié)合高溫高壓氫化法”,但觀察發(fā)現(xiàn)文獻(xiàn)中“氫化”指“氫化物”,因此選擇“否”。
(3)系統(tǒng)再次彈出提示,發(fā)現(xiàn)可能涉及“原位 高溫高壓 氫化 氫化鎂”的文獻(xiàn)。核對后發(fā)現(xiàn)文獻(xiàn)報(bào)道了“原位高溫高壓氫化法制備氫化鎂”,與查新點(diǎn)一致,因此保存題錄用于撰寫查新報(bào)告,并在系統(tǒng)上選擇“是”。
(4)重復(fù)步驟(2)或步驟(3),直至保存的題錄數(shù)量達(dá)標(biāo),在系統(tǒng)提示檢索完成時(shí)選擇“是”,系統(tǒng)展示:((氫化 AND 高溫高壓 AND (氫化鎂 OR MgH2))) OR ((蒸發(fā)冷凝) AND ((氫化) OR (原位)))。
(5)刪除其中無意義的括號(hào)后,得到最終檢索式:(氫化 AND 高溫高壓 AND (氫化鎂 OR MgH2)) OR (蒸發(fā)冷凝 AND (氫化 OR 原位))。
5.3? 系統(tǒng)優(yōu)勢
相比傳統(tǒng)方法,本系統(tǒng)最大優(yōu)勢在于提供了一種易于使用且效率穩(wěn)定的檢索流程。
如前所述,查新檢索的目的是獲取結(jié)果數(shù)量適中、內(nèi)容相關(guān)、角度全面的檢索式,方法主要是在已有檢索式的基礎(chǔ)上進(jìn)行調(diào)整。難點(diǎn)則在于調(diào)整方法眾多,滿足條件的檢索式較少且缺少明顯特征。例如本節(jié)的查新點(diǎn),除同義詞外共5個(gè)檢索詞,將其與1個(gè)OR運(yùn)算符、3個(gè)AND運(yùn)算符和括號(hào)進(jìn)行組合,可構(gòu)成6種結(jié)構(gòu)的105種檢索式,在排除明顯不合理的檢索式后,仍有20余種意義明確的檢索式。但檢索后可知這105種檢索式的結(jié)果均不符合條件,需要替換關(guān)鍵詞或采用結(jié)構(gòu)更為復(fù)雜的檢索式,此時(shí)備選檢索式的總量已經(jīng)難以統(tǒng)計(jì)。
在實(shí)踐中,查新員通常不會(huì)對檢索式進(jìn)行直接枚舉,而會(huì)根據(jù)自身判斷先嘗試若干檢索式,再根據(jù)結(jié)果的數(shù)量和相關(guān)性逐步調(diào)整,但仍可能出現(xiàn)反復(fù)調(diào)整依然無法獲得可用檢索式的情況。這是由于檢索式的小幅度調(diào)整也會(huì)大幅度影響檢索結(jié)果,但在對相關(guān)領(lǐng)域缺乏充分了解的情況下又很難預(yù)測具體的變化幅度。
而通過本系統(tǒng),查新員在確認(rèn)6個(gè)檢索式對應(yīng)的62篇文獻(xiàn)后就獲得了可用的檢索式,且最多只需確認(rèn)9個(gè)檢索式對應(yīng)的114篇文獻(xiàn),即使無法獲得可用的檢索式,也能發(fā)現(xiàn)需要修改的檢索詞,大幅提升了查新檢索效率,對于不熟悉相關(guān)領(lǐng)域的查新員,這一提升的效果將更為明顯。此外,查新員只需對檢索結(jié)果是否描述了特定內(nèi)容進(jìn)行判斷,無需設(shè)計(jì)檢索策略、比較結(jié)果的相關(guān)程度或親自檢索文獻(xiàn),在提升效率的同時(shí)也降低了整個(gè)流程的處理難度。
5.4? 適用范圍分析
除上述案例外,筆者還在生物、機(jī)械工程等領(lǐng)域的查新中進(jìn)行測試,該系統(tǒng)均給出了有效的檢索結(jié)果。結(jié)果還表明,本系統(tǒng)不僅可以衡量檢索式與查新點(diǎn)的相關(guān)程度,還能基本排除關(guān)鍵詞間缺乏關(guān)聯(lián)的不合理檢索式,原因可能在于,高信息量檢索式出現(xiàn)結(jié)果是小概率事件,實(shí)際發(fā)生就意味著檢索式中關(guān)鍵詞間一定存在某種聯(lián)系。
但該系統(tǒng)同樣存在缺陷:①本節(jié)案例中使用的是查新員調(diào)整后的檢索詞,直接使用用戶提供的關(guān)鍵詞時(shí),系統(tǒng)運(yùn)行中通常會(huì)多次要求查新員對檢索詞進(jìn)行修改,直至獲得恰當(dāng)?shù)年P(guān)鍵詞,但這一過程中系統(tǒng)僅能指出需要修改的關(guān)鍵詞,無法提供更具體的意見;②算法依賴文獻(xiàn)檢索,因此對特定的查新點(diǎn)表現(xiàn)較差,例如一些工程領(lǐng)域的方法創(chuàng)新,技術(shù)要點(diǎn)通常不在題錄中體現(xiàn),或者部分查新項(xiàng)目所用關(guān)鍵詞存在嚴(yán)重歧義;③對于關(guān)鍵詞在3個(gè)以內(nèi)的簡單查新點(diǎn),人工檢索的效率通常已經(jīng)很高,使用本系統(tǒng)也難以進(jìn)一步提升。
6? 總結(jié)與展望/Summary and prospect
本系統(tǒng)已在科技查新工作中進(jìn)行驗(yàn)證,實(shí)踐發(fā)現(xiàn),對于涉及關(guān)鍵詞較多的查新點(diǎn),例如組合運(yùn)用多項(xiàng)技術(shù)的項(xiàng)目,該系統(tǒng)具有較好的適應(yīng)性,通常能有效地給出合理的檢索策略,實(shí)現(xiàn)了系統(tǒng)開發(fā)的主要目的。對于關(guān)鍵詞較少的冷門研究,本系統(tǒng)亦可快速給出檢索策略或關(guān)鍵詞修改建議。但也存在5.4節(jié)所述的不足。
目前,人工智能語言模型在文獻(xiàn)摘要提取、翻譯、文獻(xiàn)內(nèi)容比對、報(bào)告撰寫等其他科技查新所需的工作上展現(xiàn)了驚人的能力,而文獻(xiàn)檢索方面,則受版權(quán)與原理的多重限制,難以保證結(jié)果的高查全率,因此能與本系統(tǒng)形成很好的互補(bǔ)。所以與語言模型結(jié)合是本系統(tǒng)未來的主要改進(jìn)方向,主要包括兩個(gè)方面:①文獻(xiàn)篩選后的自動(dòng)比對與結(jié)論生成;②從查新點(diǎn)中抽取關(guān)鍵詞并發(fā)現(xiàn)同義詞。此外,還可以引入傳統(tǒng)模型對詞間語義關(guān)系進(jìn)行計(jì)算,減少計(jì)算信息量時(shí)的誤差,進(jìn)一步提升結(jié)果精度。
參考文獻(xiàn)/References:
鄂麗君. 高校圖書館科技查新服務(wù)調(diào)查與分析[J]. 情報(bào)雜志, 2012, 31(1): 180-184. (E L J. Investigation and analysis on sci-tech novelty search service of university libraries[J]. Journal of intelligence, 2012, 31(1): 180-184.)
張嵐, 張柏秋, 于非, 等. 探討科技查新中檢索策略式的制定[J]. 現(xiàn)代情報(bào), 2008(10): 151-152,157. (ZHANG L, ZHANG B Q, YU F, et al. Discussion on formulation of search strategy in sci-tech novelty retrieval[J]. Journal of modern information, 2008(10): 151-152,157.)
周小茹, 鄭菲, 王彥兵. 基于技術(shù)特征的科技查新文獻(xiàn)檢索策略[J]. 知識(shí)管理論壇, 2018, 3(2): 61-72. (ZHOU X R, ZHENG F, WANG Y B. Search strategy of scientific and technical novelty search based on technological characteristics[J]. Knowledge management forum, 2018, 3(2): 61-72.)
羅思民, 洪凡, 謝秋梅. 科技查新檢索及撰寫報(bào)告工作平臺(tái)研究[J]. 圖書情報(bào)導(dǎo)刊, 2017, 2(5): 45-49. (LUO S M, HONG F, XIE Q M. Study on working platform for retrieval and report writing of sci-tech novelty search[J]. Journal of library and information science, 2017, 2(5): 45-49.)
黃孝倫, 王東, 譚濤, 等. 智能科技查新系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)測量與控制, 2020, 28(2): 202-205. (HUANG X L, WANG D, TAN T, et al. Construction of intelligent novelty search system[J]. Computer measurement & control, 2020, 28(2): 202-205.)
王培霞, 余海, 陳力, 等. 科技查新中檢索詞智能抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2016(11): 82-93. (WANG P X, YU H, CHEN L, et al. Using intelligent system to extract search terms for sci-tech novelty retrieval[J]. New technology of library and information service, 2016(11): 82-93.)
韋嶸暉, 王慶紅, 孫辛博, 等. 電力領(lǐng)域科技查新系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 電力大數(shù)據(jù), 2020, 23(2): 46-52. (WEI R H, WANG Q H, SUN X B, et al. Design and implementation of the sci-tech novelty retrieval system for electric power field[J]. Power systems and big data, 2020, 23(2): 46-52.)
郝曉春, 李躍青, 付改俠, 等. 火炸藥科技查新系統(tǒng)的設(shè)計(jì)[J]. 科技與創(chuàng)新, 2021(22): 58-60. (HE X C, LI Y Q, FU G X, et al. Design of a novelty search system for explosives and explosives technology[J]. Science and technology & innovation, 2021(22): 58-60.)
姚俊良, 樂小虬. 科技查新點(diǎn)語義匹配方法研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3(6): 50-56. (YAO J L, LE X Q. Semantic matching for sci-tech novelty retrieval[J]. Data analysis and knowledge discovery, 2019, 3(6): 50-56.)
馬林山, 郭磊. 基于主題模型(LDA)的查新輔助分析系統(tǒng)設(shè)計(jì)研究[J]. 現(xiàn)代情報(bào), 2018, 38(2): 111-115. (MA L S, GUO L. Research on design of novelty retrieval aided analysis system based on LDA model[J]. Journal of modern information, 2018, 38(2): 111-115.)
吳超, 趙明華, 祝愨智, 等. 管道科技查新平臺(tái)的開發(fā)與實(shí)現(xiàn)[J]. 情報(bào)探索, 2017(11): 65-69. (WU C, ZHAO M H, ZHU Q Z, et al. Development and realization of pipeline sci-tech novelty retrieval platform[J]. Information research, 2017(11): 65-69.)
李白萍, 吳冬梅, 滑玉. 通信原理與技術(shù)[M]. 北京:人民郵電出版社, 2003: 5-6. (LI B P, WU D M, HUA Y. Communication principles and technologies[M]. Beijing: Posts & Telecom Press, 2003: 5-6.)
A Boolean Operator Selection System for Sci-tech Novelty Searching
Fan Wuyou
Shanghai Jiao Tong University Library, Shanghai 200240
Abstract: [Purpose/Significance] In the practice of sci-tech novelty search, the search formulas for some novelty search points contain a large number of search terms. When the search results do not include suitable literature, further adjustments to the search strategy will be difficult, and influenced by the retrieval skills of the searcher. [Method/Process] The Boolean Operator Selection System for Sci-tech Novelty Searching uses the amount of information of the content of novelty search points that is also reported by the literature to quantify the quality of novelty denied by the literature, the relevance of a literature to a novelty search point. And this system has retrieval, analysis, and interaction functions to counts the distribution characteristics of the search terms in each database, calculates the amount of information of the overlapping part in the literature and novelty search points, and evaluates the literature relevance. The evaluation will be automatically corrected based on feedback from the searcher. Finally, the system will generate a search formula based on maximizing the correlation of the results. [Result/Conclusion] Practical use has proven that the system can assist in making retrieval strategies of various types of novelty points, especially for novelty search points that involve a large number of search terms.
Keywords: sci-tech novelty searching? ? literature searching? ? amount of information
Author(s): Fan Wuyou, Librarian, Master, E-mail: fanwuyou@sjtu.edu.cn.
Received: 2023-09-04? ? Published: 2024-02-27