陳 榮,袁碩娜,朱 雯,王倩倩,孫濟慶(華東理工大學科技信息研究所)
知識關聯是指知識單元之間存在的各種關系的總和,知識單元包括文獻、人腦等知識載體和概念、詞語等知識內容。[1]具體地說,知識關聯就是指大量的知識單元之間存在的知識序化的聯系,以及所隱藏的、可理解的、最終可用的關聯。[2]術語是在特定專業領域中一般概念的詞語指稱(GB/T 15237.1-2000 3.4.3),是某專業領域內的國際通用語言,可以解決領域內對某事物的溝通交流障礙,具有專一性、特定性和精確性,不存在誤差和歧義。[3]專業術語作為專業領域知識表達的基本單位,是知識網絡的基礎節點,[4]在課題檢索和知識服務中具有非常關鍵的作用。目前,國內外關于SciFinder 數據庫[5-7]和三大中文數據庫——萬方、維普、中國知網[8-10]的研究內容基本相同,主要集中于數據庫的使用方面,如收錄范圍、檢索方法和系統功能等。另外,還有部分研究集中在數據庫之間的比較,如Reaxys 與SciFinder 的比較,[11]萬方、維普和CNKI 之間的比較,[12,13]比較的著眼點也集中于檢索方法、功能和收錄情況等方面。
可見,目前數據庫的研究方向主要集中在客觀的檢索能力方面,并沒有從數據庫內部的知識關聯角度進行深入探討,也沒有在數據庫內部對專業術語檢索結果的研究。SciFinder 是美國的化學專業數據庫,其檢索途徑全面、知識關聯豐富,而國內多為綜合類學科文獻數據庫,缺乏這類專業的數據庫。故本文選取SciFinder 維普、萬方和中國知網,基于專業術語“水楊酸(salicylic acid)”“輕烴(light hydrocarbon)”等,從知識關聯類型、表達形式和強度對上述4 個數據庫的知識關聯進行深入分析和比較,旨在使用戶了解各數據庫對術語的處理原理,促進中文數據庫改進術語處理,提升數據庫的知識服務能力。
本文將檢索過程分為檢索前和檢索后兩個過程,對這兩個過程中文獻數據庫的知識關聯類型進行分析比較。檢索前是指輸入檢索詞未出現檢索結果的檢索過程,檢索后是出現檢索結果的檢索過程。通過檢索化學術語“salicylic acid(水楊酸)”“light hydrocarbon(輕烴)”等,發現文獻數據庫的知識關聯類型主要是兩種,一是顯性知識關聯,二是隱性知識關聯。顯性知識關聯是指知識單元與知識單元間表現出來的易于識別和發現的關系,[14]隱性知識關聯是指知識單元與知識單元間難以識別和發現的隱含關系。[14]
檢索發現:① SciFinder 數據庫的知識關聯主要是檢索后的顯性知識關聯和隱性知識關聯,檢索前沒有知識關聯;② 萬方數據庫、維普數據庫的檢索前的知識關聯主要是顯性關聯,檢索后的知識關聯包含顯性知識關聯和隱性知識關聯;③中國知網檢索前和檢索后的知識關聯主要是顯性知識關聯。總體而言,SciFinder 作為化學領域的專業數據庫,其在檢索前不包含知識關聯,而作為綜合類文獻數據庫的萬方、維普和中國知網數據庫,其檢索前和檢索后均包含隱性知識關聯和顯性知識關聯。
知識關聯表達形式是指文獻數據庫通過哪些形式將與專業術語檢索詞的相關知識表示出來(見表1)。本文將顯性知識關聯的表達形式分為直接關聯形式,即知識關聯內容直接包含檢索詞,將隱性知識關聯的表達形式分為相關詞關聯形式、知識圖譜關聯形式以及其他特色關聯形式。相關詞關聯形式是文獻數據庫能提供與檢索詞有關系的詞,如同義詞、不包含相同詞素的詞等,主要以詞的形式表現;知識圖譜關聯形式是文獻數據庫以圖譜的方式表現與檢索詞相關的內容,如形成以檢索詞為中心的知識網絡;其他特色關聯形式是指與專業特色有關的知識關聯方式,如化學反應式關聯方式等。
① SciFinder 的顯性知識關聯的形式是指明確包含檢索詞的文獻(見圖1)。相關詞關聯形式包含術語- 文獻知識點關聯形式、術語- 術語關聯形式。術語- 文獻知識點關聯形式是指在整篇文獻中,沒有明顯出現該專業術語,而是通過文獻中的知識點,間接性地關聯初始檢索詞(見圖2);術語- 術語關聯形式是指通過初始的專業術語檢索詞間接性地將其他相關術語關聯起來(見圖3)。其他特色關聯形式包含符號知識點關聯形式、圖形知識點形式和其他知識點形式。符號知識點關聯形式是指通過專業特點符號等可以確定該檢索的相關信息,如通過化學物質登記號等可以確定物質的名稱、分子式等相關信息(見圖4)。圖形關聯形式是指以圖形表達檢索詞的相關信息,如通過化學物質結構式可以得到物質的分子式,進而連接到物質名稱,并且可以查找到與該結構式相關的反應式等(見圖5)。其他知識關聯形式如化學反應式關聯形式,即通過化學反應式可以關聯到反應物、產物、反應試劑、中間體等許多化學物質(見圖6)。
(2) 首先,萬方、維普和中國知網的顯性知識關聯形式主要是下拉框列表形式,即輸入檢索詞,系統自動出現以該專業術語檢索詞為詞首的擴展詞(見圖7)。其次,萬方、維普和中國知網的相關詞關聯形式主要是以關鍵詞列表或者相關檢索詞列表形式出現(見圖8),需要指出的是關鍵詞列表和相關檢索詞列表中的詞有一部分是顯性知識關聯。
(3)萬方和維普包含知識圖譜關聯形式,而中國知網不包含知識圖譜形式。知識圖譜形式是以檢索詞為中心擴展相關詞,包含與專業術語檢索詞相關的范疇、同義詞、上位詞、下位詞等(見圖9)。

表1 文獻數據庫知識關聯表達形式

圖1 SciFinder 直接關聯形式

圖2 SciFinder 術語—文獻知識點關聯形式

圖3 SciFinder 術語-術語知識點關聯形式
總體而言,作為綜合類學科文獻數據庫的萬方、維普和中國知網尚未對專業術語的專業性進行特定的知識關聯,而作為化學專業數據庫的SciFinder 的知識關聯形式與檢索詞的化學特性緊密相連,不僅僅是詞的形式,還包括與化學物質相關的分子式、結構式、反應式等,更加全面和智能化。在SciFinder 數據庫中輸入“light hydrocarbon(輕烴)”,時間限制為2017-2018 年,語言選擇“中文”,檢索結果中出現了不明確含有“輕烴”的文章,但是包含輕烴的下位詞“n-pentane(戊烷)”、“naphthalene(萘)”等的文章,可以找到相關物質的結構式(見圖10、圖11)。而在中文數據庫中輸入“light hydrocarbon(輕烴)”,時間同樣限制為2017-2018 年,檢索結果均是明確包含“輕烴”的文章,知識關聯形式較簡單(見圖12)。

圖4 SciFinder 符號關聯形式

圖5 SciFinder 圖形關聯形式

圖6 SciFinder 反應式關聯形式

圖7 萬方下拉框列表形式

圖8 中國知網數據庫的關鍵詞列表形式

圖9 萬方數據庫知識圖譜形式

圖10 SciFinder 檢索結果“n-pentane(戊烷)”

圖11 SciFinder 檢索結果“naphthalene(萘)”

圖12 中國知網數據庫檢索結果
知識關聯強度是指知識單元間聯系的緊密程度,測量知識關聯強度的指標主要有相關性、耦合強度和共引強度、共詞和共現頻次等。[15]本文從相關性角度比較數據庫的知識關聯強度,通過了解檢索詞salicylic acid 的相關信息(見表2),[16]比較文獻數據庫中是否有該檢索詞的相關信息出現,從語義、應用和化學反應三個方面對文獻數據庫的關聯內容進行關聯強度分析,其中語義相關是指與“水楊酸”存在上位、下位或者相關關系,應用相關是指在應用研究領域中與“水楊酸”有直接或者間接的關聯關系,化學反應相關是指與“水楊酸”共同作用于某一化學反應,可為反應物、生成物或試劑等。

表2 “salicylic acid”的相關信息

圖15 SciFinder 檢索結果“salicylic acid(水楊酸)”
(1)SciFinder 關聯的知識與專業術語檢索詞之間存在較高相關性,一方面除提供包含檢索詞的文獻以外,還有隱含關聯的其他文獻,用戶可以根據需要選擇顯示兩類文獻的交集、并集或任何一部分(見圖15);另一方面還提供了檢索詞的詳細信息,如分子式、結構式和相關的化學反應式,還可以利用Markush(馬庫什) 檢索來確定該檢索詞的種類和名稱,進一步獲取該檢索詞的其他相關信息。
(2)在萬方數據庫中,用戶在檢索結果中可以獲得與專業術語檢索詞相關的其他詞,并且大多是不與檢索詞含有相同詞素的詞,如本文使用的檢索詞是“水楊酸”,在萬方數據庫檢索結果中提供的知識圖譜會顯示水楊酸的上位詞、下位詞、同義詞等,下拉框列表關聯內容均是與水楊酸有緊密關聯的化學名詞,相關檢索詞與“水楊酸”的關系如表3 所示,由此分析發現這些詞大部分是與水楊酸應用相關,可以明確定位到某個應用領域中,但這些詞具有一定的重復性,相同的概念多次出現。

表3 萬方數據庫“水楊酸”的相關檢索詞及相關關系
(3) 維普數據庫除了常規數據庫提供的文獻和相關檢索詞之外,還創新提供了以專業術語檢索詞為中心的知識圖譜,圍繞該檢索詞有與其相關的作者、機構、刊物、學科、其他檢索詞等,讓用戶更加清晰明了地了解檢索詞的相關信息。由于維普數據庫提供的下拉框列表提供的關聯內容與知識圖譜中顯示的主題詞內容相同,故僅分析下拉框列表中的關聯內容。如表4 所示與水楊酸相關的詞中大部分是應用相關詞,但像“水楊酸誘導”(序號3) 和“水楊酸處理”(序號7) 這樣的詞匯,既不是專業術語,也不是化學名稱,并不應該出現在相關主題詞中,而應該與具體水楊酸含量檢測方法等一類術語合并,如“高效液相色譜法”(序號1) 等。分析可能的原因是維普數據庫的知識關聯內容主要通過關鍵詞共現實現,所以關聯的知識未涉及術語的上位概念和下位概念及同義詞。
(4)中國知網數據庫提供的知識關聯結果大多與專業術語檢索詞含有相同詞素,它們之間的共詞素越多,關系越緊密,如在中國知網數據庫中輸入檢索詞“水楊酸”,下拉框列表關聯內容均是與水楊酸有緊密關聯的化學名詞,關鍵詞列表關聯內容是通過詞頻統計將關鍵詞進行排序,有的是專業術語,有的是方法等,但這些詞的類別和關系在一定程度上有些混亂。相關檢索詞關聯內容如表5 所示,除了專業的化學術語之外,還有“含量測定”“同時測定”“水楊酸的合成”等詞匯,分析原因可能是用戶曾經使用過的檢索詞,這些詞被數據庫收入了系統中,但由于這些檢索詞沒有經過數據庫二次篩選或者分類,而是直接推送給下一檢索用戶。因此中國知網提供的知識關聯內容范圍較窄,涵蓋面窄,局限性較大。

表4 維普數據庫“水楊酸”的相關檢索詞及相關關系

表5 中國知網數據庫“水楊酸”的相關檢索詞及相關關系
總體而言,SciFinder 知識關聯強度較高,而萬方、維普和中國知網對于知識處理的深度不足,并且中文數據庫主要以計算機對用戶輸入的檢索詞詞頻或文獻共詞詞頻為基礎進行的關聯,尚未經過人工處理,關聯結果的可靠性和準確性不強。
本文以“salicylic acid(水楊酸)”“light hydrocarbon(輕烴)”等為檢索詞,從知識關聯類型、知識關聯表達形式和知識關聯強度三個方面分析SciFinder、萬方、維普和中國知網數據庫中的知識關聯。發現作為化學專業數據庫的SciFinder 深入挖掘與化學專業特色有關的關聯形式,形成了詞- 形一體的關聯形式,而綜合類學科中文數據庫萬方、維普和中國知網對于專業知識的處理深度不足。維普數據庫雖然創新性采用圖譜關聯的方式,但其知識關聯局限于關鍵詞共現,未涉及術語的上位概念和下位概念及同義詞;萬方數據庫圖譜關聯方面功能較強,推薦的相關詞與檢索詞之間的相關性較強,但其知識關聯表達形式僅僅以詞的形式出現,未深入挖掘專業特色;中國知網數據庫提供專業術語的知識關聯內容,但其知識關聯表達形式單一,需要創新知識關聯表達形式。
除了現有的基礎知識關聯表達形式以外,中文數據庫需創新知識關聯表達形式,加強文獻中的內容挖掘,做到詞—形一體。如本文中提到的檢索詞是化學專業術語,有很大的特點,區別于常規的檢索詞,既包含化學物質的特性,又包含化學名稱、分子式、結構式、反應式等多個知識點關聯,如果能做到將這些知識點相關聯,則將大大提高中文數據庫在專業領域的查準率和查全率,有利于用戶發現更多的研究點,促進學術發展。
目前,中文數據庫的知識關聯原理是通過共詞分析或詞頻統計得出關聯結果,而關聯結果會隨來源出版物的更新而變化,而非僅僅由于共詞等關系造成知識關聯的改變,而SciFinder 數據庫關聯的知識點均是在人工篩選的前提下,再利用計算機進行處理,經過了專業人士的人工處理后可以大大減少計算機處理的誤差,極大程度地增加了數據庫的查準率。因此,建議中文數據庫可以通過專業人士對用戶使用的檢索詞、文獻信息等進行篩選和處理,以保證數據庫中檢索出的相關知識點的正確性和有效性。
目前SciFinder 數據庫是化學化工領域的權威數據庫,其對于化學化工領域的文獻處理較專業,而中文數據庫是綜合學科類數據庫,沒有精專某一學科的數據庫,雖然檢索模式是通用的,但以綜合類學科均適用的檢索方法為主導,專業學科的檢索特點難免被忽視,這在一定程度上會降低數據庫對專業學科知識點的查全率和查準率,因此,中文數據庫需要加強對專業學科檢索特點的探究,以保證數據庫在檢索專業內容時的準確性。