摘 要:本文對(duì)目前的文獻(xiàn)檢索和索引狀況進(jìn)行了簡(jiǎn)要分析,并根據(jù)文獻(xiàn)的著錄形式,提出網(wǎng)狀結(jié)構(gòu)的范疇索引體系。該體系對(duì)樹狀結(jié)構(gòu)的主題詞索引進(jìn)行了層次上的細(xì)化和深化,更符合人類的知識(shí)模型,不僅能夠在一定程度上避免關(guān)鍵詞搜索帶來(lái)的漏檢和誤檢問(wèn)題,提高檢索的準(zhǔn)確性,而且對(duì)在線數(shù)據(jù)庫(kù)的內(nèi)容索引建設(shè)也有一定的借鑒意義。
關(guān)鍵詞:關(guān)鍵詞搜索;主題詞索引;網(wǎng)狀結(jié)構(gòu);范疇索引
中圖分類號(hào):TN94 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1672-0407.2012.05.029
文章編號(hào):1672-0407(2012)05-052-02 收稿日期:2012-04-01
一、引論
目前國(guó)內(nèi)的絕大多數(shù)電子文獻(xiàn)目錄都是按文獻(xiàn)物質(zhì)形態(tài)或?qū)W科基本門類編排的,由于分類方式相對(duì)簡(jiǎn)單,每個(gè)類別下的文獻(xiàn)數(shù)量數(shù)以千萬(wàn)計(jì),面對(duì)如此海量的數(shù)據(jù)不可能逐條查看并從中選取,因而用戶在檢索文獻(xiàn)時(shí)主要采用關(guān)鍵詞搜索或主題詞索引功能。
關(guān)鍵詞搜索具有多檢索途徑的優(yōu)點(diǎn),而且對(duì)讀者來(lái)說(shuō)具有更強(qiáng)的適應(yīng)性[1]。但由于同、近義詞、上、下位詞等語(yǔ)言現(xiàn)象的客觀存在,容易發(fā)生遺漏或誤中。例如某用戶想要檢索關(guān)于“文學(xué)與地理關(guān)系”的文獻(xiàn),如果他僅使用“文學(xué)+地理”作為關(guān)鍵詞,檢索結(jié)果的完整性和準(zhǔn)確性將達(dá)不到要求。首先,關(guān)于“詩(shī)歌與地理”“詞與地理”“文學(xué)與氣候”等方面的論文很有可能被遺漏,因?yàn)樗鼈兪褂玫氖潜粰z索詞的下位詞,普通的檢索程序無(wú)法判斷它們的關(guān)系,這些文獻(xiàn)將被排除在檢索范圍之外;其次,“天文學(xué)與地理”“水文學(xué)與地理”等與檢索目的無(wú)關(guān)的論文可能也會(huì)被命中,摻雜在檢索結(jié)果中成為冗余。雖然采用預(yù)處理技術(shù)可以部分解決該問(wèn)題,但這類語(yǔ)言現(xiàn)象難于窮舉。
我國(guó)索引學(xué)的研究事業(yè)從1991年起一直處于快速發(fā)展?fàn)顟B(tài),到了2005年以后開(kāi)始平穩(wěn)發(fā)展,可以認(rèn)為索引學(xué)目前處于大發(fā)展與穩(wěn)定發(fā)展的過(guò)渡期[2]。前人提出要規(guī)范化主題詞,并確定一種或二種索引形式作為推廣或希望采用的形式[3]。囿于目前自然語(yǔ)言處理技術(shù)的發(fā)展瓶頸,主題詞的選定與核對(duì)需要專業(yè)人士手工進(jìn)行,機(jī)器只充當(dāng)輔助角色。而且確定了主題詞集合之后還要將文獻(xiàn)逐一著錄,其前期工作與關(guān)鍵詞搜索相比顯著增加。經(jīng)整理后,文獻(xiàn)的后續(xù)利用非常方便,檢索時(shí)數(shù)據(jù)漏檢和數(shù)據(jù)誤中問(wèn)題都能得到較好解決。我國(guó)現(xiàn)行的主題詞索引主要分為漢語(yǔ)拼音字順型和分類—主題詞型兩種[4]。
《中國(guó)分類主題詞表》(第二版)在中圖分類法的基礎(chǔ)上將主題詞排列成樹狀結(jié)構(gòu),是一個(gè)不錯(cuò)的嘗試。但由于人力、時(shí)間所限,枝葉未足夠細(xì)化。該表目前主要被應(yīng)用于出版社或圖書館的書目管理中,而對(duì)海量的論文文獻(xiàn)卻很少使用。原因有二: 1.在線數(shù)據(jù)庫(kù)已經(jīng)有一個(gè)比較成熟的著錄模式,一般都是按照學(xué)科類別、發(fā)表時(shí)間、出版社、期刊等進(jìn)行著錄,而《中國(guó)分類主題詞表》在其領(lǐng)域內(nèi)又非強(qiáng)制實(shí)施,因而缺乏主動(dòng)向其靠攏的向心力;2.客觀地說(shuō),該主題詞表的編制目的也主要是面向圖書管理的,從一開(kāi)始就就對(duì)論文類的文獻(xiàn)缺乏足夠的考慮,這也使它的使用范圍僅限于書目管理。
因此,我們不僅希望主題詞索引能在現(xiàn)有的在線數(shù)據(jù)庫(kù)中得到應(yīng)用,而且認(rèn)為其分類層次應(yīng)該而且可以得到細(xì)化和深化。
二、文獻(xiàn)的著錄形式
文獻(xiàn)著錄大體分為以下兩種形式:第一種是以文獻(xiàn)的物理組織形式為基本參考,可以稱為“物理目錄”或“載體目錄”;第二種是以文獻(xiàn)所涉及的內(nèi)容為基本參考,稱之為“內(nèi)容目錄”。
(一)載體目錄
在日常生活中,當(dāng)我們談及某段文字的出處,通常的表達(dá)是“出自某本書的第幾頁(yè)第幾行”或“某本書第幾章第幾節(jié)”,如果更具體一點(diǎn),這里的“某本書”還要細(xì)化為“某出版社哪一年出版的哪本書(書名)”或“××雜志哪一年第幾期”。對(duì)文獻(xiàn)的這一類信息進(jìn)行著錄,就是本文提到的載體目錄。采用它可以方便地找到某段文字、某篇文章、乃至某本書的物質(zhì)載體。
(二)內(nèi)容目錄
這是從古到今一直在發(fā)展,尚具有長(zhǎng)足發(fā)展可能的目錄,它在一定程度上也代表著人類對(duì)自身知識(shí)體系的總結(jié)。
西漢時(shí)劉向、劉歆父子編纂的《七略》是目前所知的最早以文獻(xiàn)涉及內(nèi)容為劃分依據(jù)的目錄。該目錄將天下文獻(xiàn)分為六藝、諸子、詩(shī)賦、兵書、術(shù)數(shù)、方技等六個(gè)類別,為后世的目錄編纂工作立了很好的榜樣。此后出現(xiàn)的各種史志目錄和類書,可以看成是我國(guó)目錄編纂工作朝著不同方向的發(fā)展。前者以書籍作為基本著錄單元,而后者以文辭作為基本著錄單元。類書中使用的范疇劃分方法,甚至可以看成是主題詞索引的鼻祖。傳統(tǒng)圖書館書目的基本著錄單元為書籍和期刊發(fā)行本,對(duì)書籍內(nèi)部,尤其是期刊內(nèi)部分屬不同領(lǐng)域和主題的單篇論文缺乏專門的目錄整理,目前這部分的工作主要由在線數(shù)據(jù)庫(kù)代工。如果要對(duì)單篇的論文進(jìn)行編目工作,一種面向研究?jī)?nèi)容或研究主題的分類方法勢(shì)在必行。而且基于維護(hù)的便捷性、修訂的時(shí)效性考慮,最佳選擇是采用電子版,并首先將其應(yīng)用到各大在線數(shù)據(jù)庫(kù)中。
三、網(wǎng)狀結(jié)構(gòu)的范疇索引設(shè)想
本文提出的面向研究?jī)?nèi)容或研究主題的網(wǎng)狀范疇索引可以采用以下兩個(gè)步驟進(jìn)行實(shí)施:范疇構(gòu)建和目錄指派。
1.范疇建構(gòu):根據(jù)目前的人類知識(shí)體系及對(duì)某一具體問(wèn)題的研究狀況,建立按層次劃分的范疇體系;由于各民族不同的思維模式,或者對(duì)同一現(xiàn)象的不同觀察角度,允許同時(shí)存在多個(gè)不同的范疇體系。前文提到的分類—主題詞索引已經(jīng)初步形成范疇體系,但其層次劃分還需要進(jìn)一步的細(xì)化和深化。例如研究單個(gè)文學(xué)家族的論文,除了按其研究對(duì)象所經(jīng)歷的朝代進(jìn)行分類以外,還可以繼續(xù)按地理位置和宗族世系詳細(xì)劃分為:六朝-陳郡-陽(yáng)夏-謝氏-謝混/謝道韞/謝靈運(yùn)/謝惠連/謝莊/謝朓、宋代-四川-眉山-蘇氏-蘇洵/蘇軾/蘇轍/蘇過(guò)、明代-江蘇-蘇州-皇甫氏-皇甫沖/皇甫涍/皇甫汸/皇甫濂……以這種方式劃分之后,知識(shí)體系能夠更加清晰、明朗。
我們?cè)谖膶W(xué)研究領(lǐng)域建立“宋代-四川眉山蘇氏-蘇洵/蘇軾/蘇轍/蘇過(guò)”的范疇體系之后,就可以把所有研究蘇軾的單篇標(biāo)記到“蘇軾”這一范疇之下,它和另一范疇體系(例如:文學(xué)家-宋代-蘇軾)中的“蘇軾”是等價(jià)的。這些范疇體系除了具有傳統(tǒng)樹狀結(jié)構(gòu)的優(yōu)點(diǎn)以外,處于不同體系的某些范疇之間還存在等價(jià)關(guān)系,因而更確切地說(shuō)是一種網(wǎng)狀結(jié)構(gòu)。這種網(wǎng)狀結(jié)構(gòu)比單純的樹狀結(jié)構(gòu)更接近人類大腦對(duì)整個(gè)世界的認(rèn)識(shí)模型。
2.目錄指派:指為諸文獻(xiàn)匹配相應(yīng)的范疇類別。指派的過(guò)程,就是對(duì)某文獻(xiàn)進(jìn)行范疇標(biāo)注的過(guò)程。這一過(guò)程可以由文獻(xiàn)的管理者完成,也可以由文章作者完成,還可以由讀者在文獻(xiàn)使用過(guò)程中完成。
同一文獻(xiàn)可以同時(shí)匹配到不同的范疇體系中。以《唐宋詞樂(lè)的發(fā)展變化與柳永蘇軾詞》一文為例,我們可以同時(shí)將它指派到“文學(xué)詞學(xué)柳永詞研究”“文學(xué)-詞學(xué)-蘇軾詞研究”“文學(xué)-文學(xué)家族研究-宋代-四川-眉山-蘇氏-蘇軾”“文學(xué)-文學(xué)演變-詞的發(fā)展-唐宋詞”等多個(gè)不同的范疇體系中。此外,應(yīng)以最小類、即深度為最深的范疇為匹配標(biāo)準(zhǔn)。以《宋代家族與文學(xué)研究》為例,在“文學(xué)-文學(xué)家族研究-宋代-四川-眉山-蘇氏-蘇軾”這一體系中,只需指派到“文學(xué)-文學(xué)家族研究-宋代”這一深度。
四、網(wǎng)狀范疇索引的優(yōu)點(diǎn)
這一目錄結(jié)構(gòu)有以下幾個(gè)優(yōu)點(diǎn):
1.對(duì)樹狀結(jié)構(gòu)的主題詞索引進(jìn)行了細(xì)化和深化,并提出網(wǎng)狀范疇體系,符合人類的知識(shí)結(jié)構(gòu)模型,能夠在一定程度上避免關(guān)鍵詞搜索帶來(lái)的漏檢和誤檢問(wèn)題,提高了檢索的準(zhǔn)確性。
2.同一文獻(xiàn)可以分屬多個(gè)類別,而且同一類別可以出現(xiàn)在不同的范疇體系中,這更符合文獻(xiàn)的自然屬性。雖然每一種文獻(xiàn)都有它獨(dú)特的寫作目的和研究對(duì)象,但當(dāng)它的內(nèi)容涉及多個(gè)學(xué)科時(shí),就顯示出了多面性。傳統(tǒng)的圖書編目工作中,跨學(xué)科的著作難以歸類,傳統(tǒng)的解決方法往往是將該文獻(xiàn)著錄多次,這樣雖然解決了檢索的問(wèn)題的,但卻給文獻(xiàn)數(shù)量的統(tǒng)計(jì)工作帶來(lái)了不便。而網(wǎng)狀結(jié)構(gòu)的范疇索引的著錄工作都是針對(duì)某一具體的文獻(xiàn)進(jìn)行的,不需要增加文獻(xiàn)的著錄次數(shù),只需要給相應(yīng)的文獻(xiàn)同時(shí)匹配多個(gè)范疇并標(biāo)記之。
參考文獻(xiàn)
[1] 黃萍莉,關(guān)鍵詞索引與主題索引比較研究[J],辭書研究,1994年第02期
[2] 邱均平,樓雯,我國(guó)索引研究二十年回顧與展望——紀(jì)念中國(guó)索引學(xué)會(huì)成立20周年(上),《中國(guó)索引》,2011年第4期
[3 陳正瑜,關(guān)于我國(guó)檢索期刊主題索引規(guī)范化的思考[J],情報(bào)科學(xué),1988年第9卷第4期
[4] 畢剛,我國(guó)檢索刊物主題索引評(píng)析[J],情報(bào)雜志,1996年第4期