●邱均平,李艷紅(武漢大學 信息管理學院,武漢 430072)
索引是將信息集合中具有檢索意義的事物名稱及形式或內容特征詞,如篇名、人名、書名、網站名、網頁名、地名、主題詞、分子式、分類號、專利號、報告號、名詞術語等信息單元抽取出來,其后注明地址,按照特征詞字順進行重組排序所形成的信息存取系統。[1]索引的基本功用就是作為查找目的事物的工具,可加快查找速度,節約查找時間,使查找過程變得簡易方便,降低查找遺漏。[2]在網絡化和數字化條件下,人們仿佛置身于信息的汪洋大海中,信息被大量而迅速地生產出來,而其質量則良莠不齊,加大了人們獲取有效信息的難度。為了有效地獲取和利用信息,我們需要對信息進行篩選、評價和有序化。索引原理具有廣泛性,不論其是何種形式、載體,都必須要能被“組織”或“控制”。因此,在新形勢下索引原理不但不能失靈,相反更要加強,開辟出新的領域。
索引是為方便檢索特定知識或信息而編制的指引工具,根據在信息檢索中的功用,索引又可以分為檢索情報源的索引和直接檢索事實情報的索引,其中,直接檢索事實情報的索引即為內容索引。[3]
在網絡環境下,索引的加工對象將從傳統的紙質資源擴展到數字化信息資源,從專業性知識信息擴展至包括生活、保健、交通、飲食、旅游等各類信息,這為索引的可持續發展提供了廣闊前景。對于內容索引而言,這些新形勢帶來的改變更為明顯。現代索引技術改變了傳統檢索模式,它采取完全開放的原則,從工具范圍、檢索語言等方面為用戶提供了網絡檢索的基本形式。如今,絕大部分搜索引擎都是基于索引的檢索技術,而基于內容索引的檢索技術,大大減少了搜索的響應時間,提高檢索的準確性,例如Google公司開發的新型網絡內容索引系統Caffeine,實現對網絡內容索引的規模化,可以更好地滿足用戶對于信息檢索的需求。目前我國索引業已經形成以網上文獻數據庫為主的網上文獻數據庫、網絡信息檢索工具以及傳統索引三分天下的格局。[4]當前,網上文獻數據庫與網絡信息檢索工具得到了迅速的發展,但是與之形成鮮明對比的是,較為傳統的文獻內容索引的編制情況卻不容樂觀。因此,本文將重點論述文獻的內容索引。
文獻內容索引以文獻中的局部主題和所涉及的具有信息價值的各種主題因素(如人物、機構、地區等) 及其他索引項為標引對象,文獻內容索引主要包括圖書內容索引(或稱書后索引)、學位論文內容索引、期刊論文內容索引、專利內容索引等。[5]
圖書內容索引又稱書后(末) 索引、專著索引,一般置于書后,作為原書的一個組成部分隨書出版。一般以書的附錄形式出現,主要是以書中某些詞語為線索,指出這些詞語的相關描述的內容在本書正文中所在頁碼。主要種類包括主題索引、人名索引、團體名索引、地名索引、專利索引、醫藥名索引、化學分子索引等。[6]2006年,張琪玉教授出版的《圖書內容索引編制法》 是我國第一部圖書內容索引專著。
學位論文內容索引是一種詳細揭示、查找學位論文中包含的情報內容的檢索工具,是學位論文不可缺少的重要組成部分。[7]學位論文的內容索引能夠深入地揭示學位論文各章節的內容。通過內容索引,能全面地了解學位論文所論述的重點、要點和不足之處,為方便快捷的查找利用學位論文研究成果提供了一個有效的途徑。
期刊內容索引是按一定原則和編制方法,將期刊文獻中所包含的人名、地名、學術名詞、論述的主題、分子式等內容摘錄出來,它是幫助人們有目的地查閱期刊文獻的有效工具,是揭示期刊內容的鑰匙。與期刊目錄相比,內容索引能更深入、更細致、更準確地向人們提供期刊文獻中的內容信息。[8]
專利內容索引作為全面地揭示專利中情報信息的檢索工具,用它不僅能查找某一特定的專利,而且可以查找與該專利內容有聯系的相關專利,專利內容索引能全面地揭示有關的專利信息,方便用戶了解科學技術的發展狀況,為技術研究提供有力的依據。
文獻數據庫是索引事業現代化的標志和成果,從其收錄規模和檢索功能看,已經遠遠超過傳統索引而成為我國索引事業的主要部分。隨著幾大力量雄厚的索引公司的崛起,如清華同方數據公司、萬方數據有限公司、重慶維普等,我國文獻數據庫已發展到相當的規模。[9]但是,相比較而言,文獻內容索引的應用狀況卻不容樂觀。
長期以來,圖書內容索引在西方國家受到廣泛的重視,西方讀者習慣于使用圖書內容索引來檢索自己所需的內容。圖書內容索引編制的好壞,也通常作為評判圖書質量的重要指標之一。美國律師和政治家賓尼 (H.Binney) 曾說過:“我以為一本好書,如果沒有一個好的索引,會失掉它一半的價值。”然而,在我國,編有書后索引的圖書所占比例仍非常低。20多年前,程永山曾對中國科學院上海分院的中外6類846種文獻的統計結果顯示,有142種文獻編有各類索引,占總數的16%,其中外文文獻編制索引的占71%,而中文文獻只有不到5%。[10]周柏康對2004年1064種中文新書(不含工具書) 的統計表明,有書后索引者僅33種,占全部樣本的3.1%。[11]有一些出版單位從國外引進學術著作時,因為嫌麻煩將外文版的索引、注釋直接刪除,嚴重破壞了學術著作的完整性。2009年,衡中青與侯漢清在對283篇學位論文的統計中發現,其中有索引的只有8篇,約占2.8%。[7]由此可見,我國內容索引的編制情況十分落后。文獻內容索引編制現狀并沒有隨著時代進步、技術發展而得到改善。
黃恩祝在《應用索引學》 一書中概括了索引的分解、梳理、組合、結網、揭示、鑒別、追蹤、導航、執簡、檢索、預測等功能。[12]內容索引除了具備索引的基本功能以外,還具備如下功能。
文獻中通常包含著許多有價值的知識單元,內容索引將文獻中具有檢索意義的知識單元進行標引,可以發現書中論述的重點和特點,編制索引的過程也為文獻作者提供了考慮書中重要概念、術語或詞語間相互關系的機會,重點是思考其間的聚合關系,從而實現了對文獻中知識單元的梳理和規整。
通過內容索引可以直接查檢到所需信息在文獻中的確切位置,可直接獲取信息內容。因此,大大提高了文獻檢索的命中率,內容索引能更好地滿足讀者檢索信息時“查全、查準、查快”的要求。通過內容索引可以查找文獻中的任一事實、數據和概念,同時也能減少查檢中的遺漏。
對于專業人員來說,如果沒有科學的信息傳遞工具,要想了解本專業的有關專業技術、最新信息和動態發展,猶如大海撈針,難度較大。內容索引將具有相同主題因素的信息聚集在一起,只需通過內容索引,便可了解有關該主題下的所有內容在文獻中的位置,讀者可通過選擇感興趣的主題來了解相關的內容,有利于指導讀者閱讀。
文獻的內容索引具有將分散于文獻多處涉及同一事物的論述集中顯示在一起,有利于研究者進行系統全面地專題研究或考證,方便研究的作用。
國家圖書館史睿認為只有借助其知識擴展和知識管理功能,人類才能探索知識發現的新方案。[13]對文獻編制內容索引,是對知識的一次再加工過程,讀者在瀏覽內容索引時,不但能比較全面地了解文獻中所論述的問題,而且讀者常常可以發現哪些觀點是著作者對前人或其他學者的借鑒、繼承或發展,也能從中發現著作者的新發現、新觀點或新創造,此時內容索引具有“知識挖掘”的作用。
某些書(如閱讀性圖書) 本身雖非工具書,但是,當配備了內容索引之后,也能在一定程度上發揮參考工具書的檢索功能,便于讀者利用。
編制內容索引是一項再創造過程,需要對所編的文獻資料作重新組織與排列,對重要的術語作大量的調查比較研究工作,要對全書作多層次的審視。因此,在索引的編制過程中,一方面能從文獻中發現各種形形色色的問題,找出文獻的薄弱環節和錯漏,有助于學術的提高和語言的凝煉。另一方面也為作者提供了自我審視的新視角,與“線性”的寫作過程不同,作者在編制索引時需要將書中不同位置的內容依靠同一主題因素匯聚在一起。編制索引為文獻作者提供了考察文獻知識內容的機會,同時也能使著者能夠從信息檢索和利用的視角重新審視書中內容的呈現效果。
對于某些文獻來說,編制內容索引還具有增值效應,比如說,對古籍圖書編制內容索引,可以成為古籍整理的有效工具,可以進一步增加古籍文獻的價值。我國的古籍浩如煙海,為古籍編制索引,我們可以從中得到許多重要的文獻資料。對于那些有一定參考價值和一定研究深度的圖書來說,沒有索引,查閱回溯十分不便,客觀上阻礙了圖書內容的開發與利用,從而也降低了使用價值。
在數字環境下,將經過篩選加工的內容索引納入數據庫或索引工具書,可以大大簡化處理過程,亦可為網絡情報服務體系和索引工具書提供基礎資源。針對文獻內容累計索引可隨時累積(增加內容) 而不斷更新的特點,張琪玉先生也進一步提出建設累積索引數據庫的設想。[14]
我國文獻內容索引的相對落后,除了與讀者使用文獻習慣的陳舊以及情報檢索意識的欠缺有關之外,還與文獻內容索引編制技術手段的落后有關。長期以來,我國的內容索引處于手工編制的階段,索引的編制,需要綜合考慮索引的學科范圍、索引的文獻范圍和載體、索引規模、索引項與索引單元以及標引深度等問題,針對不同的文獻,需采用不同的標引策略,手工編制文獻內容索引具有準確性高的特點,但同時手工編制索引耗時耗力,造成索引收錄范圍窄、規模小,無法發揮索引的真正優勢。
國外機構在重視圖書內容索引編制的前提下,充分利用計算機技術實現索引自動化,目前其索引技術已經相當成熟。早在1992年,國外已經有了Macrex、Cindex、IndexAid2等10種較穩定和較流行的專用微機輔助標引軟件。此外,還有Word Perfect、Microsoft Word等含有索引編輯功能的文字處理軟件。[15]如今隨著各種電子排版文本的出現和數據庫存儲技術的成熟,越來越多的人嘗試利用計算機完成索引編制,也有專家嘗試利用計算機的智能分析直接完成賦詞標引或抽詞標引。
針對中文圖書內容索引的編制,南京農業大學的康艷在其碩士論文中探討了中文圖書內容索引計算機編制的研究與系統實現,她通過使用國外各種索引工具,分析其在編制圖書內容索引過程中體現的強大功能特點。在此基礎上,針對目前國內索引工具的不足,設計系統的各個功能模塊。[16]雖然這篇文章主要針對中文圖書的內容索引,但是對于其他類型文獻的內容索引的計算機編制同樣具有借鑒作用。
張琪玉先生曾指出,圖書內容索引的計算機編制,主要問題在于標引功能的自動化與編制出處項功能的自動化,圖書索引要求詳細而又有選擇地并相當專指地標引圖書的局部主題和主題因素,不允許像全文檢索那樣用所有關鍵詞無遺漏地標引其全部內容。[17]但是目前自動標引系統抽出的表述文獻主題的主關鍵詞準確性較差,還不能完全代替人工標引,因此在借助計算機編制索引時,仍需采取“人機結合”的方式,將自動標引的高效性和人工標引的智能性相結合。
一般認為,索引是文獻檢索的工具,但是,隨著時代的發展,索引的加工對象和服務對象都在不斷擴展。在當前環境下,如果能將先進技術的優勢與索引專家人工智能優勢密切結合起來,那么索引仍是組織文獻及信息的利器。在新形勢下,必須充分利用計算機、網絡等最先進的技術,擴大內容索引的應用范圍。
內容索引的編制,最主要的應用就是進行信息檢索。內容索引是一種能夠深層次揭示文獻內容的檢索工具,在文獻中,無論是圖書、論文還是其他類型的文獻,內容索引均可以提供另一種檢索途徑,提高對文獻信息的查全率與查準率。
如今,隨著數據庫的發展,文獻的儲存、閱讀、檢索形式不再局限于現有印本形式。良好的高度發展的搜索技術與文獻內容索引的編制相輔相成。完善的內容索引將提高信息查詢的效率,而先進的搜索技術,也將有利于文獻內容索引的編制。
互聯網內容的規模每天都在增長,互聯網內容的增長并不僅僅體現在數量上面,而且還出現了視頻、圖片和實時更新等內容。與以往相比,目前平均每個網頁所含信息量比以前更為豐富。在海量信息中獲取真正需要的信息,順序搜索的響應時間變得不可忍受,解決搜索響應時間的辦法就是建立一種便于搜索的數據結構——索引,索引是決定網絡信息搜索引擎性能的關鍵,可以提高信息查詢速度。此外,網民對搜索引擎性能的期望值比以前更高,為適應互聯網產業的向前演進以及滿足網民的需求,Google公司開發了新型網絡內容索引系統 Caffeine。[18]Caffeine技術不僅僅提高了網絡索引的時效性,實現對網絡內容索引的規模化,而且使組建性能更強大的搜索引擎成為可能,可以更好地滿足用戶對于信息檢索的需求。
有人統計,研究人員用于搜集、閱讀和研究資料的時間,要占全部工作時間的1/3以上。如果編有完備的索引,傳遞文獻情報信息,就可以大大減少這種浪費。科學合理的內容索引能深入系統地揭示信息內容,使研究者和學生更方便地引用相關的信息或梳理相關的內容,使得學術研究能夠成為一種更加輕松、更有趣味、更能發揮創造天賦的活動,同時也有助于研究者更清楚、更自覺地區分出不同思想、不同觀點的來源、繼承、借鑒和發展的關系,從而避免在學術規范上出現失當或違規。如果我們合理地使用索引,一方面可以為研究人員增加工作時間,使其從事創造性的研究工作,另一方面也有助于科研人員對文獻信息內容進行深入細致的了解,有利于研究人員進行系統全面的專題研究或考證,好的內容索引不僅能為科研人員提供新的知識點,有時還能提供全新的研究視角和研究思路。例如期刊內容索引數據庫(PIO,Periodicals Index Online)多學科的收錄范圍就能夠為當前研究工作的發展趨勢提供支持,因為用戶可以從很廣泛的學科期刊中提取參考文獻。對于剛開始某項課題的研究人員來說,內容索引數據庫可以使他們對文獻做一個初始而快速的檢索,而這項工作在以前要耗費大量的時間;對于那些研究工作進行到中間或接近尾聲的人來說,則讓他們進行一次有益的“再檢查”,從而幫助他們確定所有與課題相關的內容都被考慮進去了。
內容索引還能用于對文獻信息的評價。內容索引是學術著作不可或缺的組成部分,圖書有無書后索引以及索引編制的優劣,應當成為評價一本書,尤其是學術專著的一個重要指標。國外圖書館在遴選和購置圖書時,內容索引就是一個重要的參考指標,在推選優秀參考書過程中,美國圖書館協會(ALA,即AmericanLibraryAssociation) 實際上將那些沒有索引或索引質量差的圖書排除在外,而ALA的挑選將會極大影響其他圖書館,尤其是大學圖書館的圖書采購。
隨著經濟全球化和高度發達的信息產業的發展,世界文化發展呈現出多元化發展趨勢,文化的傳播、交流和影響日益全球化。[19]但是,學術著作缺乏索引等學術不規范問題已經成為我國學術著作跟國外版權貿易當中遇到的最大障礙。計算機技術、信息技術的快速發展對索引技術的發展起到了重要推動作用,但是,由于文化習慣的影響、經濟效益的考量、索引軟件的缺失等原因,文獻內容索引在我國始終沒有受到足夠的重視。文獻內容索引,尤其是圖書書后索引呈現出嚴重缺失的狀況,而缺乏完善的學術著作出版規范和標準,是造成目前文獻內容索引缺失的重要原因。編制內容索引,是規范學術出版標準,提高學術出版質量的必然要求,是提高內容質量,促進文化繁榮的必然要求,是擴大學術影響力,實現文化交流的必然要求。新聞出版總署副署長鄔書林曾在多個場合多次談到學術著作書后索引編制問題,反復強調學術著作如果不做索引將不能獲得政府獎參評資格,出版基金將不予贊助。[20]這就需要我們通過各種渠道積極推廣內容索引。對此,我們建議著者和出版者采取必要的措施,盡快改變文獻無索引查閱不便的落后狀態。
[1] 張帆.信息組織學 [M].北京:科學出版社,2005: 174-175.
[2] 張琪玉.情報語言漫筆 [J].圖書館理論與實踐, 2003(6) : 47-49.
[3] 張琪玉.圖書內容索引編制法:寫作和編輯參考手冊[M].北京:化學工業出版社,2006:4
[4] 陸建江,等.智能檢索技術[M].北京:科學出版社,2009.
[5] 全國信息與文獻標準化技術委員會,中國索引學會.GB/T 22466-20085索引編制規則(總則)[S].北京:中國標準出版社,2009.
[6] 黃遠慧.淺議圖書內容索引的推廣 [J].才智,2011(24): 89-90.
[7] 衡中青,侯漢清.應該為學位論文編制內容索引[J].中國索引, 2009 (2) : 31-34.
[8] 陳毛英.期刊索引探析 [J].情報科學技術,1993(3) : 40-43.
[9] 張琪玉.中國索引事業:當前格局與問題[J].中國索引, 2005(4) : 9-13.
[10] 陳永山.試論書末索引(續)[J].圖書情報工作,1981(3) : 14-19.
[11] 周柏康.對書后索引現狀的一次調查 [J].中國索引,2004,2(4): 13-15.
[12] 黃恩祝.索引的十一種功能 [J].中國索引,2005,3(2) : 7-8.
[13] 史睿.索引與知識發現 [J].中國索引,2006,4(1) : 2-8.
[14] 張琪玉.關于圖書內容累積索引數據庫的設想[J].中國索引.2007(4): 18.
[15] 康艷.圖書內容索引編制系統(BIS)設計探討[J]. 中國索引,2008(1) : 27-35.
[16] 康艷.中文圖書內容索引計算機編制的研究與系統實現[D].南京:南京農業大學,2008.
[17] 張琪玉.圖書索引軟件的功能要求與編制難題[J]. 中國索引,2004(3) : 41.
[18] Google稱開發出新型內容索引系統Caffeine[EB/OL].[2012-05-12].http://homepage.yesky.com/86/11370586.shtml.
[19] 歐陽劍波.對全球化時代我國文化發展的理性思考 [J].湖湘論壇, 2009(1) : 64-65.
[20] 莊建.對不規范的學術著作說“ 不” [N].光明日報, 2012-01-12(9) .