魏振樞,呂志元
(中州大學學報編輯部,鄭州450044)
在信息的儲存與查詢過程中,“標引”是對雜亂文獻的整序過程,也是為“檢索”做準備工作。“檢索”則是著眼于查找具體文獻,雙方借助于約定俗成的“語言”進行溝通,以便于順利地取得共識,達到既定的目標,這個“語言”就是信息檢索語言。從外表的表征上看,信息檢索語言主要有兩類,即語言性的檢索語言和符號性的檢索語言(其中包括分類語言和代碼語言)。如果按照構成原理可以分為分類語言、主題語言、代碼語言。但是,2010年出版的《中國圖書館分類法》(第五版)沒有將代碼語言作為一種檢索語言來看待。例如在該書第120頁的文獻檢索語言分類中:
我們對于主題語言研究較多,分類語言有著深厚的理論基礎和完善的編制技術,因此圖書館專業情報人員對以上兩種都有比較精深的研究和體會。在網絡信息技術發展過程中,代碼語言顯示出了它的特殊性和特別的重要性,應該加強對它的研究。

應該說,代碼語言產生的比較早,也是一種人工語言,是對某類事物的一些內涵進行解析,將其中主要特征應用代碼(例如字母、符號、數字、圖形等)進行有序的排列,用來表達事物的本質內容。文獻[1]和[2]對于代碼語言已經有初步的闡述。代碼語言目前主要有以下幾種存在形式。第一種是字母組合,該類內容比較豐富,從結構上看,主要有縮寫詞、簡寫詞、略語詞和首母詞等。例如,美國著名的檢索期刊《化學文摘》(CA)就把化學式(例如PVC)作為一種重要的檢索語言。第二種是數字代碼語言,例如我們常用到的圖書條碼如:9787122030207(化學工業出版社出版的《化工安全技術概論》);連續出版物(期刊)條碼如:9771006418038(浙江化工);身份證號碼代碼語言,例如110524198001010012。目前把數字代碼轉換成為線條,形成條碼,更加便于掃描識別。第三種是通過字母與數字組賠組合形成的復合型代碼語言,如中國標準書號(例如ISBN978-7-122-03020-7;中國標準連續出版物號(例如ISSN1006-4184/CN33-1093/TQ);各類專利文獻標識代碼(例如 ZL200410060208.9、87100012A);技術報告編號(例如AD-A130900)等。第四種是信息圖形符號。工業生產中存在多種公共信息圖形符號,圖1是指紋圖形標志,可以廣泛用于筆記本電腦的開機、開啟門窗、公安機關對嫌疑人的指紋識別等方面。類似這樣的圖形符號標志今后會越來越多,這樣的檢索語言簡單易懂,活潑醒目,很容易普及使用。
綜上所述,我們可以看到,文獻信息檢索的現代化信息環境以及信息載體的變革直接影響文獻檢索的方式和技術。以自然語言為標識的檢索語言目前最能夠與現代科學技術發展相適應,人工檢索語言之間的相互融合,以及人工語言與自然語言的和諧統一應該是檢索語言變化趨勢。


現代網絡信息時代,我們認為,代碼語言內容豐富而雜亂,發展勢頭較快,應該加強研究。例如,分類語言與代碼語言的區別與聯系有哪些?如何提高識別代碼語言(特別是圖形語言)的效能?這些都是文獻信息工作者應該重視并研究的問題。代碼語言有許多比較明顯的特點,主要有以下幾點。
代碼語言是按照事先設計好的排序方式對一個對象進行標記,從而形成一一對應的語言關系。為了更加準確唯一地表達所描述的對象,很多代碼語言標識式增加了校驗碼,以確保其一一對應的關系。所以說,代碼語言具有專有性和不可替代性。
中國標準書號由標識符ISBN和13位數字組成。其中13位數字分為五部分(以下是化學工業出版社出版的魏振樞主編的《化工安全技術概論》的書號)。

國際標準書號代碼 EAN·UCC前綴 組區號(中國) 出版者號 出版序號 校驗碼
這組代碼具有專有性的性質,在國內不可能再有這樣的一個代碼。再如居民身份證的號碼是按照《中華人民共和國國家標準 GB 11643-1999》編制的,由18位數字組成:前六位為行政區劃代碼,第七至第十四位為出生日期碼,第15至17位為順序碼,第18位為校驗碼。對同年、月、日出生的人員編定的順序號。順序碼的奇數分配給男性,偶數分配給女性。按照ISO 7064:1983.MOD 11-2計算出來的是檢驗碼。盡管中國有13億人口,但絕對不可能出現身份證號碼重復的情況。

假如使用主題語言(例如關鍵詞)或者分類語言作為檢索語言進行檢索時,會得到一批相關的文獻資料。例如用中國圖書館分類法中的G254.0(有關文獻檢索語言總論方面的資料)作為檢索項在CNKI中檢索,會得到104條不同的文獻。
代碼語言的檢索是一一對應,只能找到惟一的一個對應的文獻資料。例如,通過google查找GB/T7714-2005《文后參考文獻著錄規則》,可以得到將近6000條都是有關這個國家標準的檢索內容。
代碼語言利用數字和字母符號等進行組配成為復合檢索語言。比較典型的是在1986年以前曾經使用過的《全國圖書統一編號》的書號分為三個部分:圖書分類號、出版社代號、序號。其中圖書分類號統一采用阿拉伯數字表示,共分為17個類目;出版社代號由已經確定的“出版社名編號表”中查詢;序號為該出版社的出書序列號。
例如人民文學出版社出版的《金光大道》統一書號為:“10 019·1886”,這本書的分類號為“10”(文學),出版社代號為“019”(人民文學出版社),這本書是該社出版的文學類書籍的第1886種。
分類語言具有等級列舉式結構,是一種規范性的、應用廣泛的甚至是強制性的標準語言,屬于強制性的法律范疇。只要在某領域有這樣的分類語言,就必須無條件的執行,由此可知,像這樣的檢索語言在一般搜索引擎(包括google、baidu等)或大型數據庫中可以作為檢索語言進行資料的查詢。主題語言更是我們最常使用的檢索語言,幾乎在所有的網站或數據庫中都可以使用。
代碼語言涉及范圍和領域比較局限,作為一種文獻檢索語言也許只能在專有的網站才能識別并檢索出來,而在一般的綜合性網站或數據庫進行檢索則效果不太理想,甚至沒有這樣的檢索項。例如對于居民身份證號碼在各公安機構、機場、海關口岸、銀行、工商稅務機構中都能夠作為檢索項進行檢索查詢。但是在CNKI數據庫就難以識別,當然更不可能查詢到任何資料。在標準數據庫中可以用標準編號作為檢索語言進行檢索,在專利文獻數據庫中可以用專利文獻號、專利號或國際專利分類號(分類語言)作為檢索語言進行檢索。
主題語言涉及到所有文字描述的領域,分類語言涵蓋范圍也比較廣,例如《中國圖書館分類法》基本上可以覆蓋我國目前所有領域,而像標準分類法、國際專利分類法主要涉及到理工技術方面。但是在代碼語言中,只對某一個局部領域的對象進行定義,從而形成特定的檢索語言,超出這個范圍,它所組成的代碼就變的無任何意義了。
從代碼語言的組成來看,可以是數字組合、字母組合、數字與字母組配組合等形式,還可以有圖形顯示;另一方面,代碼語言所涉及的學科、領域范圍非常廣泛,這類語言可以說是不計其數,隨時都在不斷產生新的代碼語言。
對于有些代碼語言來說,檢索鑒別特別快捷、準確。特別是圖像識別系統如果能夠實現,則更有廣泛簡便快捷應用的空間和領域,例如前期開發的條碼識別是將數字轉換成為間隔不同的粗細線條(見圖2),用掃描設備方便識別。再如指紋識別(見圖1)、磁卡識別、商標標識真偽的識別等。
代碼語言具有很好的發展前景,發展空間巨大。
綜上所述,檢索語言的分類方法會直接影響到信息用戶的檢索效率,特別是會影響到網絡信息的傳播,甚至影響到整個國家的經濟發展。因此,研究科學準確的檢索語言分類方法并深入研究其內容和實質十分必要。
一個待檢索主題內容可以兼有三種檢索語言,如果利用主題語言和分類語言進行檢索,得到的結果一般是一批文獻資料,需要進一步的甄別才能得到所需的資料。而利用代碼語言可以得到惟一性的所需資料。代碼語言在最近幾年里得到快速的應用和推廣,特別是在論文寫作的格式中對于“關鍵詞”項如果修改為“檢索項”就可以把諸如分類號、各類縮略語代碼作為檢索項列入,更方便需求者的查找,這樣會變得更加快捷方便。
[1]劉海燕,魏振樞.文獻檢索語言分類系統的研究[J].中州大學學報,2008,25(1):108 -111.
[2]王文峽,薛培軍,魏振樞.基于網絡環境下代碼語言在文獻檢索中的特性[J].中州大學學報,2009,26(4):108-111.
[3]中國圖書館分類法編輯委員會.中國圖書館分類法[M].五版.北京:北京圖書館出版社,2010.
[4]魏振樞.化學化工信息檢索[M].第2版.北京:化學工業出版社,2006.
[5]魏振樞,蔡紅燕.科技論文中“關鍵詞”改為“檢索項”更科學[J].科技與出版,2009(4):39-41.
[6]魏振樞,呂志元.“標準”文獻在文后參考文獻中的著錄規則[J].中國科技期刊研究,2007,18(3):520 -521.