陳紅艷
關鍵詞:網絡敘詞表;詞表構建;面向用戶
摘要:近年來,網絡敘詞表作為一種新型語義工具,引起了國內外信息組織領域的廣泛關注。文章從網絡敘詞表的功能定位、結構設計、編制模式、構建標準等4個方面,探討了網絡敘詞表在構建過程中的幾個關鍵問題,以期對我國網絡敘詞表構建的實踐提供指導,擴大網絡敘詞表的社會化應用領域。
中圖分類號:G254.2文獻標識碼:A文章編號:1003-1588(2016)07-0131-03
1 背景
作為一種新型語義工具,網絡敘詞表是敘詞表在網絡環境下的新形式和新發展,其編制與應用已引起國內外信息組織領域的廣泛關注。與傳統敘詞表相比,網絡敘詞表的構建目的從以資源為中心的標引應用發展為以用戶為中心的檢索需求,其構建方式從人工編制發展為以計算機為主、人工為輔的模式,其使用群體從適用于專業人員發展為面向大眾用戶,其載體形式從紙本印刷型轉變為網絡數字化,其格式類型從單一版本發展為多數據格式并存。
網絡環境下,一方面,敘詞表的應用領域得到大大擴展,在知識導航、信息分類、數據挖掘、語義檢索等領域都有重要應用;另一方面,人們對敘詞表也提出了更高的期望和要求,期望敘詞表不僅能保持傳統優勢,而且能增加詞間關系的類型、吸收自然語言的長處,從而更好地符合用戶的需求,適應時代的需要。基于此,筆者以面向用戶的網絡敘詞表為對象,在對網絡敘詞表構建過程分析的基礎上,對其中的幾個核心問題進行深入探討,以期對我國網絡敘詞表構建提供實際參考。
2 國內外研究現狀
網絡敘詞表構建的實踐在國外起步較早。據Taxonomy Warehouse網站[1]收錄統計,歐美各國在網絡環境中使用的分類表、敘詞表、術語表、本體等共計674部,主要應用于網絡數據庫、搜索引擎、Web網頁等網絡信息資源的組織與優化。其中,具有代表性的敘詞表有聯合國糧農組織數據庫使用的農業敘詞表AGROVOC、美國國家醫學圖書館的醫學主題詞表MeSH、美國國會圖書館標題表LCSH等。有關網絡敘詞表構建與設計方面的研究,國外主要集中在詞表設計方法、框架、實現方法、敘詞表構建與維護的軟件及管理系統等。McCulloch從敘詞表構建中的詞匯選擇、結構、標準以及構建軟件等多方面,對網絡環境下的敘詞表構建提出具體指導意見[2]。Nielsen對選擇詞匯的各種方法進行分析與比較,說明了面向敘詞表設計的任務要求[3]。Glenda對比分析了三種常用的專業編制敘詞表軟件——Tree Tree、MultiTes、WebChoir,為用戶選擇軟件提供指導[4]。Shiri對網絡環境下敘詞表的特征及功能進行了深入研究,尤其是對敘詞表增強網絡用戶檢索的方法、策略提出具體措施[5]。
在國內,中國科學技術信息研究所自2009年起開始對《漢語主題詞表》進行網絡化改造,為網絡環境下專業敘詞表的修訂與構建奠定基礎,已建立了《漢語主題詞表》服務系統,提供在線概念檢索和輔助標引服務,通過可視化技術展示各類概念關系。近年來,我國國家社會科學基金項目“網絡環境下敘詞表的編制模式與應用方式研究”“基于知識組織的術語服務研究”“社會化網絡環境下信息組織的理論與方法創新研究”“敘詞表與分眾分類系統的集成研究”“中外分類知識組織體系互操作實證研究”“基于敘詞表自動集成的領域本體構建方法研究”“中文知識組織系統形式化語義描述標準體系研究”等,研究成效顯著,產生了一大批高質量的研究成果,有效推動了我國網絡敘詞表的研究進展。國內學者研究主要表現在對網絡環境下的敘詞表編制模式、收詞新來源、編制標準、概念分類、詞間關系細化以及敘詞表的發展趨勢等方面[6],而對于面向用戶的網絡敘詞表構建過程中所涉及的關鍵問題還未進行系統深入的探討。
3 網絡敘詞表構建的幾個關鍵問題
網絡敘詞表的構建是一項系統工程。編制一部網絡敘詞表的一般程序大體上包括總體設計、規范制定、收集與整理詞匯、錄入數據與網絡出版、測試與維護等五個階段。每一階段都有其不同的核心任務。在分析用戶需求特點及結合開發單位實際情況,對所要編制的敘詞表進行設計規劃,明確詞表的使用對象與目標、詞匯來源、詞表的結構等核心內容的前提下,以下幾個關鍵問題需要重點考慮。
3.1 網絡敘詞表的功能定位
在傳統環境下,敘詞表主要應用于圖書館或相關信息部門,其應用領域主要集中在對文獻信息的標引。隨著信息技術的發展,網絡敘詞表已逐步成為知識組織的普及性工具,支持網絡環境下不同信息應用平臺的精確知識描述和知識檢索,提高各類型平臺信息的可獲得性和可用性[7]。當前,網絡敘詞表已經被廣泛應用到電子政務、電子商務以及網絡數據庫中,通過相連或嵌入詞表的形式輔助用戶檢索,不僅對文本資源進行組織,還對圖像、視頻、音頻等多媒體非文本資源進行標引與描述。例如:英國國家數字檔案館使用的《UNESCO敘詞表》、STI數據庫中使用的《NASA主題詞表》、UMI數據庫中的《ProQuest受控主題詞表》《ERIC網絡敘詞表》《一體化醫學語言系統(UMLS)》等,均滿足了終端用戶從檢索詞匯到檢索相關信息的連續檢索過程,優化了用戶檢索效果。
網絡敘詞表具有開放性特點,任何終端用戶皆可訪問使用。在信息利用的不同階段,網絡敘詞表通過提供特定的語境信息,發揮著信息標引、檢索、瀏覽、導航、關聯等多種作用。由于網絡敘詞表對不同類型用戶所產生的作用及影響不同,因此,要根據用戶的實際需求設計適合的網絡敘詞表。在深入分析網絡敘詞表需求環境的基礎上,結合具體信息場景,擴大網絡敘詞表的應用領域,明確網絡敘詞表的功能定位。
為進一步拓展其功能,網絡敘詞表必須與專業網站、平臺、數據系統等相關聯,使其成為從信息組織到知識組織,進而轉換到知識發現的工具,優化信息內容的呈現方式,提高用戶信息利用效率。
3.2 網絡敘詞表的結構設計
敘詞表的結構決定了敘詞表的功能,要充分發揮一部敘詞表的功能,必須為其設計合理的結構。網絡敘詞表的結構通常包括宏觀結構和微觀結構。其中,宏觀結構是指后臺數據庫(詞表內容系統)和前臺網站系統(即各功能用戶界面)。后臺數據庫主要實現儲存詞匯、用戶檢索、瀏覽提取數據,前臺網站系統是聯系用戶與敘詞表的平臺,便于二者交流。
網絡敘詞表的微觀結構是詞表的基本組成單元,主要是指敘詞款目的內容組成及其顯示方式。傳統敘詞表的敘詞款目著錄事項一般包括:敘詞/非敘詞、標記項(分類號、范疇號等)、注釋項(含義、范圍說明等)、參照項[8]。這里的參照項是通過詞匯間的語義關系來實現。對于傳統敘詞表,用戶可以選擇瀏覽有關詞匯的歷史、范疇注釋、定義,還有所有詞匯間語義關系。為了適應網絡應用環境,敘詞表在結構上需要做出調整,除了包含等級關系、等同關系和相關關系等三種基本詞間關系以外,可適當添加新型詞間關系以進一步拓展敘詞表功能。在全面抽取領域專業術語的基礎上,采用分面標記方法自定義詞間關系,細分與歸類不同概念詞匯間存在的一系列關系。這樣既可以使敘詞表詞間關系處理更加靈活,又可以滿足用戶的個性化需求,提高信息檢索的準確率[9]。
為方便用戶多途徑選擇敘詞,網絡敘詞表通常提供了按字母順序、主題類別、等級結構、KWOC(題外關鍵詞)、KWIC(題內關鍵詞)等多種顯示方式。但無論哪一種顯示方式,都需揭示相關詞匯間的關系并在詞匯下實行超鏈接。通過詞匯間所存在的語義關系,使用戶清晰了解概念的內涵與外延,根據所檢索的主題選擇適當檢索詞匯,提高檢準率和檢全率;實行超鏈接,方便用戶在不同詞匯間跳轉,提高詞表的使用效率。
3.3 網絡敘詞表的編制模式
敘詞表的編制是一項極其耗時耗力、具有知識密集型特征的工作。傳統的敘詞表編制速度緩慢,無法及時收錄和補充覆蓋各學科領域的新詞匯,詞表更新、維護效率較低。在網絡環境下,信息技術的發展讓改變單一、獨立、封閉的敘詞表編制體系成為可能。采用多用戶、多單位協同編制模式,將各個學科領域的專業人員、用戶納入編制系統中,實現敘詞表編制的協同操作。從編制時間上而言,通過協同編制能加快編制速度,適應網絡時代信息組織與信息檢索的發展;從空間上來講,通過網絡環境下的協同編制,可以實現不同區域內的領域專家異地完成同一知識組織體系的構建。通過敘詞表的協同編制,可以不受時空限制,實現知識組織體系的快速構建[10]。
網絡敘詞表是在網絡環境下建立和使用的,其使用對象面向的是終端用戶,利用Web2.0技術,加強與用戶互動,完成在線討論、修訂和分工管理[11]。在網絡敘詞表構建前期,可以通過在相關的網站上公布固定表單格式,鼓勵用戶提供詞匯,增加詞匯的收錄途徑。網絡敘詞表檢測階段,也可鼓勵終端用戶使用,提供反饋使用效果。詞表建成后,可在網站用戶界面上開設一個專欄,采取互動的方式,廣泛聽取用戶意見,分析用戶對使用詞匯情況的反饋,并記錄用戶推薦的新詞匯和相關詞匯,及時更新詞表,最大限度地滿足用戶使用需求。
采取協同編制的詞表構建模式,吸引眾多社會力量參與,一方面是保障詞表的維護和更新,另一方面用戶參與編制擴大了網絡敘詞表的影響力和社會化應用。
3.4 網絡敘詞表構建標準的確立
每一部網絡敘詞表的構建都是結合開發機構的實際情況、用戶需求以及詞表的使用目的等因素,綜合考慮進行編制,特色鮮明。為了不同學科、專業信息之間的交融,提高詞表間的兼容性和適用性,要求網絡敘詞表在建設初期需要確立和遵循相應的國家標準和國際標準,以利于詞表日后的應用及發展。
目前,構建敘詞表的最新國際標準是ISO25964[12],包括兩部分ISO25964-1——用于信息檢索的敘詞表和ISO25964-2——與其他詞表的互操作,涉及單語種敘詞表和多語種敘詞表構建與維護。此外,美國標準(ANSI/NISOZ39.19-2005)是2005年由美國國家標準協會通過的單語種受控詞表的編制規則。該標準提出了關于受控詞表內容、顯示排列、構建、測試、維護和管理的準則和公約,對互操作、新型知識組織工具等新內容進行了補充。它涵蓋了構建受控語言的所有方面,涉及詞匯選擇、詞匯格式、復合詞的使用、建立和顯示詞匯之間的各種關系的各項規定和準則。此標準還對計算機屏幕格式的敘詞表的瀏覽、導航、顯示等相關問題等給予特殊說明[13]。
此外,2005年萬維網聯盟(W3C)首次發布了專門用于對敘詞表、分類法等知識組織系統進行語義化描述的簡單知識組織系統語言(簡稱SKOS),并于2009年8月將其定為正式標準。SKOS是采用RDFS和OWL建模語言定義的一套詞匯,對詞表的結構、內容和映射關系進行描述,是一種適用于網絡環境下詞表應用的新的表示格式[14]。
4 結語
我國網絡敘詞表研究剛剛起步,在關注和遵守國際標準的基礎上,一定要結合漢語的特點,盡快建立我國網絡敘詞表的構建標準,這不僅有利于敘詞表的良性發展,還利于敘詞表之間的互操作及網絡數據庫的跨庫檢索的實現。在未來,我們應充分利用信息技術,加快我國網絡敘詞表的建設步伐,有效推動敘詞表從圖書館拓展到社會其他領域的信息利用環境中,使之成為信息組織和知識組織的普及工具。
參考文獻:
[1] Taxonomy Warehouse[EB/OL]. [2016-01-05].http://www.taxonomywarehouse.com/default.aspx.
[2] McCulloch,E.Thesauri:practical guidance for construction[J].Library Review,2005(7):403-409.
[3] Nielsen,M.L.A Framework for Work Task Based Thesaurus Design[J].Journal of Documentation,2001(6):774-797.
[4] Glenda,B.Thesaurus Construction Software Part 1 and 2[EB/OL].[2016-01-06].http://www.willpowerinfo.co.uk/thesbibl.htm.
[5] Shiri, A, Revie,C. Usability and user perceptions of a thesaurus-enhanced search interface[J].Journal of Documentation,2005(5):640-656.
[6] 余豐民.國內主題詞表研究脈絡初探[J].情報科學,2014(5):12-17.
[7] 周曉英,曾建勛.主題詞表的社會應用研究[J].數字圖書館論壇,2014(10):2-6.
[8] 張燕飛.信息組織的主題語言[M].武漢:武漢大學出版社,2005.
[9] 王世清,常春.敘詞表編制標準的詞間關系比較研究[J].情報理論與實踐,2010(8):42-46.
[10] 趙捷,曾建勛,吳雯娜.網絡環境下敘詞表協同編制系統的構建[J].圖書情報工作,2011(22):6-10.
[11] 張忠秋.我國分類表與主題詞表發展與近期任務研究[J].圖書館建設,2013(2):16-19.
[12] ISO 25964-1:2011(en)[EB/OL].[2016-05-28].https://www.iso.org/obp/ui/#!iso:std:53657:en.
[13] ANSI/NISO Z39.19-2005. Guidelines for the Construction,Format, and Management of Monolingual ControlledVocabularies[EB/OL].[2016-01-28].http://www.niso.org/apps/group_public/download.php/12591/z39-19-2005r 2010.pdf.
[14] 歐石燕.中文敘詞表的語義化轉換[J].圖書情報工作,2015(16):110-118.
(編校:崔萌)