999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用信息組織技術編制書刊索引探析

2015-09-08 07:50:40孫輝
現代情報 2015年1期

孫輝

[摘要]本文分析傳統書刊索引的知識揭示和定位功能,指出利用信息組織技術編制書刊索引可提高索引的質量和效率,保證叢書索引的一致性,并為復合出版的知識服務打下基礎?;谏鲜鏊悸?,本文通過原型系統對中華人民共和國史領域的叢書索引進行實踐。

[關鍵詞]書刊索引;信息組織技術;主題詞表

DOI:10.3969/i.issn.1008-0821.2015.01.018

[中圖分類號]G254.92 [文獻標識碼]A [文章編號]1008-0821(2015)01-0096-04

索引是知識組織的工具。通過索引可以有系統地揭示各類文獻的內容,將分散記載于大量文獻中的知識初步地組織起來,以方便檢索。過去,由于我國學術規范和評價體系不完善,圖書期刊的索引編制不被重視。2012年新聞出版總署提出“按照國家最高學術出版的標準,探討建立一套科學、完善、規范的學術出版評價體系。我們將在中國出版政府獎、國家出版基金和“三個一百”原創出版工程的評審標準中增加一條:凡是索引、注釋不規范的圖書一律取消評審資格?!北疚幕趪覙藴省端饕幹埔巹t(總則)》(GB/T22466-2008),結合信息組織技術,就計算機輔助書刊索引編制進行研究和實踐,主要探析以下幾個問題:(1)索引的本質是什么?信息時代,全文檢索和數據庫能否代替書刊索引,書刊索引是否有必要存在;(2)信息組織技術是如何支撐書刊索引編制的;(3)實現書刊索引編制需要解決的實際問題有哪些以及如何實現?;谏鲜鎏轿?,本文設計索引原型系統,系統包含“主題詞表模塊”“文本標注模塊”“索引整理輸出模塊”,實現《中華人民共和國史編年》清樣的索引編制。

1.書刊索引的知識揭示和定位功能

書刊索引,一般指文后索引,是對某一部文獻的內容作標引,并附在該書末尾的文獻內容索引。其功能主要是簡便查詢過程,加快定位知識單元所在的文獻或文獻中的位置,其過程是對文獻進行知識層次的解構和重構,方便用戶將某一知識單元的文獻或文獻片段聚合在一起。在信息技術高度發達的今天,數字出版的技術和形式層出不窮,傳統書刊出版不斷受到挑戰。書刊索引作為一項繁瑣的勞動更加被忽視,人們認為,既然能夠實現全文檢索,何必需要文獻內容索引。其實,傳統索引的原理是建立全文檢索和數據庫檢索的基礎。在全文檢索系統中,索引是不可缺少的部件,其過程一般是:通過分詞詞典對全部文本進行切分,對切分后的詞語建立索引(或建立單字索引),其索引結構為“索引詞+位置序列”——類似印刷版的書后索引,此處“位置”表示為該詞匯在文獻中的字符串位置,而書后索引的“位置”表示該詞語所在的“頁碼”。另外,索引也是所有數據庫系統不可或缺的部件,其索引結構也為“索引詞+位置序列”,此處的“位置”是指數據庫中的記錄號。離開索引技術,數據庫系統是不能實現高效檢索的。因此,與全文檢索不同的,書刊索引中的索引標目(索引項)是經過專業人士精心挑選出來,全文檢索中“索引標目”指文本中的所有詞匯,是“大數據”,此處的“大數據”不能提供關鍵信息,無法主動推送文獻主題信息,用戶只能通過不斷檢索來嘗試定位重要知識單元。

復合出版更加強調“內容與內容之間的關聯”,突出出版的知識服務功能,索引作為知識單元的組合引擎,在包括傳統出版在內的所有出版形式中都是不可或缺的要素,現有的傳統書刊出版中的索引可以為該作品的復合出版提供知識服務入口,已經出版的書刊索引可以為復合出版中建立統一的學科知識組織標準提供知識積累。此外,盡管數字出版模式出現多樣化趨勢,學術類書刊因其閱讀深度,暫時不能告別傳統出版,書刊索引作為知識揭示的關鍵手段,有著不可替代的重要作用。

2.信息組織技術與書刊索引編制

機編索引軟件利用信息技術輔助書刊索引生成。孫琳對國內外索引軟件尤其是國內索引之星軟件和Word索引功能進行對比,認為當前的索引軟件存在不足并對新的索引軟件提出如下期望:支持多種類型的索引,支持多種文本類型,排序的多樣性和準確性,自動編配參照系統以及實現概念標引等。本文認為,上述軟件最大的缺點是不能重復利用已經出版的書刊索引的成果,對于同一套叢書,可能存在前后索引選詞考量不統一的問題。已經出版的書刊索引是對文獻的知識揭示,包含了索引工作者的智慧和汗水,如果僅僅作為一次性成果,難免可惜,也不利于叢書的統一性和完整性。信息組織即信息的有序化與優質化,也就是利用一定的科學規則和方法,通過對信息外在特征和內容特征的表征和排序,實現無序信息流向有序信息流的轉換,從而使信息集合達到科學組合實現有效流通,促進用戶對信息的有效獲取和利用。書刊索引是印刷時代的一種信息組織方式,手工編制的書刊索引,在索引項選擇、參照設定、頁面摘錄和合并等方面存在隨意性和一定的差錯率。利用信息組織技術中的主題詞表技術和數據庫技術可以提高書刊索引編制的質量和效率,并保證叢書索引的一致性和完整性,具體分析如下。

2.1基于概念組織索引款目

在書刊索引中,要求意義相同的標目統一合并為一個統一標目,統一標目盡量選用規范表達的詞語,其他同義詞雖然可以作為標目,但其后不包括頁碼,通過“見”項指向統一標目;在有緊密內在聯系的標目之間,如果存在等級關系,可通過設立副標目、次副標目的方式來體現這種關系,如果存在其他關聯關系,可通過參照標目“參見”其所關聯的標目。在信息組織技術中,主題詞表是規范的信息描述語言,它主要反映了兩方面的關系,一是同一概念的規范語言與自然語言的關系,即主題詞與入口詞的關系;二是不同概念之間的屬種關系和參照關系。可以看出,主題詞表與書刊索引在概念的組織和表達方面具有一致性(見表1)。

學科主題詞表包含了本學科重要術語,使用主題詞表中的詞匯標引書刊,可獲得索引初稿;人工根據書刊索引初稿進行標目補充,再將補充的標目詞匯增加到主題詞表中以供后續標引。通過這種迭代方式豐富的主題詞表,可繼續用于同類學科書刊的索引編制,體現了學術用語的規范性,也有利于同一套叢書索引的統一性和完整性。此外主題詞表可作為索引款目關系的標準,有助于構造索引款目的參照關系和排序等。endprint

2.2通過文本標注定位索引位置

文本標注用于定位詞語在文獻中位置,使用的是中文分詞技術,一般采用的基于切分詞表的詞語切分方法,切分詞表包含上述主題詞表中所有的主題詞和入口詞。文本標注時采用的類似XML的語言,可轉換成排版標記語占,便于在校樣中突出顯示,方便索引校對;由于索引標記是嵌入在小樣文件中的,索引頁碼也由排版軟件即時生成。這種手段改變了傳統索引流程。傳統索引流程中,為了保證頁碼的確定性,索引工作是在書刊的最后一個校次的校樣上進行的,索引本身因校對次數少而不能保證質量,整個出版進程也不可控。通過文本標注定位索引的方法支持用戶從初稿開始進行索引工作,用戶在排版周期的任何校次上都可以核對和修改索引項,編輯可以在出版初期獲得索引初稿,便于計算索引密度,把握索引篇幅,這樣既保證了索引的高質量和完整性,也保證了出版進度和出版成本的可控性。

2.3基于數據庫自動生成索引

通過文本標注獲得索引標目的位置信息,還需要進行款目合并、款目等級定位、款目參照(“見”“參見”)關聯、頁碼合并、款目排序等過程才能生成索引。由于主題詞表本身是以數據庫形式存儲,文本標注后的索引標目與位置關系也以數據庫形式存儲,將兩表進行對照,根據主題詞表的概念關系調整索引表中的記錄,將同一款目的頁碼合并到一個記錄中,如果存在同義關系,只在主題詞款目下呈列頁碼,入口詞款目后跟“見”項,指向主題詞;如果存在等級關系,則輸出時,按副標目處理;對于連續頁碼,通過排序算法進行合并;最后利用數據庫技術對索引款目進行排序。這樣生成的索引基本符合出版需求。

4.討論

4.1主題詞表的知識來源

利用信息組織技術編制書刊索引,無論是文本標注模塊還是索引整理輸出模塊都要用到主題詞表,可以說,主題詞表是該系統的核心部件。主題詞表的知識是不斷迭代生成的,最初的知識來源于學科主題詞表、工具書,在實際文本標注后,用戶會發現新索引項。這些新的索引項被添加到主題詞表中并建立相關關聯關系,等一校樣完成后,索引款目基本定型,可以隨時輸出索引。由于中華人民共和國史領域本身沒有主題詞表,本文通過人物名錄、職官志、百科辭典等工具書以及4卷本的《中華人民共和國史編年》校對,共獲得收集人名概念3063個,涉及3158人物名稱;收集地名概念1610個,涉及2188個地點;國家機構2396個,涉及3898個機構名稱。

4.2索引編制與排版軟件的關系

書刊索引的編制軟件是寄生在出版軟件之上的,一是借助排版軟件即時生成索引;二是借助排版軟件在校樣中凸顯索引項,便于在任何校次的校樣中檢查索引項。因此基于主題詞表索引編制應該成為排版軟件的一個功能,而不應該另起爐灶。本文當前是對方正小樣文件進行處理,再通過方正排版預覽效果。經多次試驗,索引項采用下劃線或著重符時,對版式影響比較小,但還是有個別地方影響版式,期待排版軟件公司能關注這方面需求,在設計時兼容此類功能。

4.3索引編制是人機結合的工作

索引編制是人機結合的工作。本系統支持抽詞標引,對于賦詞標引,需人工進行。賦詞標引后的索引項應該加入到主題詞表中,供后續的索引整理輸出。此外,在文本標注模塊,由于機器的智能有限,單純的文本標注容易出現的切分錯誤、漏標和歧義標注。切分錯誤舉例如下:對“交通運輸部門”標注出“交通運輸部”;對“大興調查之風”標注出地名“大興”,對“我們曾三次建議談判解決”一詞標注出“曾三”人名。漏標漏標的原因有二,一是詞表收詞不全;二是部分概念無法通過抽詞匹配。另外,文本中的自然語言有一定隨意性,不是用固定的字符表示,造成無法機器匹配。例如“交通、公安兩部”“我委、部同意人民、文學、美術、世界知識、中國青年、中國少年兒童、音樂、體育、商務和上海的人民、文藝、美術、少年兒童等13個出版社與兄弟國家相近性質的出版社”,此處機構都是以不完整的詞匯出現,無法直接抽詞標注。由于機器標注暫不考慮語法分析,故出現歧義標注。例如“鄧小平同新西蘭共產黨代表團團長、中央政治局委員麥卡拉會談”,此處的“中央政治局”如抽出,在文后索引中會與“中共中央政治局”頁碼匯合。另外,在主題詞表構建過程中,概念之間的等級關系和同義關系也需要領域專家的審定。這些問題都說明,機器是索引編制的輔助工具,人工參與是不可缺少的環節。endprint

主站蜘蛛池模板: 91在线高清视频| 欧美区在线播放| 日本久久免费| 国产欧美中文字幕| 国产91特黄特色A级毛片| 国产剧情一区二区| 色婷婷久久| 久久91精品牛牛| 黑色丝袜高跟国产在线91| 在线观看免费人成视频色快速| 国产丝袜无码一区二区视频| а∨天堂一区中文字幕| 国产打屁股免费区网站| 99国产精品一区二区| 国产欧美性爱网| 国产丰满大乳无码免费播放| 亚洲 欧美 偷自乱 图片| 永久免费无码成人网站| 女人爽到高潮免费视频大全| 麻豆国产在线观看一区二区| 国产一区二区影院| 国产欧美日韩综合一区在线播放| 天堂网国产| 国产成人亚洲精品色欲AV | 激情在线网| www亚洲天堂| 欧美亚洲一区二区三区在线| 日本成人一区| 欧美精品亚洲精品日韩专区| 亚洲不卡av中文在线| 波多野结衣国产精品| 久久久91人妻无码精品蜜桃HD| 欧美成人aⅴ| 国产成人禁片在线观看| 日韩在线观看网站| 一级毛片在线播放免费| 在线综合亚洲欧美网站| 中文字幕乱码二三区免费| 婷婷久久综合九色综合88| 被公侵犯人妻少妇一区二区三区| 久久性妇女精品免费| 亚洲国产清纯| 欧美无遮挡国产欧美另类| 精品国产中文一级毛片在线看| 国产一级视频在线观看网站| 天堂va亚洲va欧美va国产| 国内精品视频在线| 欧美日韩另类在线| 九九热在线视频| 欧美亚洲中文精品三区| 极品国产一区二区三区| 中国精品久久| 国产人免费人成免费视频| 国产精品成| 国产激爽大片在线播放| 日韩黄色精品| 国产精品欧美激情| 欧美专区日韩专区| 亚洲国产精品不卡在线| 韩国自拍偷自拍亚洲精品| 日本高清视频在线www色| 午夜福利免费视频| 天堂网国产| 亚洲视频免费在线看| 国产成年女人特黄特色大片免费| 91久久夜色精品国产网站| 99热在线只有精品| 免费一级无码在线网站| 97se亚洲综合不卡| 久久福利片| 亚洲成年网站在线观看| 在线观看91精品国产剧情免费| 91 九色视频丝袜| 国产精品久久久久久久久kt| 日韩欧美中文字幕在线韩免费| h网站在线播放| 欧美精品xx| 69精品在线观看| 亚洲三级色| 亚洲大尺码专区影院| 一本无码在线观看| 三级视频中文字幕|