耿慶齋 王冠華 張偉兵 林 林
(1.中國水利水電科學研究院,北京 100038;2.北京中水科信息技術有限公司,北京 100038)
隨著現(xiàn)代信息技術的發(fā)展,越來愈多的企(事)業(yè)單位認識到信息化應用水平的高低是增強企(事)業(yè)競爭力的重要因素之一。在信息化建設中,信息資源的開發(fā)和利用是信息化建設的核心內容,要充分將這些信息資源利用起來,就必須開展信息分類編碼的標準化研究工作。信息分類編碼的研究如果僅限于某個領域,就會出現(xiàn)“信息孤島”的現(xiàn)象,因此,需要進行全局考慮,建立統(tǒng)一的面向共享的信息分類編碼體系,才能將孤立、分散的各類信息資源變成網絡化共享的信息資源,將眾多“孤島式”的信息系統(tǒng)進行整合,實現(xiàn)信息共享和交換[1]。
信息分類編碼是信息存儲、處理、交換及共享的基礎[2],是建立各種信息管理系統(tǒng)的重要技術基礎和前提。信息分類編碼標準化可以實現(xiàn)名稱、術語以及編碼的一體化和規(guī)范化,對信息系統(tǒng)和數據庫的建立起指導作用。本文以中國水利水電科學研究院(簡稱“水科院”)為例研究科研單位的信息分類編碼體系,水科院具有大量的信息資源,信息分類編碼的標準化可以統(tǒng)一協(xié)調水科院各部門信息資源的采集和加工處理,使其既符合水科院信息管理系統(tǒng)的整體要求,又滿足水科院各部門的業(yè)務需要,同時,還可以減少信息資源的重復采集、加工、整理和存儲,最大限度地消除因分類和編碼不一致造成的信息資源命名、描述時的誤解和分歧,避免出現(xiàn)諸如一物多名、一名多物或者同一信息內容具有不同分類編碼等混亂現(xiàn)象。為了科學管理和合理使用水科院的信息資源,實現(xiàn)對信息資源的有效管理、查詢、共享和使用,需要建立面向共享的信息資源分類編碼體系。
信息分類編碼是對信息進行科學、系統(tǒng)的分類并對分類結果賦予特定代碼的過程,信息分類編碼結構設計的好壞,將直接影響各信息系統(tǒng)間信息共享和交換的質量和效率[3],因此,要確保信息分類編碼結構適用于不同的信息系統(tǒng),必須研制統(tǒng)一的信息分類編碼體系。
發(fā)達國家非常重視信息分類編碼工作,美國從1945年起就開始開展信息分類編碼的標準化研究工作,陸續(xù)研制了一系列分類編碼標準[4]。我國信息分類編碼的研究工作始于20世紀70年代末,30多年來,我國標準化研究工作者從理論研究、應用實踐等諸多方面開展了一系列研究和探索,一批批信息分類編碼的譯著、資料和標準文本相繼問世。《信息分類編碼通用文件格式》是我國最早信息分類編碼技術的基礎規(guī)范,它首次提出了信息分類編碼標準化的概念、特點、作用、信息分類編碼的原則和方法,以及信息分類編碼標準體系及設計應用[5]。水利行業(yè)在信息分類編碼領域也進行了大量研究工作,制定了一系列與分類編碼相關的行業(yè)標準,如:《水利工程基礎信息代碼編制規(guī)定》(SL213-98)、《水文數據 GIS分類編碼標準》(SL385-2007)、《土壤侵蝕分類分級標準》(SL190-96)、《中國河流名稱代碼》(SL249-2012)等等[6]。
水科院信息資源涉及的內容非常復雜,主要包括:與科學研究相關的科研合同和科研成果,與對外交流事務相關的國際交流和國際會議,與園區(qū)基礎設施建設相關的基礎地理信息,以及在業(yè)務工作中產生和生成的信息資源等。經過十幾年的信息化建設,水科院完成了信息化基礎設施建設,制定了信息化工作發(fā)展的整體規(guī)劃,先后建成了公文管理系統(tǒng)、財務管理信息系統(tǒng)、科研管理系統(tǒng)和新聞管理系統(tǒng)。隨著水科院信息化工作的不斷推進,如何實現(xiàn)各信息系統(tǒng)之間信息共享和交換是亟需考慮的問題。
水科院于 2004年編制了首部信息分類編碼標準《信息系統(tǒng)編碼》(Q/IWHR 1~10-2004),完成了區(qū)域編碼、部門編碼、人員編碼、合同編碼、課題編碼、成果編碼、證書編碼、行文編碼、房屋編碼、基建工程管線及附屬設施編碼等 10項編碼標準[7,8],該編碼基本涵蓋了院內各業(yè)務范圍,為水科院信息系統(tǒng)建設和信息共享提供了技術保障。但是,經過近十年的發(fā)展,該編碼已不能適應水科院信息化發(fā)展的要求,部分編碼之間出現(xiàn)了不統(tǒng)一現(xiàn)象,有些新增信息也需要重新編碼。本文在已有信息分類編碼標準的基礎上,通過調查研究,結合水科院信息化發(fā)展現(xiàn)狀,進一步完善院信息分類體系和編碼結構。
信息分類是依據信息內容(或信息對象)的特征或屬性,將信息(或信息對象)按照特定的原則和方法進行區(qū)分和歸類,建立一套完整的信息分類體系,便于信息資源的管理和使用[9]。信息分類應遵循以下幾項基本原則[10]。
(1)科學性:盡量以能夠表征分類對象最穩(wěn)定的特征或本質屬性作為分類的基礎和依據,確保信息分類能夠科學地描述或反映各類信息的特征。
(2)系統(tǒng)性:將選定的信息對象的特征或屬性按照特定的規(guī)則順序實現(xiàn)系統(tǒng)化,形成合理的科學分類體系,使每一個數據在分類體系中有一個確定的位置。
(3)可擴展性:信息分類體系中要留出一些適當的空位,以便在增加新數據時,能在原有系統(tǒng)基礎上進行擴展,而不至于打亂已建立的分類體系。
(4)實用性:信息分類要充分考慮可操作性,既要滿足系統(tǒng)內部和相關單位的實際需要,又能滿足用戶對信息共享的需求。
信息分類的基本方法最常用的有線分類法、面分類法和混合分類法。
線分類法又稱為層次分類法[11],是依據分類對象的某些特征或屬性劃分類目,逐級進行類目細化,逐次展開各分類段,形成有層次的樹狀結構的分類體系。它將分類對象按照層次逐級劃分、展開,各類目之間構成并列或隸屬關系。在分類體系中,一個類目相對于由它直接劃分出來的下一級的類目稱為“上位類”,也叫母項,由上位類直接劃分出來的下一層級的類目稱為“下位類”,也叫子項,屬于同一個上位類的各類目之間稱為“同位類”。上位類和下位類之間具有從屬關系,即下位類從屬于上位類,同位類類目之間為并列關系,既不交叉也不重復。目前,采用線分類法的標準有:GB/T 18317-2001《專題地圖信息分類與代碼》、GB/T 13923-2006《基礎地理信息要素分類與代碼》和GB/T 13745-2008《學科分類與代碼》。
面分類法是依據分類對象固有的各種特征或屬性,分成相互獨立的面,每個面中都包含一組類目,類目之間沒有從屬關系,將不同面中的各類目并置起來進行組合,形成一個新的復合類目。面分類法的基本原則是選擇分類對象本質的特征或屬性作為各個“面”;同一“面”應采用相同的分類依據;不同“面”內的類目不相互交叉,也不能重復出現(xiàn)。在已頒布的標準中使用面分類法的不多,《干部職務名稱代碼》(GB 12403-90)采用的就是面分類法。
混合分類法是指將線分類法和面分類法組合使用,以其中一種分類法為主,另一種作為補充的信息分類方法。混合分類法在已有的分類目錄經常使用,如葉冬芬等[12]研究的刀具資源分類和王慧等[13]研究的新疆兵團農業(yè)資源信息分類都采用的是混合分類法。
根據上述分類原則,結合水科院信息資源現(xiàn)狀,選用線分類法,制定了水科院信息分類體系,分類體系分為5大類,各大類下設共17個類目,并可根據需要進行擴展,各類目又可進行細分(圖1)。各類信息的具體特征如下。
基礎信息是指與水科院相關的基礎信息,如區(qū)域、部門和人員等信息。
公文信息是指機關團體、企事業(yè)單位等依法成立的社會組織,用來辦理公務,有一定格式的應用文檔,如發(fā)文、公函、會議紀要、收文、請示(報告)等。
科研信息是指科研管理和科研活動中產生的信息資源,如項目合同、外協(xié)合同、課題和科研成果等。
外事信息是指國際合作與交流、國際合作項目管理以及國際學術交流等信息,如國際交流和出國團組等。
地理信息是指與園區(qū)資源、環(huán)境相關的基礎地理信息,如建筑物、房屋、管線(道)等。

圖1 中國水利水電科學研究院信息分類體系
信息分類編碼為滿足對信息對象進行標識的作用,應遵循以下原則[14,15]。
(1)唯一性:每一個編碼對象只能有一個編碼,一個代碼也僅表示唯一的編碼對象。
(2)合理性:編碼結構要與分類體系相適應。
(3)可擴展性:必須使用同類編碼不斷擴充的需求,以便增加新編碼對象時不至于打亂原有的體系結構,同時有足夠的擴展容量。
(4)兼容性:與有關標準(包括國際標準、國家標準、行業(yè)標準)協(xié)調一致。
(5)高效性:編碼結構應盡可能簡單,即節(jié)省存儲空間,又易于計算機高效處理。
(6)適用性:編碼應盡可能反映編碼對象的特點,有助于記憶,便于編制。
水科院信息分類編碼設計的過程分3個步驟:
(1)依據需求分析確定調研對象,對調研對象現(xiàn)有的信息分類、編碼情況,以及相關信息資源等進行深入調研,并根據調研結果確定編碼對象。
(2)根據編碼對象自身具有的特征、屬性以及編碼對象所表達的含義確定編碼依據。
(3)結合相關標準,根據編碼的有效范圍和容量,確定具體的編碼方法和結構。
在具體實施過程中,要對已有信息編碼進行梳理、遴選、優(yōu)化和統(tǒng)一,對已有信息編碼的不足不能一概否決,需要進行合理的處理,如:對暫時無需進行信息共享和交換的編碼可以保留不變,而對需涉及信息共享和交換的編碼制定相應的規(guī)則對其進行轉換,以實現(xiàn)編碼的統(tǒng)一。只有這樣,信息分類編碼的實施才能行之有效,又不會影響現(xiàn)有業(yè)務系統(tǒng)的正常運行。
分類編碼主要分為數字型、字母型和混合型 3種類型。數字型代碼是我國使用最廣泛的一種編碼方式,其優(yōu)點結構簡單,使用方便,缺點是不利于對編碼對象特征進行描述;字母型代碼可使用 26個英文字母,其優(yōu)點是字母碼的代碼容量大,并且可以提供人們便于識別的信息,缺點是不利于計算機處理。混合型編碼兼有數字碼和字母碼的優(yōu)點,結構嚴密,具有良好的直觀性,缺點是計算機輸入不便,容易出錯。綜合考慮3種分類編碼的優(yōu)缺點,水科院信息編碼選用混合型編碼方式。
編碼結構中一般含有兩類代碼:有含義代碼和無含義代碼。有含義代碼是指代碼本身具有某種實際含義,不僅作為編碼對象的唯一標識,還能提供編碼對象的有關信息(如排序、邏輯意義等)。無含義代碼是指代碼本身無實際含義,代碼只作為編碼對象的唯一標識,起替代編碼對象名稱的作用,而不能提供編碼對象的其他任何有關信息。
好的編碼結構應具有兩個優(yōu)點:(1)編碼是實體明確的、唯一的標識。(2)可以提高計算機的處理效率[16]。
基于上述編碼原則和方法,水科院信息分類體系中的每類信息制定了編碼結構,由于篇幅所限,這里舉兩個例子進行說明。
一是項目合同編碼,其結構如下:

按照此編碼結構即可對承擔的項目合同進行編碼,如“WR0121A022011”表示水資源研究所2011年立項的第2個“十二五”國家科技支撐項目。
二是科技成果編碼,其結構如下:

按照此編碼結構即可用于水科院科技成果進行編碼,如“WE2012011”表示水環(huán)境研究所 2012年完成的第11個科技成果。
信息分類與編碼是信息化建設的基礎性工作,是實現(xiàn)信息表達、交換與共享以及信息系統(tǒng)集成的前提和基礎,而信息分類與編碼工作又是一項紛繁的工作,涉及水科院的多個部門,在編制過程中,既要考慮各業(yè)務部門的差異性,又要充分發(fā)揮各業(yè)務部門的優(yōu)勢,制定一套具有實效性的信息分類編碼體系。信息編碼不僅便于數據的存儲和檢索,還可節(jié)省存儲單元和節(jié)省時間。信息編碼后,信息資源的排序、合并、累計、統(tǒng)計分析等許多工作實現(xiàn)起來更便利,既簡化了程序,又提高了處理效率。
本文提出的水科院信息分類編碼體系尚處在探索階段,每種分類下具體的內容還有待進一步細化,在今后的工作還需不斷完善。
[1]古發(fā)輝,李雯,賴路燕.面向信息共享的信息分類編碼標準體系與實施過程研究[J].情報雜志,2008,(4):25-28.
[2]張茂震,宋鐵英,唐小明,等.森林資源信息分類編碼方法[J].福建林業(yè)學院學報,2005,25(2):147-152.
[3]古發(fā)輝.面向信息共享的信息分類編碼及其管理系統(tǒng)的研究[D].江西理工大學碩士論文,2008.
[4]耿慶齋,張行南,朱星明.基于多維組合的水利科學數據分類體系及編碼結構[J].河海大學學報(自然科學版),2009,37(3):346-250.
[5]李偉.信息分類編碼研究初探.圖書情報工作,2008,(2):286-288.
[6]朱星明,耿慶齋.略論水利技術標準中信息共享類標準存在之問題[J].水利技術監(jiān)督,2006,14(3):6-9; 16.
[7]Q/IWHR 1~10-2004,信息系統(tǒng)編碼[S].
[8]于愛華.淺談科研單位信息系統(tǒng)編碼標準建設[J].水利技術監(jiān)督,2004,12(6):12-14.
[9]孫香云,劉增進,鄭朔昉.信息分類與編碼及其標準化[M].北京:機械工業(yè)出版社,2012.
[10]牛振國,符海芳,崔偉宏.面向多層用戶的農業(yè)信息資源分類初步研究[J].資源科學,2003,25(2):20-25.
[11]曾慶森,張紅,田偉.包裝行業(yè)企業(yè)信息分類與編碼問題的研究[J].包裝工程,2000.21(2):37-39.
[12]葉冬芬,周建強,韓雙霞.基于刀具全壽命周期管理的信息編碼研究[J].機械制造,2009,47(12):5-8.
[13]王慧,呂新.新疆兵團農業(yè)資源信息化體系框架構建初探[J].石河子大學學報(自然科學版),2011.(5):546-550.
[14]袁長煒,古發(fā)輝.淺談信息分類與編碼的實施[J].科技廣場,2010,(5):248-251.
[15]肖修劍,王家順,王田苗,等.信息編碼與面向對象的信息編碼模型研究[J].微計算機信息,2003,19(6):79-80.
[16]程貴秀,葉延科.企業(yè)信息分類與編碼問題的研究[J].電腦開發(fā)與應用,2003,16(5):10-12.