劉旭 史珂
1. 91033部隊 山東 青島 266000 2. 海軍潛艇學院 山東 青島 266000
由于科研工作者的編寫習慣不一致,導致數據源在不同文件中結構、語義和釋義的不同,從而使整個通信信息的數據出現雜亂、重復、語義不一致等現象,這給通信數據資源的二次利用造成了很大的困擾。面對數據量的大規(guī)模爆發(fā),許多科研機構都在力圖解決數據碎片化所帶來的一系列問題,把這些碎片化的異構數據源進行整合從而達到規(guī)范化、一致性是目前各個機構和科研工作者的首要任務。
隨著互聯(lián)網的使用越來越廣泛,電子文檔的使用頻率變高,其形式也多種多樣。但是,具體到通信信息領域,其電子數據大體分為兩種存儲格式,一種是Word文件,另外一種是Excel文件。針對這兩種文件格式進行標準化,科學地管理現有的異構數據源,是一個亟須解決的實際問題。
通信信息領域Word文檔的格式和組織架構相對來說比較固定,處理這種格式相對較為單一的Word文檔的主要方法需要用到本文接下來所提到的Word語義模型,通過模型的設計可以更加方便地實現格式轉化和數據轉儲。通過分析大量通信信息的Word文檔,設計出一種符合大部分文檔的規(guī)范,預先定義好該Word文檔的語義排版和顯示格式,在之后編輯文本時,只需要直接輸入相應的文本信息,系統(tǒng)自動生成預定義的標準模式,就不再需要進行煩瑣的排版操作。
Word文檔的表示模型在高效規(guī)范的處理其中的數據資源上起到了重要作用,然而這種表示模型,在表示Word文檔中的潛在語義信息和詞間關系方面并不是很擅長。為了使集成數據信息和實現語義化的處理和整合更加方便,我們需要通過定義規(guī)范有效的語義模型來處理Word文檔的數據。通過對大量的通信信息Word文檔樣本進行深入分析,結合有效的語義模型,我們可以得出這種設計的模式有如下兩種好處:
(1)該模式通過轉換之后的結果存儲格式為XML格式,這種格式很容易被其他應用程序二次使用,為數據集成、數據交換和數據共享提供了有利的條件,支持各類以計算為使用基礎的應用。
(2)該模式的格式轉換非常靈活,能最大程度的滿足一種數據格式向另一種數據格式的轉化。
文檔的基本結構和設置,例如頁面布局、快捷鍵制定方案、菜單、宏、字體等都是由模版來決定[1],其實所有的Word文檔的基礎都是模版,我們把共用模版和文檔模版看作模版的兩種基本類型。其中共用模板所包含的設置適用于任何文檔。而另外一種模版,文檔模版的設置僅適用于以該模版為基礎的Word文檔。例如,如果用文檔模版創(chuàng)建一個關于通信信息的Word文檔,該Word文檔能同時使用共用模板的設置。Word文檔提供了很多文檔模版,我們也可以編輯創(chuàng)建數據自己的文檔模型。
我們首先需要自己創(chuàng)建一個模版,才能通過基于模版的方法來轉換Word文檔。第一步,先按照通信信息常見的Word文檔設計模版格式,在數據經常出現變化和需要填充文字信息的地方都插入“域”,其插入方式如下:
(1)單擊要插入域的位置之后,在菜單欄的“插入”功能下,找到“文檔部件”,在彈出的下拉菜單中點擊“域”。
(2)點擊“域”后會自動彈出窗口,共有九個類別,每個類別對應不同的域名,我們可以根據模板的需要進行相應的選擇。
(3)域類型和域名定義好后,根據每個域名不同的特性,再對域屬性根據需求進行相應設置,最后點擊“確定”即可。
通過域的設定,我們可以把字體、位置、顏色等顯示樣式規(guī)范化[2]。域中的數據都是可變的,如果以后用戶自主創(chuàng)建Word文檔,只需更改域中的文字信息即可,不需要再對樣式、排版進行編輯。對于這種建立模版方法,我們在插入每一個域時,都需要輸入相應的提示文本,作為該域的語義信息。
我們通過對通信信息大量Word敘詞文檔的研究與總結設計Word模版,模板中包括{標題}、{撰寫人}、{序號}、{概念}、{釋義}都是域的提示文本,提示文本其實就是語義信息,與關系表中的字段名類似。
使用了通過域定義的語義模版后的Word文檔,如下圖1所示,擁有三個通信信息的概念,其中概念用加粗字體表示,對應釋義用普通字體表示,概念與釋義之間用空格銜接。

圖1 使用模板后的通信信息Word文檔
通過分析現有通信信息Excel文檔,其中不僅有概念,還有概念與概念之間的關系,其基本關系如下圖2所示,通過分析,前一列與后一列之間的關系可以分為三種,分別為層級關系、相關關系、等同關系。這是一種規(guī)范的結構,其信息存放在單件中,其排列方式可以是多種多樣的,關系類型是簡單的數據值,可以方便地添加新的關系類型。

圖2 Excel概念間基本關
為方便后續(xù)數據加工處理,在Excel文檔中概念與概念關系的規(guī)范勢在必行。根據通信信息文檔的分析,以層級關系居多,因此需要將相關關系與等同關系都規(guī)范為層級關系。
(1)相關關系的規(guī)范
相關關系,體現的是一種相互依存的關系,如“有線通信——對稱電纜——雙絞線”,其中有線通信和對稱電纜為層級關系,對稱電纜和雙絞線為相關關系,此種情況,保留相關關系的上一層關系,即“有線通信——對稱電纜”,將相關關系“對稱電纜——雙絞線”轉換至通信信息Word模板中,即對稱電纜:雙絞線,體現為概念與釋義的關系。
(2)等同關系的規(guī)范
等同關系,即二者體現的是一個概念,如“按消息傳遞方向——半雙工通信——雙向交替通信”,其中按消息傳遞方向和半雙工通信為層級關系,半雙工通信和雙向交替通信為等同關系,此種情況,保留等同關系的上一層關系,即“按消息傳遞方向——半雙工通信”,將同等關系的下一層提到上一層的括號中,即半雙工通信(雙向交替通信),體現為概念與備注的關系。
且為了后續(xù)數據映射處理方便,層級關系的每一列均不使用合并單元格的操作,標準化后的Excel文檔,如下圖3所示。
本文設計的Word和Excel標準化文檔,客觀真實地反映通信信息領域的知識結構框架,提高專業(yè)領域信息管理的效率,但標準化僅僅是第一步,后續(xù)還需要更為智能的管理系統(tǒng)科學高效地管理通信數據,實現通信文獻和研究成果的資源共享和跨地域管理,全方位多角度地展現數據。