萬(wàn)峰
【摘要】在交通行業(yè)領(lǐng)域存在著很多的執(zhí)行標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)基本上都是以word這種半結(jié)構(gòu)化的數(shù)據(jù)而存在的。為了進(jìn)行標(biāo)準(zhǔn)的快速檢索和一致性檢測(cè),就需要自動(dòng)化的提取word標(biāo)準(zhǔn)為結(jié)構(gòu)化信息并存入數(shù)據(jù)庫(kù),以便于后續(xù)知識(shí)數(shù)據(jù)元的提取進(jìn)而進(jìn)行標(biāo)準(zhǔn)比對(duì),得到檢測(cè)報(bào)告。本文采用Jacob技術(shù)操作word文檔,抽取word為結(jié)構(gòu)化信息并存入Mysql數(shù)據(jù)庫(kù)。
【關(guān)鍵詞】半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)抽取,Jacob,數(shù)據(jù)存儲(chǔ),Mysql
【中圖分類號(hào)】TP311.13 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1672-5158(2013)04-0161-02
引言
我們知道交通系統(tǒng)是一個(gè)涉及面非常廣,領(lǐng)域非常多的龐雜的信息系統(tǒng)。對(duì)于這樣一個(gè)系統(tǒng)要進(jìn)行正確而又權(quán)威性的管理,建立相應(yīng)各個(gè)方面的執(zhí)行標(biāo)準(zhǔn)進(jìn)而為我們的交通管理提供一個(gè)執(zhí)行標(biāo)準(zhǔn)是一個(gè)項(xiàng)非常必要的工作。交通部作為全國(guó)的交通管理部門就成立了相應(yīng)的標(biāo)準(zhǔn)管理委員會(huì),并委托各個(gè)標(biāo)準(zhǔn)制定委員會(huì)去制定相應(yīng)領(lǐng)域的標(biāo)準(zhǔn)以供執(zhí)行。因?yàn)榻煌▎栴}涉及的領(lǐng)域?qū)嵲谑翘珡?fù)雜了,不僅面廣,而且還存在著不同領(lǐng)域的交界信息,甚至同一領(lǐng)域內(nèi)也存在很多模糊難以界定的問題。每一個(gè)標(biāo)準(zhǔn)制定委員會(huì)制定出很多的標(biāo)準(zhǔn),而且各個(gè)標(biāo)準(zhǔn)的制定單位還不一樣,所以就出現(xiàn)了標(biāo)準(zhǔn)之間存在重復(fù)性規(guī)定,不一致性規(guī)定的問題。
標(biāo)準(zhǔn)的制定都遵從的是一個(gè)統(tǒng)一的總章規(guī)則,又是以word這種半結(jié)構(gòu)化的數(shù)據(jù)存在的。所以我想做的就是把word文檔信息提取為結(jié)構(gòu)化的信息并存儲(chǔ)到結(jié)構(gòu)化數(shù)據(jù)庫(kù)當(dāng)中。那么我們就可以通過比較自動(dòng)的進(jìn)行標(biāo)準(zhǔn)的沖突性檢測(cè)了,檢測(cè)出存在沖突性的標(biāo)準(zhǔn)并給出沖突檢測(cè)報(bào)告。這樣就可以給我們的標(biāo)準(zhǔn)檢索和為標(biāo)準(zhǔn)制定者的制定工作提供非常有意義的輔助工作。
1、提取技術(shù)
涉及到word格式內(nèi)容的抽取。目前,用iava實(shí)現(xiàn)對(duì)word內(nèi)容進(jìn)行抽取的工具一般有兩種:Jacob和Apache的Poi。
因?yàn)橐褀ord的內(nèi)容抽取為格式化的信息并存入到數(shù)據(jù)庫(kù)中,所以首先要能夠抽取去整篇word文檔的結(jié)構(gòu)化信息及標(biāo)題結(jié)構(gòu)存人數(shù)據(jù)庫(kù),再抽取相應(yīng)的文本信息到對(duì)應(yīng)數(shù)據(jù)庫(kù)表中。Poi是Apache的一個(gè)項(xiàng)目,但是目前只能操作簡(jiǎn)單的word文檔,復(fù)雜的、帶表格的都不行,不過,相信Apache對(duì)Poi的不斷完善,效果會(huì)有改觀。Poi是用純Java實(shí)現(xiàn)的。
Jacob是Java和Com的連接橋,連接Java和Com或者win32函數(shù)的一個(gè)中間件。Microsoft Word以一種專用格式存儲(chǔ)其文檔,它通過“組件對(duì)象模型(COM)”對(duì)象顯示其某些特征。Jacob允許任何JVM訪問COM對(duì)象,從而使Java應(yīng)用程序能夠利用COM對(duì)象。所以我才用了Jacob的工具來實(shí)現(xiàn)對(duì)word文檔的信息抽取。
2、系統(tǒng)設(shè)計(jì)
通過對(duì)一篇word文檔的研究可以發(fā)現(xiàn),每篇word文檔都是以一種統(tǒng)一的格式出現(xiàn)的。即為大標(biāo)題,一級(jí)標(biāo)題,二級(jí)標(biāo)題,三級(jí)標(biāo)題這樣的標(biāo)題結(jié)構(gòu)出現(xiàn)的,在最低級(jí)標(biāo)題的下面都有相應(yīng)的段落文本內(nèi)容描述信息。所以我們也可以把word文檔看作是一種結(jié)構(gòu)化的信息存人進(jìn)數(shù)據(jù)庫(kù)中。我的做法就是先把word文檔的標(biāo)題結(jié)構(gòu)抽取出來存入進(jìn)數(shù)據(jù)庫(kù)。再把文本信息當(dāng)作整個(gè)字符串存入到相應(yīng)的表結(jié)構(gòu)中。拿一個(gè)word標(biāo)準(zhǔn)以作示例:
道路、水路貨物運(yùn)輸?shù)乩硇畔⒒A(chǔ)數(shù)據(jù)元
1、范圍
本標(biāo)準(zhǔn)規(guī)定了道路、水路貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元的基本概念、類目分組和表示,并給出了詳細(xì)的數(shù)據(jù)元目錄。
2、規(guī)范性引用文件
下列文件中的條款通過本標(biāo)準(zhǔn)的引用而成為本標(biāo)準(zhǔn)的條款。凡是注日期的引用文件,其隨后所有的修改單或修訂版均不適用于本標(biāo)準(zhǔn),然而,鼓勵(lì)根據(jù)本標(biāo)準(zhǔn)達(dá)成協(xié)議的各方研究是否可使用這些文件的最新版本。
3、術(shù)語(yǔ)和定義
3.1 地理信息系統(tǒng)
geographic information system(GIS)
采集、存儲(chǔ)、檢查、操作、分析和顯示地理數(shù)據(jù)的系統(tǒng)。
4、總則
4.1 概述
貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元描述了在運(yùn)輸過程中所需的地理信息系統(tǒng)(GIS)、衛(wèi)星定位系統(tǒng)的屬性數(shù)據(jù)、影響貨物運(yùn)輸?shù)南嚓P(guān)地理因素以及用于相關(guān)信息處理技術(shù)和設(shè)備的基本數(shù)據(jù)單元。貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元具有自身的特點(diǎn)。它的概念和結(jié)構(gòu)遵循GB/T 18391.1規(guī)定的一般數(shù)據(jù)元的概念和結(jié)構(gòu)。
4.2 數(shù)據(jù)元的類目分組
為方便用戶使用本標(biāo)準(zhǔn),將貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元分為四個(gè)類目如下:
第1組:基礎(chǔ)地理信息——行政區(qū)域描述、地理位置描述、地理相關(guān)計(jì)量;
整篇文檔都是由標(biāo)題結(jié)構(gòu)組成的,所以先利用Jacob抽取文檔的標(biāo)題結(jié)構(gòu)到數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)用的是Mysql。
這樣的話我們就把半結(jié)構(gòu)化的word文檔存儲(chǔ)為了結(jié)構(gòu)化的數(shù)據(jù)庫(kù)信息,為以后的檢索和一致性檢測(cè)工作做了重要的前提工作。
結(jié)束語(yǔ)
對(duì)于這種把非結(jié)構(gòu)化或者半結(jié)構(gòu)化的信息處理為結(jié)構(gòu)化的信息并存儲(chǔ)到數(shù)據(jù)庫(kù)中,在很多實(shí)際項(xiàng)目開發(fā)中都要用到,因?yàn)槿缃裥畔r(shí)代的信息量實(shí)在是太龐雜了,獲取對(duì)自己有用的信息并存儲(chǔ)到數(shù)據(jù)庫(kù)中以供相關(guān)工作的開展具有重要的現(xiàn)實(shí)意義。