999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

抽取WORD文檔為結(jié)構(gòu)化信息并存儲(chǔ)的方法

2014-01-03 02:09:40萬(wàn)峰
關(guān)鍵詞:數(shù)據(jù)存儲(chǔ)

萬(wàn)峰

【摘要】在交通行業(yè)領(lǐng)域存在著很多的執(zhí)行標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)基本上都是以word這種半結(jié)構(gòu)化的數(shù)據(jù)而存在的。為了進(jìn)行標(biāo)準(zhǔn)的快速檢索和一致性檢測(cè),就需要自動(dòng)化的提取word標(biāo)準(zhǔn)為結(jié)構(gòu)化信息并存入數(shù)據(jù)庫(kù),以便于后續(xù)知識(shí)數(shù)據(jù)元的提取進(jìn)而進(jìn)行標(biāo)準(zhǔn)比對(duì),得到檢測(cè)報(bào)告。本文采用Jacob技術(shù)操作word文檔,抽取word為結(jié)構(gòu)化信息并存入Mysql數(shù)據(jù)庫(kù)。

【關(guān)鍵詞】半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)抽取,Jacob,數(shù)據(jù)存儲(chǔ),Mysql

【中圖分類號(hào)】TP311.13 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1672-5158(2013)04-0161-02

引言

我們知道交通系統(tǒng)是一個(gè)涉及面非常廣,領(lǐng)域非常多的龐雜的信息系統(tǒng)。對(duì)于這樣一個(gè)系統(tǒng)要進(jìn)行正確而又權(quán)威性的管理,建立相應(yīng)各個(gè)方面的執(zhí)行標(biāo)準(zhǔn)進(jìn)而為我們的交通管理提供一個(gè)執(zhí)行標(biāo)準(zhǔn)是一個(gè)項(xiàng)非常必要的工作。交通部作為全國(guó)的交通管理部門就成立了相應(yīng)的標(biāo)準(zhǔn)管理委員會(huì),并委托各個(gè)標(biāo)準(zhǔn)制定委員會(huì)去制定相應(yīng)領(lǐng)域的標(biāo)準(zhǔn)以供執(zhí)行。因?yàn)榻煌▎栴}涉及的領(lǐng)域?qū)嵲谑翘珡?fù)雜了,不僅面廣,而且還存在著不同領(lǐng)域的交界信息,甚至同一領(lǐng)域內(nèi)也存在很多模糊難以界定的問題。每一個(gè)標(biāo)準(zhǔn)制定委員會(huì)制定出很多的標(biāo)準(zhǔn),而且各個(gè)標(biāo)準(zhǔn)的制定單位還不一樣,所以就出現(xiàn)了標(biāo)準(zhǔn)之間存在重復(fù)性規(guī)定,不一致性規(guī)定的問題。

標(biāo)準(zhǔn)的制定都遵從的是一個(gè)統(tǒng)一的總章規(guī)則,又是以word這種半結(jié)構(gòu)化的數(shù)據(jù)存在的。所以我想做的就是把word文檔信息提取為結(jié)構(gòu)化的信息并存儲(chǔ)到結(jié)構(gòu)化數(shù)據(jù)庫(kù)當(dāng)中。那么我們就可以通過比較自動(dòng)的進(jìn)行標(biāo)準(zhǔn)的沖突性檢測(cè)了,檢測(cè)出存在沖突性的標(biāo)準(zhǔn)并給出沖突檢測(cè)報(bào)告。這樣就可以給我們的標(biāo)準(zhǔn)檢索和為標(biāo)準(zhǔn)制定者的制定工作提供非常有意義的輔助工作。

1、提取技術(shù)

涉及到word格式內(nèi)容的抽取。目前,用iava實(shí)現(xiàn)對(duì)word內(nèi)容進(jìn)行抽取的工具一般有兩種:Jacob和Apache的Poi。

因?yàn)橐褀ord的內(nèi)容抽取為格式化的信息并存入到數(shù)據(jù)庫(kù)中,所以首先要能夠抽取去整篇word文檔的結(jié)構(gòu)化信息及標(biāo)題結(jié)構(gòu)存人數(shù)據(jù)庫(kù),再抽取相應(yīng)的文本信息到對(duì)應(yīng)數(shù)據(jù)庫(kù)表中。Poi是Apache的一個(gè)項(xiàng)目,但是目前只能操作簡(jiǎn)單的word文檔,復(fù)雜的、帶表格的都不行,不過,相信Apache對(duì)Poi的不斷完善,效果會(huì)有改觀。Poi是用純Java實(shí)現(xiàn)的。

Jacob是Java和Com的連接橋,連接Java和Com或者win32函數(shù)的一個(gè)中間件。Microsoft Word以一種專用格式存儲(chǔ)其文檔,它通過“組件對(duì)象模型(COM)”對(duì)象顯示其某些特征。Jacob允許任何JVM訪問COM對(duì)象,從而使Java應(yīng)用程序能夠利用COM對(duì)象。所以我才用了Jacob的工具來實(shí)現(xiàn)對(duì)word文檔的信息抽取。

2、系統(tǒng)設(shè)計(jì)

通過對(duì)一篇word文檔的研究可以發(fā)現(xiàn),每篇word文檔都是以一種統(tǒng)一的格式出現(xiàn)的。即為大標(biāo)題,一級(jí)標(biāo)題,二級(jí)標(biāo)題,三級(jí)標(biāo)題這樣的標(biāo)題結(jié)構(gòu)出現(xiàn)的,在最低級(jí)標(biāo)題的下面都有相應(yīng)的段落文本內(nèi)容描述信息。所以我們也可以把word文檔看作是一種結(jié)構(gòu)化的信息存人進(jìn)數(shù)據(jù)庫(kù)中。我的做法就是先把word文檔的標(biāo)題結(jié)構(gòu)抽取出來存入進(jìn)數(shù)據(jù)庫(kù)。再把文本信息當(dāng)作整個(gè)字符串存入到相應(yīng)的表結(jié)構(gòu)中。拿一個(gè)word標(biāo)準(zhǔn)以作示例:

道路、水路貨物運(yùn)輸?shù)乩硇畔⒒A(chǔ)數(shù)據(jù)元

1、范圍

本標(biāo)準(zhǔn)規(guī)定了道路、水路貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元的基本概念、類目分組和表示,并給出了詳細(xì)的數(shù)據(jù)元目錄。

2、規(guī)范性引用文件

下列文件中的條款通過本標(biāo)準(zhǔn)的引用而成為本標(biāo)準(zhǔn)的條款。凡是注日期的引用文件,其隨后所有的修改單或修訂版均不適用于本標(biāo)準(zhǔn),然而,鼓勵(lì)根據(jù)本標(biāo)準(zhǔn)達(dá)成協(xié)議的各方研究是否可使用這些文件的最新版本。

3、術(shù)語(yǔ)和定義

3.1 地理信息系統(tǒng)

geographic information system(GIS)

采集、存儲(chǔ)、檢查、操作、分析和顯示地理數(shù)據(jù)的系統(tǒng)。

4、總則

4.1 概述

貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元描述了在運(yùn)輸過程中所需的地理信息系統(tǒng)(GIS)、衛(wèi)星定位系統(tǒng)的屬性數(shù)據(jù)、影響貨物運(yùn)輸?shù)南嚓P(guān)地理因素以及用于相關(guān)信息處理技術(shù)和設(shè)備的基本數(shù)據(jù)單元。貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元具有自身的特點(diǎn)。它的概念和結(jié)構(gòu)遵循GB/T 18391.1規(guī)定的一般數(shù)據(jù)元的概念和結(jié)構(gòu)。

4.2 數(shù)據(jù)元的類目分組

為方便用戶使用本標(biāo)準(zhǔn),將貨物運(yùn)輸?shù)乩硇畔?shù)據(jù)元分為四個(gè)類目如下:

第1組:基礎(chǔ)地理信息——行政區(qū)域描述、地理位置描述、地理相關(guān)計(jì)量;

整篇文檔都是由標(biāo)題結(jié)構(gòu)組成的,所以先利用Jacob抽取文檔的標(biāo)題結(jié)構(gòu)到數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)用的是Mysql。

這樣的話我們就把半結(jié)構(gòu)化的word文檔存儲(chǔ)為了結(jié)構(gòu)化的數(shù)據(jù)庫(kù)信息,為以后的檢索和一致性檢測(cè)工作做了重要的前提工作。

結(jié)束語(yǔ)

對(duì)于這種把非結(jié)構(gòu)化或者半結(jié)構(gòu)化的信息處理為結(jié)構(gòu)化的信息并存儲(chǔ)到數(shù)據(jù)庫(kù)中,在很多實(shí)際項(xiàng)目開發(fā)中都要用到,因?yàn)槿缃裥畔r(shí)代的信息量實(shí)在是太龐雜了,獲取對(duì)自己有用的信息并存儲(chǔ)到數(shù)據(jù)庫(kù)中以供相關(guān)工作的開展具有重要的現(xiàn)實(shí)意義。

猜你喜歡
數(shù)據(jù)存儲(chǔ)
簡(jiǎn)單的數(shù)據(jù)修復(fù)
大數(shù)據(jù)時(shí)代檔案信息建設(shè)的認(rèn)識(shí)和實(shí)踐
淺談電力大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)研究與應(yīng)用
開源數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)路徑分析
基于Android開發(fā)的APP數(shù)據(jù)存儲(chǔ)研究
哈希算法在物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)中的應(yīng)用
空難事故跨媒體信息采集與檢索方法的研究
基于STM32的AD采集與SD卡數(shù)據(jù)存儲(chǔ)
淺談信息系統(tǒng)工程和POJO模型組件開發(fā)
基于MongoDB的調(diào)查決策系統(tǒng)數(shù)據(jù)存儲(chǔ)方案設(shè)計(jì)
主站蜘蛛池模板: 99re这里只有国产中文精品国产精品 | 亚洲成人黄色在线观看| 97国产在线观看| 无码国内精品人妻少妇蜜桃视频| 亚洲国产看片基地久久1024| www.youjizz.com久久| 国产真实乱了在线播放| 四虎永久在线| 欧美精品v欧洲精品| 亚洲av日韩av制服丝袜| 亚洲狠狠婷婷综合久久久久| 综合五月天网| 午夜无码一区二区三区| 无码内射在线| 在线观看热码亚洲av每日更新| 99热这里只有精品5| 欧美国产视频| 久久亚洲日本不卡一区二区| 亚洲最大综合网| 呦女亚洲一区精品| 老司机久久精品视频| a网站在线观看| 2021国产精品自产拍在线观看| 欧美一级爱操视频| 青青青国产视频手机| 91青青草视频在线观看的| 激情无码视频在线看| 91精品免费高清在线| 热九九精品| 91麻豆精品国产高清在线| 亚洲乱强伦| 久久国产成人精品国产成人亚洲| 天天综合色天天综合网| 中文字幕有乳无码| 亚洲国产日韩在线观看| www.国产福利| 午夜一级做a爰片久久毛片| 国产福利观看| 亚洲欧美不卡| 久久久久亚洲AV成人人电影软件| 国产真实乱了在线播放| 97免费在线观看视频| 亚洲一区色| 国产chinese男男gay视频网| 亚洲成人在线网| 午夜在线不卡| 亚洲成人福利网站| 91福利在线看| 国产va在线观看免费| 国产精品自在在线午夜区app| 久久 午夜福利 张柏芝| 成人小视频网| 97视频在线精品国自产拍| 青青久视频| 国产熟睡乱子伦视频网站| 蜜芽国产尤物av尤物在线看| 一级成人a做片免费| 日本免费福利视频| 国产免费a级片| 国产性爱网站| 毛片在线区| 国产福利一区二区在线观看| 天天躁夜夜躁狠狠躁躁88| 欧美精品伊人久久| 久久精品国产91久久综合麻豆自制| 久久无码免费束人妻| 亚洲欧洲日韩久久狠狠爱| 日韩无码视频播放| 亚洲成aⅴ人片在线影院八| 香蕉精品在线| 97免费在线观看视频| 青草91视频免费观看| 91青青视频| 日韩福利在线观看| 日本人又色又爽的视频| 人妻一本久道久久综合久久鬼色| www.日韩三级| 2020精品极品国产色在线观看| 亚洲精品不卡午夜精品| 亚洲国产成人精品青青草原| 伊人久热这里只有精品视频99| 国产免费久久精品99re不卡 |