999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于自然語(yǔ)言處理的環(huán)境科學(xué)命名實(shí)體識(shí)別方法

2017-11-07 17:51:30張永富李志宏李軍軍程樹(shù)東
科技創(chuàng)新導(dǎo)報(bào) 2017年21期

張永富+李志宏+李軍軍+程樹(shù)東

摘 要:提出一種基于自然語(yǔ)言處理模型的環(huán)境科學(xué)命名實(shí)體識(shí)別方法,該方法以自然語(yǔ)言處理模型為核心,在通用分詞庫(kù)的基礎(chǔ)上加入環(huán)保專業(yè)分詞庫(kù)和外部特征識(shí)別技術(shù),實(shí)現(xiàn)了從環(huán)評(píng)文件中自動(dòng)提取準(zhǔn)確的環(huán)境科學(xué)命名實(shí)體信息;同時(shí)采用MCTS蒙特卡洛樹(shù)構(gòu)建搜索引擎,提高了命名實(shí)體識(shí)別過(guò)程的搜索效率。

關(guān)鍵詞:自然語(yǔ)言處理 命名實(shí)體識(shí)別 信息提取 環(huán)境影響評(píng)價(jià)

中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)07(c)-0120-02

目前,在環(huán)保行業(yè)中,環(huán)境影響評(píng)價(jià)文件的數(shù)量日趨龐大,資料集成度越來(lái)越高,隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,信息化管理技術(shù)已在各層次各系統(tǒng)廣泛應(yīng)用[1]。

然而,環(huán)評(píng)項(xiàng)目的資料中包含多項(xiàng)指標(biāo)(如總投資、建設(shè)性質(zhì)、行業(yè)等),也無(wú)法實(shí)現(xiàn)自動(dòng)提取和統(tǒng)計(jì)匯總,環(huán)評(píng)項(xiàng)目的各種數(shù)據(jù)信息無(wú)法實(shí)現(xiàn)電子化,不能得到及時(shí)有效的利用。環(huán)境統(tǒng)計(jì)工作量大、耗時(shí)長(zhǎng),單純地依靠人工完成,準(zhǔn)確性難以保證。為減輕環(huán)評(píng)工作人員的勞動(dòng)強(qiáng)度,提高工作效率,實(shí)施電子文件歸檔和管理制度,設(shè)計(jì)了一種基于自然語(yǔ)言處理的環(huán)境科學(xué)命名實(shí)體識(shí)別方法,實(shí)現(xiàn)環(huán)評(píng)信息的智能抽取。

1 理論基礎(chǔ)

1.1 環(huán)境影響評(píng)價(jià)

環(huán)境影響評(píng)價(jià)是指對(duì)規(guī)劃和建設(shè)項(xiàng)目實(shí)施后可能造成的環(huán)境影響進(jìn)行分析、預(yù)測(cè)和評(píng)估,提出預(yù)防或者減輕不良環(huán)境影響的對(duì)策與措施,進(jìn)行跟蹤監(jiān)測(cè)的方法與制度[2]。環(huán)境影響評(píng)價(jià)可以為開(kāi)發(fā)建設(shè)活動(dòng)的決策提供科學(xué)依據(jù),為經(jīng)濟(jì)建設(shè)的合理布局提供科學(xué)依據(jù),為確定某一地區(qū)的經(jīng)濟(jì)發(fā)展方向和規(guī)模、制定區(qū)域經(jīng)濟(jì)發(fā)展規(guī)劃及相應(yīng)環(huán)保規(guī)劃提供科學(xué)依據(jù),為制定環(huán)境保護(hù)對(duì)策和進(jìn)行科學(xué)的環(huán)境管理提供依據(jù),促進(jìn)相關(guān)環(huán)境科學(xué)技術(shù)的發(fā)展。

1.2 自然語(yǔ)言處理

自然語(yǔ)言處理(Natural Language Processing,NLP)就是利用計(jì)算機(jī)為工具對(duì)人類特有的書(shū)面形式和口頭形式的自然語(yǔ)言的信息進(jìn)行各種類型處理和加工的技術(shù)[3]。自然語(yǔ)言處理又稱自然語(yǔ)言理解(Natural Language Understanding,NLU),是人工智能研究的重要內(nèi)容之一,可以定義為研究在人與人交際中以及人與計(jì)算機(jī)交際中的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。

1.3 命名實(shí)體識(shí)別

命名實(shí)體(NE)是指人們感興趣的特定的專有名詞(如組織機(jī)構(gòu)名)和特定的數(shù)量詞(時(shí)間和數(shù)字)。命名實(shí)體識(shí)別的任務(wù)被定義為識(shí)別出文本中出現(xiàn)的專有名稱和有意義的數(shù)量短語(yǔ)并加以歸類。中文NE的識(shí)別研究開(kāi)始較晚,同英文實(shí)體識(shí)別相比,漢語(yǔ)NE的識(shí)別更難。漢語(yǔ)文本沒(méi)有類似英文文本中空格之類的顯示標(biāo)示詞邊界的標(biāo)識(shí)符,分詞和命名實(shí)體相互影響,缺乏明顯的特征標(biāo)志;組織復(fù)雜,長(zhǎng)短不一,沒(méi)有規(guī)律;縮略短語(yǔ)很多;實(shí)體名相互嵌套;缺少大規(guī)模語(yǔ)料庫(kù)。

1.4 條件隨機(jī)場(chǎng)模型

條件隨機(jī)場(chǎng)模型CRF由Lafferty等人于2001年提出,又稱為馬爾可夫隨機(jī)域,是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型。從形式上來(lái)說(shuō)CRF可以看作是一種無(wú)向圖模型[4],考察給定輸入序列的標(biāo)注序列的條件概率。

2 基于NLP的環(huán)評(píng)信息提取方法

2.1 基本原理

如圖1所示,以自然語(yǔ)言處理引擎為核心,采用文檔處理器對(duì)環(huán)評(píng)文件進(jìn)行預(yù)處理,運(yùn)用蒙特卡洛樹(shù)搜索算法,結(jié)合外部特征識(shí)別器和環(huán)評(píng)專業(yè)分詞庫(kù),從環(huán)評(píng)文件中提取目標(biāo)信息。

2.2 關(guān)鍵算法

2.2.1 MCTS蒙特卡洛樹(shù)

通過(guò)各個(gè)代表行業(yè)的環(huán)評(píng)報(bào)告書(shū)樣本,建立MCTS蒙特卡洛樹(shù),通過(guò)對(duì)這些數(shù)據(jù)的挖掘,建立智能處理模型。當(dāng)某個(gè)節(jié)點(diǎn)的被訪問(wèn)次數(shù)超過(guò)了一定的門(mén)限值,則在蒙特卡羅樹(shù)上進(jìn)一步展開(kāi)下一級(jí)別的搜索。

最佳權(quán)重選擇算法:

其中,R為正則表達(dá)式匹配,t為要匹配的文本R(t)表示,正則表達(dá)式匹配后的值,s為要匹配的值,函數(shù)d為編輯距離。這樣通過(guò)度量性能,枚舉所有的可能性并選取最大/小值,獲取最佳權(quán)重。

2.2.2 環(huán)評(píng)專業(yè)分詞庫(kù)

創(chuàng)建外部特征識(shí)別器,引入外部特征,包括:組織機(jī)構(gòu)字典、污染物單位名稱字典、污染物數(shù)值范圍(濃度、排放量等)字典、環(huán)評(píng)專業(yè)名詞字典(分詞中應(yīng)用)和全國(guó)行政編制(省市區(qū)縣村)字典等。

3 應(yīng)用結(jié)果分析

3.1 采用MCTS蒙特卡洛樹(shù)

采用采用MCTS蒙特卡洛樹(shù)算法之后,通過(guò)蒙卡章節(jié)訓(xùn)練,搜索時(shí)間明顯加快,如表1所示。

3.2 加入環(huán)評(píng)專業(yè)分詞庫(kù)

加入環(huán)評(píng)專業(yè)分詞庫(kù)后,搜索的準(zhǔn)確率得到提升,搜索時(shí)間縮短,如表2所示。

4 結(jié)語(yǔ)

本文提出了一種基于自然語(yǔ)言處理模型的環(huán)境科學(xué)命名實(shí)體識(shí)別方法,該方法以自然語(yǔ)言處理模型為核心,在通用分詞庫(kù)的基礎(chǔ)上加入環(huán)保專業(yè)分詞庫(kù)和外部征識(shí)別技術(shù),實(shí)現(xiàn)了從環(huán)評(píng)文件中自動(dòng)提取準(zhǔn)確的環(huán)境科學(xué)命名實(shí)體信息;同時(shí)采用MCTS蒙特卡洛樹(shù)構(gòu)建搜索引擎,提高了命名實(shí)體識(shí)別過(guò)程的搜索效率。

參考文獻(xiàn)

[1] J.Grudin.Computer-supported cooperative work:History and focus[J].Computer,1994(27):19-26.

[2] 環(huán)境保護(hù)部環(huán)境工程評(píng)估中心.建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)[M].中國(guó)環(huán)境科學(xué)出版社,2011.

[3] 馮志偉.自然語(yǔ)言的計(jì)算機(jī)處理[M].上海外語(yǔ)教育出版社,1996.

[4] Lafferty J, McCallum A, Pereira F.Conditional Random Fields:Probabilistic models for segmenting and labeling sequence data[D].In: Proc.ICML 2001.endprint

主站蜘蛛池模板: 亚洲αv毛片| 免费日韩在线视频| 97青青青国产在线播放| 欧美久久网| 国产激爽大片高清在线观看| 日韩乱码免费一区二区三区| 999国内精品久久免费视频| 久久久久亚洲AV成人网站软件| 欧美成一级| 制服丝袜一区二区三区在线| 国产女人在线| 国产成人精品一区二区三在线观看| 国产精品第一区在线观看| 亚洲va欧美va国产综合下载| 狠狠色噜噜狠狠狠狠色综合久| 麻豆国产原创视频在线播放 | 久久国产成人精品国产成人亚洲| 99这里只有精品在线| 国模极品一区二区三区| 欧美乱妇高清无乱码免费| 2021最新国产精品网站| 少妇精品网站| 波多野结衣一区二区三区四区视频| 色首页AV在线| 国产00高中生在线播放| 88国产经典欧美一区二区三区| 美女一级毛片无遮挡内谢| 2021国产乱人伦在线播放| 国产女人喷水视频| 亚洲国产综合自在线另类| 久久香蕉国产线看观| 最新精品国偷自产在线| 国产特级毛片aaaaaaa高清| 夜夜高潮夜夜爽国产伦精品| 58av国产精品| 日本免费高清一区| 国产成人AV男人的天堂| 亚洲国产AV无码综合原创| 国产精品爽爽va在线无码观看 | 精品视频一区在线观看| 亚洲成在人线av品善网好看| 无码久看视频| 精品福利视频导航| 亚洲国产精品久久久久秋霞影院 | 为你提供最新久久精品久久综合| 91成人免费观看| 久久天天躁夜夜躁狠狠| 91人妻在线视频| 亚洲v日韩v欧美在线观看| 国产精品漂亮美女在线观看| 99精品久久精品| 国产乱子伦一区二区=| 51国产偷自视频区视频手机观看| 精品国产成人国产在线| 亚洲色中色| 亚洲午夜福利精品无码不卡| 人妻夜夜爽天天爽| 凹凸国产分类在线观看| 久无码久无码av无码| 国产主播福利在线观看| 最新痴汉在线无码AV| 亚洲高清日韩heyzo| 欧美国产日韩在线观看| 亚洲视屏在线观看| 日韩一区精品视频一区二区| 亚洲色成人www在线观看| 草草影院国产第一页| 国产真实二区一区在线亚洲| 国产日韩欧美成人| 国产日韩欧美在线视频免费观看| 国产精品无码影视久久久久久久| 国产无码在线调教| 欧美日本不卡| 国内精品自在自线视频香蕉| 精品无码一区二区三区电影| 91免费国产在线观看尤物| 97超爽成人免费视频在线播放| 四虎永久免费地址| 国产成本人片免费a∨短片| 亚洲水蜜桃久久综合网站| 色爽网免费视频| 性色一区|