999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機場的地名識別

2018-02-22 12:32:00田婧李玉森
無線互聯科技 2018年23期
關鍵詞:語義文本實驗

田婧 李玉森

摘 要:地名是自然語言文本中最基本的命名實體。地名作為文本中描述空間位置信息的重要組成部分,在空間關系描述、水利工程等領域具有廣泛應用。地名語義解析通過利用自然語言處理、機器學習等手段,實現文本中地名自動識別及其空間位置語義的智能化判斷。文章在綜述國內外相關研究進展的基礎上,通過分析漢語中地名描述的語言特點,探討了較為有效的地名識別、語義判斷及其可視化方法。

關鍵詞:語義判斷;地名識別;可視化

作為一種大眾化的信息載體,文本是最常用的一種自然語言,其中蘊含著豐富的地名信息。從文本中獲取未分析的(non-analytical)、非顯示的(non-explicit)空間知識已成為當前地理信息科學迫切需要解決的問題[1]。

Rou[2]在1991年IEEE Conference on Artificial Intelligence Applications發表了第一篇關于命名實體識別的研究文章。該文采用啟發式和人工規則的方法從文本中識別公司名稱。從語言方面來看,大多數命名實體識別研究集中于英文,之后德語、法語、西班牙語、丹麥語、中文和阿拉伯語。從文本類型來看,目前只有極少部分研究針對特定領域的文本進行信息抽取,比如EMAIL。從實體類型來看,早期的信息抽取主要針對人名、地名、組織機構名稱,時間、金錢和百分比等數字型實體。近年來的研究開始關注生物信息的抽取,比如蛋白質、DNA、RNA和細胞類型等,而且范圍越來越廣,包括產品、事件、動物和宗教等[3]。

目前,在中文命名實體識別已有的研究成果中,有很多是針對人名、地名、組織名等單項命名實體進行識別的[4-6]。2004年舉行的863命名實體識別評測,國內共有8家單位參加。在對簡體中文文本的測試中,命名實體識別系統的準確率、召回率和F-值已經達到81.10%,83.69%,82.38%,其中人名、地名、組織名各項的F-值最高分別為85.51%,82.51%,60.81%。

本文首先通過調整訓練語料顆粒度,實現基于層疊條件隨機場地名識別系統,并在此基礎上增加地名語義判斷。通過實驗驗證增加語義判斷后,能大大提高地名實際應用價值。

1 基于層疊條件隨機場的地名識別

近些年來,機器學習方法在地名識別領域的應用研究受到了廣泛關注[7-8],特別是基于各種統計模型的地名識別研究更是熱點。本文采用層疊條件隨機場(CCRFS)完成地名解析。

1.1 基于CCRFS的地名識別模型

中文文本中地名主要以簡單地名、復雜地名及簡稱等形式存在。不同類型的地名有著不同的內部構成規律和上下文語言環境,因而應分別對每一類地名構造相應的識別算法。相對于簡單地名和復雜地名來說,地名簡稱相對簡單,文本中地名識別主要探討簡單地名和復雜地名的識別方法,在地名簡稱的處理上,采用簡單地名的處理方式。

本文借鑒層疊條件隨機場在機構名識別研究過程中的應用,按層疊加條件隨機場模型完成文本中地名的自動識別任務,如圖1所示。

在CCRFS模型中,低層的條件隨機場模型僅以觀察值為條件,用于簡單地名的識別,識別的結果再傳遞到高層模型,這樣高層模型的輸入變量將不僅包含觀察值,而且包含了來自低層模型的識別結果,從而為高層條件隨機場模型對復雜地名的識別提供了決策支持。采用按層疊加方式使內嵌在復雜地名中的簡單地名獲得了與非內嵌地名一致的處理方式,有助于緩解由數據稀疏可能帶來的問題;而且這種方式可以利用復雜地名一般都包含簡單地名這一事實,在進行復雜地名識別時利用簡單地名的識別結果。

1.2 語義判斷算法

語義判斷算法的本質就是從所有的候選地名中求得一個認知顯著度最高的地名作為地名所指。我們可以利用公式在給定的語言單元中計算認知顯著度。篇章要完成其作為語言交際基本單位的功能,“必須具備語篇特征,它所表達的是整體意義。語篇中各成分是連貫的,而不是彼此無關的?!痹谝粋€篇章中,地名之間必然存在某種聯系,且這種聯系是聯系篇章中其他內容的主要紐帶之一。在處理過程中將語言單位分為句子級、段落級及篇章級3種。

語義判斷算法描述如下:

PROCEDURE REFERENCE-DISAMBIGUATION

REFERENT-COUNT(A1_D,A2_D,A3_D,A4_D,D)

For each paragraph P in D

RERERENT-COUNT(A1_P,A2_P,A3_P,A4_P,P)

For each sentence S in P

RERERENT-COUNT(A1_S,A2_S,A3_S,A4_S,S)

For each toponym T in S

Obtain all potential referents R

For each in R

←ComputeSalience(A1_S,A2_S,A3_S,A4_S, )

If > 0

store max( ) and move to the next toponym;

Else

←ComputeSalience(A1_P,A2_P,A3_P,A4_P, )

If >0

store max( ) and move to the next toponym;

Else

←ComputeSalience(A1_D,A2_D,A3_D,A4_D, )

Store max( ) and move to the next toponym;

END

PROCEDURE REFERENT-COUNT

For each toponym in Scope X

Obtain referents R for , each of form ;

Add to A1_X, to A2_X, to A3_X, and to A4_X;

END

其中A1_X,A2_X,A3_X,A4_X分別表示省、市、縣、鄉在篇章、段落以及句子中的頻率向量。

2 實驗評估與分析

實驗結果評估參考《2004年度命名實體識別評測大綱》中關于地名的評測規范。評測采用3個指標:正確率、召回率、F值。

簡單地名識別實驗結果(見表1)。通過人工修正,在簡單地名識別完全正確的情況下進行復雜地名識別實驗(見表2)。表3給出了簡單地名和復雜地名復合后獲得的最終地名識別結果。

簡單地名識別階段,完成了兩個識別模型的訓練任務。一個是以人民日報1~5月份語料為訓練數據,另一個以微軟訓練語料為訓練數據。兩種語料規模比例大約為5∶1,其中微軟語料為6.74 M。由于兩種語料標注方式以及語料規模的差異,從表1可以看出實驗1、2可以取得很好的識別效果,但實驗3、5、6的實驗結果較差。實驗4訓練語料和測試語料規模比例為3∶1,可以認為該實驗結果能夠比較客觀地反映出簡單地名識別系統的性能。

3 結語

本文基于層疊條件隨機場完成地名識別模型,并在地名語義判斷方面做了嘗試性研究,從而實現地名的可視化表達。實驗過程中還發現,條件隨機場模型在訓練時間及識別效率方面較差,訓練同等規模的語料,條件隨機場模型所需要的訓練時間明顯高于隱馬爾科夫、支持向量機等模型。縮短訓練時間、提高識別效率及增量語料訓練等方面將會是本文進一步努力的方向。

[參考文獻]

[1]GOODCHILD M F. Citizens as sensors:the world of volunteered geography[J]. Geo Journal,2007(54):211-221.

[2]RAU L F,JACOBS P S. Creating segmented databases from free text for text retrieval [C]. Chicago:ACM,1991:337-346.

[3]NADEAU D,SEKINE S. A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1): 3-26.

[4]鄭家恒,劉開瑛.漢語姓名自動辨識初探[J].語言文字應用,1994(2):65-68.

[5]張躍,姚天順.基于結合性自動識別中文姓名[J].小型微型計算機系統,1997(10):43-48.

[6]劉秉偉,黃萱箐,郭以昆. 基于統計方法的中文姓名識別[J].中文信息學報,1999(3):16-24.

[7]FREITAG D. Machine learning for information extraction in informal domains[D]. Pittsburgh:Carnegie Mellon University,1998.

[8]MILLER S,CRYSTAL M,FOX H,et al. Algorithms that learn to extract information – BBN:Description of the SIFT system as used for MUC-7,1998[C]. Baltimore:In Proceedings of the Seventh Message Understanding Conference,1998.

[9]KIMLER M. Geo-Coding: Recognition of geographical references in unstructured text,and their visualisation[D]. Hof:University of Applied Sciences Hof,2004.

Abstract:Place names are the most basic named entities in natural language texts. As an important part of the description of spatial location information in the text, geographical names are widely used in the fields of spatial relationship description and hydraulic engineering. Semantic analysis of place names realizes the automatic identification of place names in texts and the intelligent judgment of spatial position semantics by means of natural language processing and machine learning. On the basis of reviewing the relevant research progress at home and abroad, this paper explores the more effective geographical name recognition, semantic judgment and visualization methods by analyzing the language characteristics of Chinese place names.

Key words:semantic judgment; place name recognition; visualization

猜你喜歡
語義文本實驗
記一次有趣的實驗
語言與語義
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 欧美色视频在线| 怡春院欧美一区二区三区免费| 日韩免费毛片| 97se亚洲综合在线韩国专区福利| 亚洲国产精品无码AV| 国产亚洲欧美另类一区二区| 久久精品中文字幕免费| 中文字幕人成人乱码亚洲电影| 黄色网站不卡无码| 日本亚洲欧美在线| 无码有码中文字幕| 国产9191精品免费观看| www.精品国产| 亚洲一区二区成人| 国产一级视频在线观看网站| 久久香蕉国产线看观看亚洲片| 中国一级特黄大片在线观看| 欧美日韩在线亚洲国产人| 国产超薄肉色丝袜网站| 国产精品片在线观看手机版 | 美臀人妻中出中文字幕在线| 成年女人a毛片免费视频| 欧美日韩精品综合在线一区| 亚洲天堂网视频| 国产精品短篇二区| 一级毛片免费观看久| 亚洲浓毛av| 无码aaa视频| 亚洲国产欧洲精品路线久久| 欧美成人精品在线| 国产本道久久一区二区三区| 亚洲国产日韩一区| 亚洲国产成人久久精品软件| 亚洲无码91视频| 91在线高清视频| 九九热精品视频在线| 色成人综合| 久久午夜影院| 92精品国产自产在线观看| 91在线一9|永久视频在线| 无码精品一区二区久久久| 国产高清在线丝袜精品一区| 无码乱人伦一区二区亚洲一| 麻豆国产精品| 91精品专区| 亚洲精品动漫在线观看| 日韩成人在线网站| 日韩123欧美字幕| 亚洲无码免费黄色网址| 国产日韩久久久久无码精品| 人妻精品久久久无码区色视| 国产九九精品视频| 国内视频精品| 国产成熟女人性满足视频| 亚洲综合第一区| 国内毛片视频| 国产www网站| 国产又黄又硬又粗| 91一级片| 国产在线观看精品| 在线网站18禁| 在线观看网站国产| 亚洲aⅴ天堂| 国产精品视频猛进猛出| 国产另类视频| 91免费观看视频| 国产高清免费午夜在线视频| 国产亚洲美日韩AV中文字幕无码成人| 国产精品手机在线观看你懂的 | 四虎永久在线| 九九热这里只有国产精品| 国产欧美日韩另类精彩视频| 人妻少妇久久久久久97人妻| 日韩精品一区二区深田咏美| 久久www视频| 亚洲日本在线免费观看| 免费午夜无码18禁无码影院| 国产精品极品美女自在线网站| 久久婷婷人人澡人人爱91| 91在线播放国产| 国产欧美日韩综合在线第一| 爆乳熟妇一区二区三区|