999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于統計技術的中文術語抽取方法

2014-09-08 07:13:12唐慧豐劉伍穎
中國科技術語 2014年5期
關鍵詞:文本方法

劉 劍 唐慧豐 劉伍穎

(1. 解放軍外國語學院,河南洛陽 471003;2. 中國科學院計算技術研究所,北京 100190)

一種基于統計技術的中文術語抽取方法

劉 劍1,2唐慧豐1劉伍穎1

(1. 解放軍外國語學院,河南洛陽 471003;2. 中國科學院計算技術研究所,北京 100190)

中文術語識別與抽取是中文文本信息處理的基礎,對于提高中文文本索引與檢索、文本挖掘、本體構建、潛在語義分析等的處理精度有著重要的意義。文章以互信息和信息熵理論為基礎,提出一種基于統計技術的中文術語半自動抽取方法,并且以互聯網新聞話題數據為對象進行了實驗驗證,結果表明所提方法能夠有效支持中文術語的抽取。

互信息,信息熵,中文術語抽取

術語是用來刻畫、描寫領域知識的基本信息承載單元,術語識別與抽取是文本信息處理的基礎,對于提高文本索引與檢索、本體構建、文本挖掘、潛在語義分析等方面的處理精度有著重要的意義。中文術語識別與抽取是領域中文文本信息處理的一項重要課題,目前有關中文文本信息中術語識別和抽取的研究多體現于對人名、地名和組織名等命名實體的識別和抽取。對于領域中文文本信息處理來說,更重要的是識別并提取那些與特定領域相關的新概念、新術語等。特別是對于互聯網上突發的新聞話題,面對大量的新聞報道文本,如何快速而準確地識別其中的主要術語,對于后續的文本信息處理將是至關重要的。

一 現有工作和方法

目前國內外對術語抽取的方法主要有三種:基于語言規則、基于統計以及混合方法[1]。基于語言規則的方法[2]通過對術語的詞法結構進行分析,獲取術語的詞法規則,根據這些規則構建匹配模板,然后將文本與模板進行匹配抽取術語。該方法抽取的術語準確性高,能夠抽取文本中低頻次的術語,但是對語言本身和模板有很強的依賴性。統計方法的基本思路是通過對大量文本的統計分析,找出術語的使用規律,又可以細分為基于統計度量的方法[3]和基于機器學習的方法[4]。基于統計度量的方法,其核心思想是認為詞在領域內出現的頻率代表了該詞在領域內的相關程度,可以根據設定閾值對領域術語進行抽取。基于機器學習的方法采用手工或半自動構建訓練語料,根據某種機器學習算法對訓練語料學習生成模型,采用模型對測試語料進行術語抽取實驗,以驗證算法的有效性。目前已用于術語抽取的機器學習理論主要包括決策樹、支持向量機、隱馬爾科夫模型、最大熵模型、最大熵馬爾科夫模型和條件隨機場。統計分析法對語言本身沒有很強的依賴性,對于低頻次和多字詞組合的領域合成詞抽取效果很差。語言規則法或統計法各自有優勢和不足,因此在實際抽取領域合成詞時還可以將以上兩種方法結合起來使用[5-6]。

二 中文術語抽取方法

在進行信息處理時,快速而準確地識別出其中主要的中文術語是十分重要的。語言規則方法難以保證規則在不同領域的適用性,機器學習方法難以保證及時和足夠的訓練語料用于訓練模型。因此,本文以互信息和信息熵理論為基礎,提出了一種基于統計度量的中文術語半自動抽取方法。抽取的流程如圖1所示。

圖1 中文術語抽取流程

該方法在中文分詞的基礎上,基于術語內部各組成要素之間較高的關聯性和外部的獨立性,利用統計技術,計算字符串內部的互信息和外部的信息熵,然后將符合給定閾值的字符串序列抽取出來,作為候選的中文術語,最后結合專家修正,從而實現中文術語的抽取。

(一)文本預處理

在對中文文本集進行術語抽取之前,需要對文本進行預處理。預處理過程主要包括分詞、詞性標注和分隔符切割等。

1.中文分詞和詞性標注

不同于英語或其他語言,漢語的詞和詞之間沒有明顯的區分標記。因此,中文文本分詞是抽取中文術語的基礎步驟和關鍵環節。在進行分詞工作之前可以將已知專業詞匯添加到詞典中,然后集中各個文本進行處理。

2.分隔符切割

中文文本中常常包含一些不相關的高頻詞,比如連詞、副詞等:不過、因為、果然、而且等等,還有標點符號、習慣用語等,這些詞在文本中大量出現,但是并不構成術語。通過這些詞可以將文本切割成較小的字符串集,這樣術語抽取運算只需要計算那些被分隔符切割開的字符串集合,在一定程度上減少了合成詞抽取的運算量,也有利于提高術語抽取的準確性。表1所示為常用分隔符示例。

表1 分隔符示例

(二)中文術語抽取的計算方法

中文文本語料通過分詞預處理,文本中由多個字詞構成的術語可能被切分為多個字詞,如“國家發展銀行”,被切成“國家”“發展”和“銀行”三個詞。本文針對分詞后的小段字符串集,首先利用改進互信息算法,通過計算字符串各個組成部分之間的互信息來確定一個字串是否是術語。同時,利用計算字串信息熵評估其與上下文的依賴關系。

1.基于改進互信息的計算

在統計語言模型中,可以用互信息來量化兩個字符串關聯的緊密程度。如果一個字符串集是一個完整的合成詞,那么這個合成詞的各個組成成分之間具有比較高的關聯系數,這個系數就是計算的互信息值。設字符串集S=t1t2…ti,其中S是被切割后的某一段字符串集,ti為字符串集S中經過詞典機械分詞后的一個詞串,用MIS表示S中各個詞串之間的互信息值,互信息有多種計算表達式,本文采用了簡化了的互信息計算表達式。

其中,P(t)表示概率,f(t)表示頻率,L為詞串總數。MIS越大,則t1、t2…ti之間的關聯程度越緊密,S越有可能是一個完整的合成詞。對于給定的閾值r,若MIS>r則可以將S作為候選合成詞。

實驗表明,傳統的互信息計算方法比較適合計算2-gram之間的緊密程度,對于大于2-gram的計算,上式計算結果效果并不好,因為多詞組合的合成詞,互信息計算值被其中某單個詞的出現頻率弱化掉了,因此需要適當的補償多詞術語的計算值。本文提出在原有MIS的計算基礎上,增加補償值Ni(i為S中的組合詞個數)。改進后的多詞組合的合成詞互信息計算公式如下。

Ni是一個與組合詞中詞串個數有關的參數,在實驗驗證的基礎上,本文設置補償值Ni=ilog2i,結果表明,增加補償值的方法可以大幅度提高多詞組合的中文領域合成詞的召回率。由于計算時使用詞串的頻次替代了概率,當字符串組合出現的頻次很小時,計算的互信息值可能較大。為了解決這個問題,本文設置頻次的閾值,如果字符串集出現的頻次小于該閾值,則該字符串集不參與互信息計算,轉為進行語言模板法的匹配。

2.基于信息熵的計算

信息熵是評估一個字符串是否是一個完整的詞的另一個依據,它的原理是如果一個字符串組成一個完整的詞,則它獨立于它所處的上下文環境,因此可以通過這個特性來對組合詞進行提取。

設任意字符串S=t1t2…ti,稱t1為t2的左近鄰,t3為t2的右近鄰。一個字符串如果是一個詞,那么它在文本中會多次出現,并且其左右近鄰往往是變化的,即它是獨立于左右近鄰而存在的。本文采用信息熵對字符串的左右近鄰進行計算,分為左信息熵和右信息熵。設字符串S,l為S的左近鄰集,r為S的右近鄰集合,則S的左信息熵Hl(s)計算表達式為:

對于給定閾值t,若Hl(s)>t且Hr(s)>t,則認為S是一個完整的術語詞。

(三)算法描述

中文術語抽取算法的基本思路是通過給定的閾值,計算字符串的互信息和左右信息熵,從而判定字符串是否是候選術語。抽取中文術語的算法描述如下。

輸入:預處理后的領域文本語料集Corp{D1,D2,…,Dn,Dn是單篇預處理后的文本,被分隔符切割成若干個字符串集Dn=S1/S2/S3…/Sj,其中Sj={t1t2…ti}是任意一個字符串集,由分詞后的若干個帶詞性標注的詞語組成。互信息閾值r1,信息熵閾值r2,最低詞頻f;

輸出:中文候選術語集合CT;

①任取Corp中文檔Dn,Corp=Corp-Dn,若Corp為空,轉至③;

②Dn=S1/S2/S3…/Sj,將Di中組成Sj的詞串集按照2-gram,3-gram,4-gram,5-gram進行組合,組合結果與臨時詞串組合列表CTList中的值進行比較,如果該組合已經存在,則組合頻次加1,否則將該組合存入CTList,同時組合頻次記為1,轉至①;

③取臨時詞串組合列表CTList中的任一組合terms,如果CTList為空,轉至⑥,CTList=CTList-terms,若其頻次大于f,轉至④,否則,丟棄該組合,重新取其他的組合;

④計算terms的互信息MIterms,若MIterms>r1,轉至⑤,否則,轉至③;

⑤計算terms的左右信息熵,若Hl(s)>r2,且Hr(s)>r2,則terms是候選中文術語,加入候選術語集合CT=CT∪terms,跳轉到③,否則,直接跳轉到③;

⑥輸出候選術語集合CT,結束。

(四)實驗驗證

為了驗證本文所提方法的術語抽取效果,構建了中文術語抽取的驗證系統,系統包含術語抽取模塊和專家修正模塊,領域專家可以方便地參照原文校驗抽取的中文術語集。該系統選用互聯網上關于“2013年敘利亞化武危機”的937篇新聞報道網頁作為文本集輸入,經過實驗,最終將互信息閾值r1設置為0.05,信息熵閾值r2設置為1.5,f設置為3。表2所示為抽取的結果分別按照互信息值和信息熵值排序的前十名。

表2 抽取術語中互信息與信息熵值前十的結果

對抽取術語的閾值排名前1000個術語進行分析,實驗結果如表3所示。

表3 實驗結果

通過實驗驗證表明,本文提出的互信息與信息熵相結合的方法對互聯網中文新聞話題的術語抽取具有很高的準確性和實用性。

三 結 語

中文術語識別與抽取是中文文本信息處理的重要組成部分,快速而準確地識別中文術語對于中文文本信息處理有著重要的意義。本文以互信息和信息熵理論為基礎,提出了一種基于統計技術的中文術語半自動抽取方法,并以“2013年敘利亞化武危機”的新聞報道網頁作為實驗數據進行了有效性驗證,實驗結果表明該方法是一種實用性較強的中文術語抽取方法,可以為中文文本信息處理提供較好的基礎支撐。

[1] 季培培,鄢小燕,岑詠華. 面向領域中文文本信息處理的術語識別與抽取研究綜述[J]. 圖書情報工作,2010, 16(54):124-129.

[2] Shamsfard M, Barforoush A. Learning ontologies from natural language texts[J]. Int’l Journal Human-Computer Studies, 2004, 60(1):17-63.

[3] 劉興林,鄭啟倫,馬千里. 中文合成詞識別及分詞修正[J]. 計算機應用研究,2011, 8(54):2905-2908.

[4] 陳飛,劉弈群,魏超,等. 基于條件隨機場的開放領域新詞發現[J]. 軟件學報,2013, 24(5):1051-1060.

[5] 賈自艷,史忠植. 基于概率統計技術和規則方法的新詞發現[J]. 計算機工程,2004, 30(20):19-21.

[6] 周蕾,朱巧明. 基于統計和規則的未登錄詞識別方法研究[J]. 計算機工程,2007, 33(8):196-198.

熱點關注

車聯網的概念和發展

車聯網(internet of vehicles)的概念引申自物聯網(internet of things)。傳統的車聯網定義是指通過裝載在車輛上的無線射頻等識別技術,實現在信息網絡平臺上對所有車輛的屬性信息和靜態、動態信息進行提取和有效利用,并根據不同的功能需求對所有車輛的運行狀態有效監管并提供綜合服務。

隨著車聯網技術和產業的發展,車聯網的概念也在逐步發生變化。根據車聯網產業技術創新戰略聯盟的定義,車聯網是以車內網、車際網和車載移動互聯網為基礎,按照約定的通信協議和數據交互標準,在車-X(X:車、路、行人及互聯網等)之間,進行無線通信和信息交換的大系統網絡,是能夠實現智能化交通管理、智能動態信息服務和車輛智能化控制的一體化網絡。

根據中國物聯網校企聯盟的定義,車聯網是由車輛位置、速度和路線等信息構成的巨大交互網絡。通過全球定位系統(GPS)、射頻識別(RFID)、傳感器、攝像頭圖像處理等裝置,車輛可以完成自身環境和狀態信息的采集;通過互聯網技術,所有的車輛可以將自身的各種信息傳輸匯聚到中央處理器;通過計算機技術,這些大量車輛的信息可以被分析和處理,從而計算出不同車輛的最佳路線、及時匯報路況和安排信號燈周期。

車聯網是物聯網技術在交通系統領域的典型應用,也是智能交通系統的重要組成部分,通過將先進的信息技術、電子傳感器技術、數據通信傳輸技術、自動控制技術、信息發布技術等有效地集成運用于車輛體系,從而帶給車主一種全新的體驗。

車聯網主要用于構建一個高效實用的車輛網絡系統,其涉及的關鍵技術有:射頻識別技術、傳感技術、無線傳輸技術、云計算技術、車聯網標準體系、車聯網安全體系及定位技術。

1997年,通用公司提出OnStar系統,其以導航、安防服務為主,該系統也是車聯網最早的雛形。2001年,寶馬公司推出iDrive互聯駕駛系統,其特色在于可以進行離車導航。2002年以來,豐田公司等一批大型車企紛紛在車聯網方面進行各種有益的探索。此后直到2010年前后,車聯網才進入了一個快速發展的時期。

2009年通用攜安吉星、豐田攜Gbook進入中國,車輛網的概念開始逐步深入人心。2010年10月,中國國際物聯網(傳感網)博覽會暨中國物聯網大會在無錫開幕,大會指出了物聯網在智能交通中的應用,即車聯網是解決交通問題的有效途徑,自此,車聯網成為新興產業。2010年底,車聯網項目被列為國家重大專項中的重要項目,車聯網系統開始在中國得到應用和普及。隨后,車聯網成為“十二五”期間的重點項目,并隨著新能源汽車列入國家七大戰略性新興產業,其增長潛力得到進一步釋放。

作為一個新興的產業,車聯網的發展目前還停留在概念階段,發展也面臨很多現實問題。一是行業發展還缺乏統一的標準。二是車聯網的盈利模式還不成熟。三是信息安全尚沒有辦法完全得到保護。

經過十多年的發展,車聯網從最初的新生事物變成了如今的熱點,諸多國家和企業都為之進行了有益的探索和研究,并將其作為智能交通的重要發展方向。同時,車聯網技術還存在許多發展問題,其中的各項關鍵技術還需要進一步研究和完善。車聯網將在不久的將來帶給汽車和交通產業全新、高速的發展,徹底改變人們的出行和生活方式,為人們的生活帶來更多的便捷。

(魏星/摘編自《中國科技術語》2014年增刊 作者:衛研研)

An Extraction Method for Chinese Terminology Based on Statistical Technology

LIU Jian1,2TANG Huifeng1LIU Wuying1

Chinese terminology extraction is a fundamental issue in Chinese text information processing. It has been applied in many other fields, such as Chinese text indexing and retrieval, text mining, ontology construction, and latent semantic analysis. Based on mutual information and information entropy theory, we proposed a semi-automatic Chinese terminology extraction method by statistical technology, and experimentally verified this method using internet news topic data. Our results show that proposed method can effectively support Chinese term extraction

mutual information, information entropy, Chinese terminology extraction

2014-03-11

劉劍(1979—),男,漢族,解放軍外國語學院講師,中國科學院計算技術研究所博士生,主要研究數據挖掘和知識工程等。通信方式:liujian_public@sina.com。

TP311;NO4;HO83

A

1673-8578(2014)05-0010-05

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 99久久性生片| 婷婷六月天激情| 91丨九色丨首页在线播放| 青青青视频蜜桃一区二区| 高清欧美性猛交XXXX黑人猛交 | 欧美日本中文| 在线欧美一区| 亚洲三级a| 午夜三级在线| 亚洲日本韩在线观看| 国产欧美在线观看视频| 制服丝袜国产精品| 在线网站18禁| 无码国产伊人| 91啦中文字幕| 91九色国产porny| 成人在线欧美| 欧美成人区| 日本在线亚洲| 久久福利片| 亚洲va视频| 毛片三级在线观看| 亚洲另类国产欧美一区二区| 亚洲高清中文字幕| 无码视频国产精品一区二区| 免费在线国产一区二区三区精品| 日本人妻丰满熟妇区| 性欧美精品xxxx| 3D动漫精品啪啪一区二区下载| 老司机久久99久久精品播放| 亚洲综合九九| 国产精品网址你懂的| 亚洲一区二区三区国产精品| 国产成人啪视频一区二区三区 | 国模私拍一区二区| 色哟哟国产精品一区二区| 精品色综合| 国产男人的天堂| 亚洲综合一区国产精品| 中国一级特黄大片在线观看| 美女一区二区在线观看| 女人18毛片久久| 熟女成人国产精品视频| 久久成人免费| 99r在线精品视频在线播放| 全免费a级毛片免费看不卡| 中文字幕在线一区二区在线| 亚洲精品中文字幕无乱码| 91久久大香线蕉| 欧美在线综合视频| 国产导航在线| 日本日韩欧美| hezyo加勒比一区二区三区| 亚洲人成电影在线播放| 国产噜噜噜视频在线观看 | 成人在线欧美| 亚洲精品在线观看91| 精品国产一二三区| 国产精品专区第一页在线观看| 波多野结衣久久精品| 六月婷婷精品视频在线观看| 最新精品久久精品| 制服丝袜无码每日更新| 人与鲁专区| 呦视频在线一区二区三区| 国产又色又刺激高潮免费看| AV熟女乱| 成人国产三级在线播放| 美女免费精品高清毛片在线视| 国产在线精品美女观看| 国产草草影院18成年视频| 中文无码精品A∨在线观看不卡 | 国产呦精品一区二区三区网站| 看国产毛片| 欧美中出一区二区| 国产欧美日韩专区发布| 国内精品九九久久久精品| 福利视频一区| a色毛片免费视频| 成人国产精品视频频| 无码国产伊人| 在线色综合|