999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊貝葉斯決策的核心概念抽取方法*

2022-09-21 08:36:34徐藝嘉孫旌睿
計算機工程與科學 2022年9期
關鍵詞:概念文本方法

鐘 寒,徐藝嘉,鹿 浩,孫旌睿

(1.中國人民公安大學信息網絡安全學院,北京 102623;2.安全防范與風險評估公安部重點實驗室,北京 102623)

1 引言

本體[1]包含著豐富的語義信息,是一種重要的知識庫,是智能信息檢索[2]、自然語言處理、信息建模、語義Web和信息抽取[3]等領域應用的基礎。在當前的人工智能領域中,本體技術也是研究熱點之一。根據需求建立的領域本體能有效進行知識表示,通過概念、屬性和概念之間的關系以及各種約束對特定領域的知識進行細致描述,可以表示成某一特定領域內的特定知識。領域概念是領域本體的重要組成部分,如何從文本中準確地抽取核心概念是構建本體的前提和基礎。

隨著大數據的迅速發展,各領域產生了大量的文本,構建本體時需要從大量文本中將需要的概念抽取出來。然而,在大量概念中,部分概念在文本所屬領域具有一定的代表性,另外一部分概念與文本領域關聯性較低。為方便描述,本文將在文本所屬領域中具有代表性的概念統稱為核心概念。

綜上所述,領域概念對本體構建有著重要的作用,而文本是領域概念的主要來源,文本的核心概念抽取又是其中的一個關鍵環節。基于此,本文以領域核心概念的自動抽取為研究目標,提出了一種基于模糊貝葉斯決策的文本核心概念抽取方法。該方法借鑒了傳統文本概念抽取的流程,對文本中概念特征進行重要性排序,能夠較為精準地抽取文本中的核心概念。

2 相關工作

概念抽取是知識庫構建的第一要素,依賴于知識抽取等相關技術,當前國內外的研究大多集中在關鍵詞提取方面。關鍵詞提取方法分為有監督和無監督2類[4],包括基于統計機器翻譯的方法、基于序列標注模型的方法[5]、基于排序學習的方法[6]和基于機器學習的分類方法等。近年來,深度學習模型在概念抽取任務上也得到了廣泛應用。常用的關鍵詞提取方法包括樸素貝葉斯、決策樹、最大熵算法和支持向量機等,都需要大量數據來訓練分類器。Wang等人[7]采用長短期記憶LSTM(Long Short-Term Memory)神經網絡和卷積神經網絡CNN(Convolutional Neural Network)作為分類器提出了深度學習模型;趙洪等人[8]提出了深度學習模型Bi-LSTM-CRF,將中文文檔中每個詞的詞向量和詞性特征作為輸入,提升概念的抽取效率。通過機器學習進行概念的抽取是當前研究的熱點。Yuan等人[9]使用10種常見的統計數據作為訓練的特征,提出了一種機器學習方法,不同語料庫上的測試對比表明,該方法在概念抽取方面具有較高效率。丁澤源等人[10]在中文生物醫學領域基于深度學習提出了一種生物醫學實體關系抽取系統,可以準確地從中文文本中抽取實體及關系。有監督提取方法的預處理代價大,且依賴于人工標注和分類器特點。

無監督提取方法通過對無標記的數據進行學習,能夠發現數據中隱藏的結構性知識,泛化能力強。因此,對于關鍵詞提取的研究主要集中于使用無監督抽取方法。無監督方法包括基于簡單統計、基于圖和基于主題的方法3類。在抽取準確率方面,一些研究人員采用外部資源包括參考語料庫、維基百科等來提高概念抽取的準確率,Lopes等人[11]通過采用候選術語與出現的參考語料庫頻率來評估候選概念的領域特點;Mykowiecka 等人[12]通過參考語料庫和短語的上下文提出了過濾不相干短語的方法,但是一些領域并沒有可用的外部資源;夏天[13]通過word2vec生成詞向量,融合維基百科文檔,根據詞語與聚類質心的距離對詞語重要性加權,進而構建新的概率轉移矩陣;方俊偉等人[14]通過引入學術資源數據庫構建領域詞表,生成候選關鍵詞集合[15]。

綜上所述,基于深度學習的概念抽取方法在處理文本規模較大的任務時表現較優,具有較高的準確性和較強的穩定性,但其依賴復雜的學習模型,導致跨領域泛化力相對弱,且需要大量的標注數據和較長的訓練時間。這些方法都將概念抽取視為一個二分類的問題,同時,在標注的過程中涉及到的標注的復雜性和主觀性都關系到最后的質量,進而影響模型性能。針對以上問題,結合文本概念的專業性特點,本文采用模糊貝葉斯決策對傳統核心概念抽取方法進行改進。首先,隨機選取大量文本進行分詞對詞匯進行篩選優化處理;其次,結合詞頻-逆向文件頻率TF-IDF(Term Frequency- Inverse Document Frequency)和信息熵對分詞進行特征值計算,提出概念隸屬度,根據詞匯的概念隸屬度進行排序;最后,抽取到核心概念詞匯,同時結合機器學習方法提高概念抽取效率。為避免人工標注的主觀失誤影響模型效果,本文以傳統抽取方法得出的結果作為語料庫來訓練和驗證本文方法的準確率和效率,將本文方法與傳統抽取方法對比以優化本文方法中的各項參數,使其達到最優效果。

3 基于模糊數學的核心概念抽取方法

本文核心概念抽取主要包括3個階段:數據預處理階段、核心概念抽取階段和算法優化處理階段。數據預處理階段通過分詞、去停用詞和詞性過濾得出候選詞;核心概念抽取階段基于TF-IDF進行詞匯的二元指標特征統計,提出了概念隸屬度并且計算各候選詞的概念隸屬度進而抽取核心概念,同時通過混淆矩陣驗證概念隸屬度方法抽取的核心概念的準確率;在算法優化處理階段通過貝葉斯分類器及BP神經網絡搭建對比模型,得出最優實驗結果。整體框架如圖1所示。

Figure 1 Framework of text core concept extraction method based on fuzzy Bayesian decision-making圖1 基于模糊貝葉斯決策的文本核心概念抽取方法框架

3.1 基于模糊數學的概念隸屬度

在進行概念抽取之前,首先需要過濾得到候選概念。候選概念通常是由名詞或者帶有形容詞、副詞等修飾詞的短語組成[16],它們是待處理語料中具有代表性的概念。為了提升抽取的效率和準確率,本文采用自然語言處理技術將候選概念從文本中提取出來。首先,調用Python中的jieba分詞工具進行分詞和詞性標注;然后,去停用詞和虛詞;接著,利用jieba分詞進行詞頻統計并將候選概念降序排列;最后,根據概念詞的定義對詞性進行過濾,得到最終的候選概念集。

本文采用模糊綜合評價法,引入模糊統計對影響概念的各個因素是否應歸納為核心概念做出科學評判[17]。根據概念詞頻和詞頻-逆向文件頻率,提出一種概念的模糊關系表示,建立更為科學合理的隸屬關系。

為了描述概念的不確定性,本文以文獻[18]的模糊概念格為基礎,引入概念隸屬度,給出概念隸屬度的定義,將概念與概念詞頻、詞頻-逆向文件頻率等屬性的關系推廣到模糊關系,實現概念與屬性間非確定性關系的模糊表示。通過分析發現,概念的詞頻特征和詞頻-逆向文件頻率這2個因素越高的概念,屬于核心概念的概率越大。

通常情況下,一個概念的詞頻越大,說明它出現的頻率越高,也可以說明這個概念越重要,這些都反映了該概念屬于核心概念的概率大小。通過挖掘概念的詞頻權重和TF-IDF權重,有助于定量分析概念屬于核心概念的概率,從而實現概念與特征間的模糊決策。在文獻[19]的基礎上,結合詞頻權重和TF-IDF權重獲取概念出現的頻率,并計算該詞的特征值。在經過歸一化處理后,得到概念-特征模糊矩陣。概念隸屬度的計算過程描述如下:首先,對文本進行預處理獲得候選概念集D;然后,計算概念的詞頻權重wTF和TF-IDF權重wTF-IDF;最后,通過歸一化方式將值標準化,得到概念s在概念集D中不同概念的模糊隸屬度。規定隸屬度越大,概念屬于核心概念的概率越大。概念s在概念集D中的權重w值及歸一化計算如式(1)所示:

w=wTF×FTF+wTF-IDF×FTF×FIDF=

(1)

其中,FTF表示概念s在文檔di中出現的概率,FIDF表示逆向文本頻率,fs,i表示概念s在文檔di中出現的次數,ND表示概念s出現在背景語料中的文檔數,N表示背景語料的文檔總數。那么概念隸屬度μ(s,c)的計算如式(2)所示:

(2)

其中,μ(s,c)表示標準化后的概念s關于特征c的概念隸屬度,ts表示權重w標準化之后的值,tsmax是向量值中的最大值,tsmin是向量值中的最小值。

設定三元組K=(S,C,R)為一個模糊形式背景,其中,S為概念集,C是概念的特征集,R是S*C上的一個模糊關系。如果關系集中的任意元素,均存在一個映射,使得s∈S,c∈C滿足μ(s,c)∈[0,1],則μ(s,c)是概念s關于特征c的概念隸屬度,即概念隸屬度是S*C上的一個模糊關系。對概念的隸屬度進行評價,首先獲取大量候選概念,計算概念的詞頻權值和TF-IDF權值,然后對候選概念進行模糊分類。概念隸屬度的引入使得概念的抽取圍繞著核心概念集合,縮小了概念的抽取范圍,減少了噪聲數據的產生。

3.2 基于貝葉斯決策的核心概念抽取

在統計學中,貝葉斯分類算法分類準確率高、簡單、速度快,是一種常用的分類方法。為了提升本文方法在實際運用中的效率和準確率,在抽取核心概念的基礎上,搭建一個貝葉斯分類器,便于在實際應用中對本文方法進行評估與改進。

設F={x1,x2,x3,…,xn}為待分類項集合即訓練集,訓練集和測試集根據一定的比例分配。x={a1,a2,a3}為一個待分類項即一個數據樣本,而每個a為x的一個特征屬性,一個待分類項有3個特征屬性。本文實驗中,a1為標準化后的TF-IDF值,a2為標準化后的詞頻,a3為熵權法的計算結果。本文實驗將待分類數據分為2類,G={y1,y2},y1為核心概念,y2為非核心概念。計算估計類先驗概率,本文實驗每個類別所占整體數據集的比例記為p。

假設特征的條件概率分布滿足正態分布,實現高斯貝葉斯分類器,采用概率密度函數計算條件概率p(x|g)。計算各個屬性在各類樣本的條件概率如式(3)所示:

(3)

其中,i個屬性分別表示a1,a2,a3;g表示y1和y2,μ(g,i)和σ(g,i)2分別是第g類樣本在第i個屬性上取值的均值和方差。

然后,對待分類數據進行分類時通過貝葉斯公式計算后驗概率分布并得出預測結果,如式(4)所示:

p(g|xi)=p(xi|g)*p

(4)

其中,p是先驗概率。

再通過式(5)取出后驗概率最大的作為最終預測結果:

(5)

4 實驗過程和結果分析

4.1 數據預處理

本文采用THUCNews作為目標語料庫進行實驗。該語料庫包含了74萬篇新聞文檔,均由來自于新浪新聞RSS訂閱頻道的歷史數據篩選過濾生成[20]。本文從語料庫中隨機選取了涉及財經的1 000篇文本進行概念抽取。

從文本中抽取核心概念,需要先對文本進行劃分,獲得由詞語組成的待抽取文本,然后篩選出符合概念詞詞性的分詞,最終得到包括10 685個候選概念的候選概念集。

4.2 實驗過程

本文實驗利用傳統TF-IDF算法對候選詞進行篩選分類,實驗中top-k設置為10 685,計算出所有候選詞的權重。結果如表1所示(以TF-IDF權重值前10的數據為例),然后選取大于TF-IDF權重平均值的候選詞構建候選概念集。

Table 1 Set of candidate concepts

結合信息熵對候選概念進行指標權重計算,進而對實驗數據進行概念詞抽取。指標由TF-IDF權重值及詞頻構成,為避免后續實驗數據規則不統一對實驗結果造成的影響,首先對實驗數據進行歸一化處理,歸一化處理后的TF-IDF權重值記為特征值1,歸一化后的詞頻記為特征值2。同時,本文根據熵權法指標權重計算式[21],通過輸入所有候選數據及歸一化指標得到各指標的權重,得出TF-IDF權重值所占指標權重為0.445 591 342,詞頻權重值所占指標權重為0.554 408 658。然后對實驗數據指標進行加權處理,計算出各候選概念的概念隸屬度,選取結果大于0.000 1的概念為核心概念,以本文方法排名前10的概念為例,如表2所示。

4.3 實驗結果分析

為了深入驗證本文方法的有效性和準確性,將本文方法與傳統TextRank算法[22]、LDA主題模型[23]、word2vec詞聚類模型[24]、RNN[25]及LSTM[26]進行對比,依次計算出概念抽取的準確率等各項模型評估參數結果,結果如圖2所示。

實驗結果表明,本文方法準確率最高,錯誤率最低,精確度方面與RNN、LSTM相近。在準確率方面,word2vec的準確率最低,達到了64%,本文方法的準確率為96%,比LSTM方法的91%提高了5%。在精確度方面,TextRank和word2vec的精確度較低,本文方法與RNN和LSTM的精確度接近,比這2種方法略高。在F1-Score方面,本文方法與其它方法對比達到了最優,TextRank的F1-Score最低為62%,本文方法達到了95%。無論從準確率還是效率,綜合評價本文方法都比其他方法更優,結果如表3所示。

Figure 2 Comparisive results of multiple methods圖2 多種方法的對比結果

由表3可以得出,本文方法在準確率、召回率和F1-Score值方面都高于其它方法的,精確率與LSTM接近,證明了本文方法的可行性和有效性。當然,在效率上本文方法相比其它方法還需要進一步改進,精確度也需要進一步提升。

5 結束語

針對概念抽取在領域本體構建中的重要性,本文提出了一種基于模糊貝葉斯決策的核心概念抽取方法,采用TF-IDF算法計算候選概念的各項特征值,結合概念隸屬度歸一化處理候選概念特征值,通過貝葉斯決策計算候選概念為核心概念的概率,實驗取得了較好的結果。這種方法不僅為核心概念的抽取提供了參考,同時也為下一步的關系挖掘和知識庫構建奠定了基礎。

Table 2 Conceptual membership calculation

Table 3 Comparisive results in several ways

猜你喜歡
概念文本方法
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产jizzjizz视频| hezyo加勒比一区二区三区| 拍国产真实乱人偷精品| 亚洲综合色吧| 真实国产乱子伦高清| 国产精品无码AV中文| 欧美日韩导航| 亚洲成人www| 亚洲av无码成人专区| 国产精品美人久久久久久AV| 在线国产三级| 精品無碼一區在線觀看 | 国产成人在线无码免费视频| 国产香蕉一区二区在线网站| 国产成人综合在线观看| 天天综合天天综合| 99热这里只有免费国产精品 | 日本成人福利视频| 国产美女在线免费观看| 久久免费视频6| 国产成人高清亚洲一区久久| 日韩AV无码一区| 九色免费视频| 久久亚洲综合伊人| 人禽伦免费交视频网页播放| 全部无卡免费的毛片在线看| 国产一级毛片yw| 天天色综合4| 中文字幕亚洲另类天堂| 视频二区中文无码| 999在线免费视频| 99视频精品全国免费品| 3344在线观看无码| 亚洲美女一区二区三区| 色丁丁毛片在线观看| 国产精品999在线| 亚洲国产成人自拍| 国内99精品激情视频精品| 免费国产高清视频| 91福利免费视频| 男女精品视频| a级毛片一区二区免费视频| 国产成人精品18| 亚洲IV视频免费在线光看| 亚洲人成色在线观看| 日韩高清在线观看不卡一区二区 | 中文无码精品a∨在线观看| 亚洲无线观看| 亚洲精品欧美日韩在线| 亚洲中字无码AV电影在线观看| 国产区人妖精品人妖精品视频| 欧美成人午夜影院| 高清国产在线| 国产乱子伦手机在线| av尤物免费在线观看| 国产美女叼嘿视频免费看| 四虎国产精品永久一区| 黄色网页在线观看| 亚洲丝袜中文字幕| 99久久精彩视频| a级毛片在线免费观看| 国产av色站网站| 99精品国产高清一区二区| 91在线中文| 久久天天躁狠狠躁夜夜躁| 久久免费精品琪琪| 九色综合伊人久久富二代| 精品无码国产一区二区三区AV| 99视频只有精品| 日本91视频| 青草精品视频| 成人va亚洲va欧美天堂| 久久九九热视频| 二级特黄绝大片免费视频大片| 国产尤物视频在线| 亚洲最新地址| 尤物精品视频一区二区三区| 啪啪国产视频| www亚洲精品| 一级成人a做片免费| 成人无码一区二区三区视频在线观看 | 亚洲欧美日韩综合二区三区|