999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文維基百科的概念獲取方法研究

2021-09-16 10:23:14蔡海博戴忠柱
遼寧師專學報(自然科學版) 2021年3期
關鍵詞:概念文本方法

蔡海博,戴忠柱

(營口理工學院基礎部,遼寧 營口 115004)

0 引言

隨著科技的進步和網絡技術的普及,人們學習知識的途徑趨于多樣化,越來越多的知識出現在網頁文本中.知識是由概念以及概念之間的關系組成的,如何快速自動地獲取知識,首先需要解決的是盡可能多的獲取準確的概念,現在新的概念在網絡中呈爆炸式增長,準確獲取這些概念對人工智能、信息檢索、自然語言問答等領域都起到至關重要的作用.

文本中蘊含著豐富的語義知識,目前文本知識獲取的研究基礎是概念獲取,概念獲取的數量和質量將決定后續語義關系的獲取.我們可以快速獲取文本已有的概念,但是如何根據已有概念獲取文本中暫時未出現的隱性概念則更有研究價值.從文本中獲取盡可能多的概念和語義關系可以幫助計算機構建知識結構,最大限度地理解文本內容.由此可見,概念獲取在機器學習、人工智能等領域有廣闊的應用前景.

維基百科(Wikipedia,簡稱Wiki)是世界上最大的在線百科全書,截至2021年,維基百科共有280種語言版本,包含了5 500多萬頁的定義和描述性信息.其中,中文維基百科共收錄條目120多萬條,涵蓋了生活中各個領域的知識.維基百科條目具有準確性高、半結構化等特點,廣泛應用于信息抽取、信息檢索、知識問答等領域的研究.

1 相關工作

概念獲取是知識獲取研究不可逾越的關鍵一步.目前概念獲取研究主要是面向Web語料或者特定領域文本.總的來說,概念獲取的方法可以大體上分為兩類:一種是基于統計的方法,另一種是基于文本語義的方法.

基于統計的方法主要是利用概念出現的頻數,借助互信息、信息熵、TF-IDF等方法抽取概念.姚建仁[1]提出了一種基于互信息和上下文模式匹配的方法獲取概念,首先對文本進行詞法分析,利用詞的上下文依賴特征實現概念獲取,并且建立了概念獲取和驗證相統一的系統.劉磊[2]通過人工總結設定“是一個”上下位關系規則,借助《同義詞詞林》通過模式匹配的方法從文本中自動獲取下位概念,實驗表明該方法效果較好.

基于概念語義的方法是通過詞法分析和聚類總結出概念的構詞規則,設定約束條件獲取概念.顏端武[3]在對航空發動機領域語料分詞的基礎上進行N元切分,利用基于統計的方法通過設定約束規則實現自動提取候選領域概念,該方法充分利用了文本語言學的特征,可以有效地獲取概念,但最后驗證概念準確性時需要人工判斷和篩選,有待改進.Gaoying Cui[4]提出利用維基百科的定義句和分類標簽抽取概念,并從70萬維基頁面中抽取出5萬概念,實驗證明該方法準確率達到78.5%.

2 概念獲取

本文首先介紹了隱性概念的合成算法,然后利用基于語言學的方法從維基百科中抽取顯性概念,再通過詞法分析和基于統計的方法建立前部構件庫、后部構件庫和候選概念詞構件庫,最后通過基于TF-IDF的改進算法、基于構建特征向量的方法和混合加權方法計算候選概念詞構件的相似度[5],人工設定閾值合成隱性概念擴充至已有概念庫.隱性概念合成算法的具體流程如圖1所示.

2.1 顯性概念獲取

概念是人們在學習認知過程中,用于表述某一類事物的特征的詞匯[6].顯性概念是指在文本中已經出現并被認為可以描述事物本質屬性的詞匯,一般為名詞、動名詞或者形容詞.

2.1.1 語料庫的獲取及預處理

由于本文研究的是中文的知識獲取,所以選取中文維基百科語料庫作為研究對象.首先從維基百科官網下載最新的中文維基百科語料庫,并對其進行預處理,步驟如下:

(1)下載最新語料庫(https://dumps.wikimedia.org/zhwiki/)[7],獲取壓縮包,解壓后該文件為XML文檔(zhwiki-20210731-pages-articles.xml),文件大小為9.5 GB.

(2)抽取文本.利用Python語言抽取XML文檔正文內容[8].

(3)繁簡轉換.使用OpenCC工具化繁為簡,便于后續詞法分析和概念獲取.

2.1.2 顯性概念獲取及預處理

為使后續隱性概念獲取的召回率和準確率足夠高,需盡可能多地獲取中文維基百科正文中的已有概念,并對其進行預處理,具體步驟如下:

(1)抽取中文維基百科的所有標題.維基百科中的每一個標題對應一篇文本,這些文本都是經過人工編寫并且反復推敲的,所以用其構建初始的顯性概念庫.

(2)對正文內容進行分詞和詞性標注[9],并抽取其中名詞詞匯補充至顯性概念庫.

(3)對顯性概念庫中的已有概念進行去噪、去重處理.噪聲包括特殊符號、除中文以外的其他語種以及英文音譯的人名.

經過上述步驟后共得到3 076 842個概念,構成中文維基百科語料庫的顯性概念庫.

2.2 隱性概念詞構件庫的構建

對顯性概念庫中已有概念的知識挖掘是本文的研究重點,通過分詞和統計的方法,根據已有概念得到其前部構件庫、后部構件庫和隱性概念詞構件庫,具體步驟如下:

(1)分詞.利用分詞系統ICTCLAS對已有概念進行分詞處理,選取具有實際意義的詞匯作為候選前部構件和候選后部構件.

(2)統計.選取候選前部構件庫和候選后部構件庫中出現頻數≥100的多字詞和名詞詞性的單字構建前部構件庫和后部構件庫.

(3)將已有概念去除前部構件和后部構件構建隱性概念詞構件庫.

處理結果見表1.

表1 前部構件庫和后部構件庫的處理結果 單位:個

2.3 隱性概念合成

本文通過3種方法計算隱性概念詞構件之間的相似度,并根據隱性概念詞構件和前部構件及后部構件的相關度,合成隱性概念,根據實驗結果選取最優方法.

2.3.1 基于TF-IDF的改進方法

該方法本質上屬于統計方法,若兩個隱性概念詞構件和同一個標題的相關度接近,則認為其相似.首先獲取兩個隱性概念詞構件和同一標題共現的所有語料,由于維基百科半結構化的特點,若隱性概念詞構件出現在定義句的位置,則認為其包含信息比其他位置更重要,故將其權重擴大為原來的3倍.算法具體步驟如下:

輸入:隱性概念詞構件共現的語料集合

其中,N為語料集合的總數.

隱性概念詞構件庫

其中m為隱性概念詞構件的總數.

公式(1)用于計算隱性概念詞構件和語料的緊密程度.其中:f1(Ctf,w i)表示隱性概念詞構件w i在語料C t的定義句中出現的次數;f2(Ct,w i)表示隱性概念詞構件w i在語料C t的其他位置中出現的次數.

公式(2)用于表示隱性概念詞構件的稀缺程度.

公式(3)用于計算隱性概念詞構件w i和語料C t的相關度.

公式(4)用于計算隱性概念詞構件之間的相似度.

2.3.2 基于構建特征向量的方法

該方法本質上屬于基于文本語義的方法,若兩個隱性概念詞構件出現的上下文語境相似,則認為其相似.首先獲取隱性概念詞構件共現的所有語料,對其進行分詞、詞性標注和去重處理,然后利用統計方法選取特征詞構建空間向量模型,最后利用余弦相似度的方法,計算其相似度.具體步驟如下:

(1)通過分詞、詞性標注和去重處理,篩選出名詞、形容詞和動名詞作為候選特征詞.

(2)利用統計方法選擇特征詞,并利用《同義詞詞林》擴充特征詞庫.

(3)構建空間向量模型,將隱性概念詞構件表示為由特征詞出現的頻數構成的向量.

(4)計算向量余弦相似度表示隱性概念詞構件之間的相似度sim2.

2.3.3 混合加權方法

上述基于TF-IDF的改進方法僅考慮詞頻對結果的影響,而基于構建特征向量的方法僅考慮語境的影響.混合加權方法綜合考慮詞頻和語境,并設定相應的權重,計算隱性概念詞構件之間的相似度.

公式(5)用于計算隱性概念詞構件之間的相似度.

3 實驗與分析

為驗證上述方法的有效性,選取人文、科學、藝術等不同領域的500個顯性概念進行驗證,考慮到實驗的運行效率,僅對前部構件進行處理.由于實驗合成的隱性概念數量較大,因此采用網絡驗證的方法驗證合成的隱性概念的準確性,即利用搜索引擎搜索合成的隱性概念,若該概念出現的頻數超過一定閾值,則認為該隱性概念是正確的.

3.1 基于TF-IDF的改進方法

根據上述2.3.1中的方法,計算隱性概念詞構件之間的相似度,并設定隱性概念詞構件相似度閾值為θ1,隱形概念詞構件和前部構件的相關度為θ2,超過閾值則可以合成隱性概念,僅考慮θ1取不同值時的實驗結果如圖2所示.

由圖2可以看出,合成隱性概念的個數隨著θ1取值的增大不斷減少,經網絡驗證,當θ1=0.75時,合成隱性概念的準確率相對較高,但是由于沒有考慮θ2的取值,準確率僅為37%.確定θ1的值后,由實驗結果可知,當θ2=0.5時準確率最高,可以達到54%.分析可得,僅僅考慮詞頻,效果不太理想.

3.2 基于構建特征向量的方法

由圖2可知,當θ1取值較大時,合成的隱性概念準確率較高,所以本次實驗選取θ1和θ2的值相對較大,實驗結果如表2所示.

由表2可知,當θ1和θ2取值越大,合成的隱性概念個數越少,經網絡驗證當θ1=0.75,θ2=0.5時,準確率最高,達到75%.可見概念的上下文語境要比詞頻的貢獻更大.

表2 基于構建特征向量方法合成隱性概念結果表

3.3 混合加權方法

上述兩次實驗結果顯示,當θ1=0.75時,效果相對較好.根據上述2.3.3中的方法,當α和θ2取不同的值時,合成的隱性概念結果如表3所示.

表3 基于混合加權方法合成隱性概念結果表

經網絡驗證,當α=0.4,θ1=0.75,θ2=0.5時準確率最高,達到82%,由此可見,綜合考慮概念的詞頻和上下文語義信息,合成的隱性概念效果更好.

4 結語

本文主要研究了隱性概念的合成問題,首先利用分詞和統計的方法獲取維基百科中的顯性概念,然后利用構詞特征構建前部構件庫、后部構件庫和隱性概念詞構件庫.經過計算隱性概念詞構件之間的相似度及隱性概念詞構件和前后部構件的相關度,合成隱性概念,實驗結果顯示可以有效擴充已知概念庫[10],但仍有以下不足需要考慮:

(1)由于本文使用分詞工具比較頻繁,因此分詞和詞性標注結果的準確性對實驗結果有一定的影響,可知實現更加準確的分詞方法也是以后待研究的工作.

(2)網絡驗證的準確性會有誤差[11],本文判斷概念正確與否的標準是概念是否在搜索引擎中以超過一定的頻數出現,但是有些概念可能暫時沒有在互聯網中出現,經過人工判斷后可能是正確的概念,比如“哈密頓望遠鏡”、“水利縣”、“爆炸系數”等.

猜你喜歡
概念文本方法
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久草视频精品| 九九久久99精品| 亚洲国产欧美国产综合久久| 超级碰免费视频91| 亚洲国产综合自在线另类| 亚洲国产精品美女| 91毛片网| 亚洲成人福利网站| 成人一区在线| 黑人巨大精品欧美一区二区区| 久久一本日韩精品中文字幕屁孩| 国产在线自在拍91精品黑人| 青青国产成人免费精品视频| 国产精品99在线观看| 美女高潮全身流白浆福利区| 中文字幕va| 最新加勒比隔壁人妻| 高清色本在线www| 久久影院一区二区h| 曰韩免费无码AV一区二区| 国产一区亚洲一区| 亚洲无码A视频在线| 无码精品国产dvd在线观看9久| 亚洲天堂网2014| 色噜噜综合网| 久久伊伊香蕉综合精品| 国产另类视频| av色爱 天堂网| 香蕉精品在线| 国产极品嫩模在线观看91| 日韩美女福利视频| 黄色网页在线观看| 日韩一二三区视频精品| 欧美视频在线观看第一页| 777午夜精品电影免费看| 综合色区亚洲熟妇在线| 久久中文电影| av在线手机播放| 精品无码国产一区二区三区AV| 国产特级毛片aaaaaaa高清| 久久亚洲日本不卡一区二区| 久久亚洲国产一区二区| 国产精品主播| 2022精品国偷自产免费观看| 自拍亚洲欧美精品| 婷婷色中文| 欧美一级高清免费a| 国产精品久久久免费视频| 国产高清自拍视频| 国产资源免费观看| 免费99精品国产自在现线| 中文字幕有乳无码| 国产精品yjizz视频网一二区| 久久综合色天堂av| 久久综合结合久久狠狠狠97色 | 国产高清免费午夜在线视频| 久久大香香蕉国产免费网站| 综合久久久久久久综合网| 亚洲欧洲免费视频| 欧美在线网| 午夜视频在线观看免费网站| 亚洲AV无码精品无码久久蜜桃| 一本大道无码高清| www亚洲天堂| 成年网址网站在线观看| 无码人妻热线精品视频| 亚洲成人www| 精品国产一区二区三区在线观看| 欧美在线黄| 91亚洲精品第一| 免费久久一级欧美特大黄| 中日无码在线观看| 97se亚洲综合在线天天| 国产97公开成人免费视频| 香蕉eeww99国产精选播放| 制服丝袜 91视频| 99热亚洲精品6码| 欧美在线一级片| 国产精品分类视频分类一区| 国产极品美女在线观看| 欧美中出一区二区| 91成人在线免费视频|