999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文維基百科的概念獲取方法研究

2021-09-16 10:23:14蔡海博戴忠柱
遼寧師專學報(自然科學版) 2021年3期
關鍵詞:概念文本方法

蔡海博,戴忠柱

(營口理工學院基礎部,遼寧 營口 115004)

0 引言

隨著科技的進步和網絡技術的普及,人們學習知識的途徑趨于多樣化,越來越多的知識出現在網頁文本中.知識是由概念以及概念之間的關系組成的,如何快速自動地獲取知識,首先需要解決的是盡可能多的獲取準確的概念,現在新的概念在網絡中呈爆炸式增長,準確獲取這些概念對人工智能、信息檢索、自然語言問答等領域都起到至關重要的作用.

文本中蘊含著豐富的語義知識,目前文本知識獲取的研究基礎是概念獲取,概念獲取的數量和質量將決定后續語義關系的獲取.我們可以快速獲取文本已有的概念,但是如何根據已有概念獲取文本中暫時未出現的隱性概念則更有研究價值.從文本中獲取盡可能多的概念和語義關系可以幫助計算機構建知識結構,最大限度地理解文本內容.由此可見,概念獲取在機器學習、人工智能等領域有廣闊的應用前景.

維基百科(Wikipedia,簡稱Wiki)是世界上最大的在線百科全書,截至2021年,維基百科共有280種語言版本,包含了5 500多萬頁的定義和描述性信息.其中,中文維基百科共收錄條目120多萬條,涵蓋了生活中各個領域的知識.維基百科條目具有準確性高、半結構化等特點,廣泛應用于信息抽取、信息檢索、知識問答等領域的研究.

1 相關工作

概念獲取是知識獲取研究不可逾越的關鍵一步.目前概念獲取研究主要是面向Web語料或者特定領域文本.總的來說,概念獲取的方法可以大體上分為兩類:一種是基于統計的方法,另一種是基于文本語義的方法.

基于統計的方法主要是利用概念出現的頻數,借助互信息、信息熵、TF-IDF等方法抽取概念.姚建仁[1]提出了一種基于互信息和上下文模式匹配的方法獲取概念,首先對文本進行詞法分析,利用詞的上下文依賴特征實現概念獲取,并且建立了概念獲取和驗證相統一的系統.劉磊[2]通過人工總結設定“是一個”上下位關系規則,借助《同義詞詞林》通過模式匹配的方法從文本中自動獲取下位概念,實驗表明該方法效果較好.

基于概念語義的方法是通過詞法分析和聚類總結出概念的構詞規則,設定約束條件獲取概念.顏端武[3]在對航空發動機領域語料分詞的基礎上進行N元切分,利用基于統計的方法通過設定約束規則實現自動提取候選領域概念,該方法充分利用了文本語言學的特征,可以有效地獲取概念,但最后驗證概念準確性時需要人工判斷和篩選,有待改進.Gaoying Cui[4]提出利用維基百科的定義句和分類標簽抽取概念,并從70萬維基頁面中抽取出5萬概念,實驗證明該方法準確率達到78.5%.

2 概念獲取

本文首先介紹了隱性概念的合成算法,然后利用基于語言學的方法從維基百科中抽取顯性概念,再通過詞法分析和基于統計的方法建立前部構件庫、后部構件庫和候選概念詞構件庫,最后通過基于TF-IDF的改進算法、基于構建特征向量的方法和混合加權方法計算候選概念詞構件的相似度[5],人工設定閾值合成隱性概念擴充至已有概念庫.隱性概念合成算法的具體流程如圖1所示.

2.1 顯性概念獲取

概念是人們在學習認知過程中,用于表述某一類事物的特征的詞匯[6].顯性概念是指在文本中已經出現并被認為可以描述事物本質屬性的詞匯,一般為名詞、動名詞或者形容詞.

2.1.1 語料庫的獲取及預處理

由于本文研究的是中文的知識獲取,所以選取中文維基百科語料庫作為研究對象.首先從維基百科官網下載最新的中文維基百科語料庫,并對其進行預處理,步驟如下:

(1)下載最新語料庫(https://dumps.wikimedia.org/zhwiki/)[7],獲取壓縮包,解壓后該文件為XML文檔(zhwiki-20210731-pages-articles.xml),文件大小為9.5 GB.

(2)抽取文本.利用Python語言抽取XML文檔正文內容[8].

(3)繁簡轉換.使用OpenCC工具化繁為簡,便于后續詞法分析和概念獲取.

2.1.2 顯性概念獲取及預處理

為使后續隱性概念獲取的召回率和準確率足夠高,需盡可能多地獲取中文維基百科正文中的已有概念,并對其進行預處理,具體步驟如下:

(1)抽取中文維基百科的所有標題.維基百科中的每一個標題對應一篇文本,這些文本都是經過人工編寫并且反復推敲的,所以用其構建初始的顯性概念庫.

(2)對正文內容進行分詞和詞性標注[9],并抽取其中名詞詞匯補充至顯性概念庫.

(3)對顯性概念庫中的已有概念進行去噪、去重處理.噪聲包括特殊符號、除中文以外的其他語種以及英文音譯的人名.

經過上述步驟后共得到3 076 842個概念,構成中文維基百科語料庫的顯性概念庫.

2.2 隱性概念詞構件庫的構建

對顯性概念庫中已有概念的知識挖掘是本文的研究重點,通過分詞和統計的方法,根據已有概念得到其前部構件庫、后部構件庫和隱性概念詞構件庫,具體步驟如下:

(1)分詞.利用分詞系統ICTCLAS對已有概念進行分詞處理,選取具有實際意義的詞匯作為候選前部構件和候選后部構件.

(2)統計.選取候選前部構件庫和候選后部構件庫中出現頻數≥100的多字詞和名詞詞性的單字構建前部構件庫和后部構件庫.

(3)將已有概念去除前部構件和后部構件構建隱性概念詞構件庫.

處理結果見表1.

表1 前部構件庫和后部構件庫的處理結果 單位:個

2.3 隱性概念合成

本文通過3種方法計算隱性概念詞構件之間的相似度,并根據隱性概念詞構件和前部構件及后部構件的相關度,合成隱性概念,根據實驗結果選取最優方法.

2.3.1 基于TF-IDF的改進方法

該方法本質上屬于統計方法,若兩個隱性概念詞構件和同一個標題的相關度接近,則認為其相似.首先獲取兩個隱性概念詞構件和同一標題共現的所有語料,由于維基百科半結構化的特點,若隱性概念詞構件出現在定義句的位置,則認為其包含信息比其他位置更重要,故將其權重擴大為原來的3倍.算法具體步驟如下:

輸入:隱性概念詞構件共現的語料集合

其中,N為語料集合的總數.

隱性概念詞構件庫

其中m為隱性概念詞構件的總數.

公式(1)用于計算隱性概念詞構件和語料的緊密程度.其中:f1(Ctf,w i)表示隱性概念詞構件w i在語料C t的定義句中出現的次數;f2(Ct,w i)表示隱性概念詞構件w i在語料C t的其他位置中出現的次數.

公式(2)用于表示隱性概念詞構件的稀缺程度.

公式(3)用于計算隱性概念詞構件w i和語料C t的相關度.

公式(4)用于計算隱性概念詞構件之間的相似度.

2.3.2 基于構建特征向量的方法

該方法本質上屬于基于文本語義的方法,若兩個隱性概念詞構件出現的上下文語境相似,則認為其相似.首先獲取隱性概念詞構件共現的所有語料,對其進行分詞、詞性標注和去重處理,然后利用統計方法選取特征詞構建空間向量模型,最后利用余弦相似度的方法,計算其相似度.具體步驟如下:

(1)通過分詞、詞性標注和去重處理,篩選出名詞、形容詞和動名詞作為候選特征詞.

(2)利用統計方法選擇特征詞,并利用《同義詞詞林》擴充特征詞庫.

(3)構建空間向量模型,將隱性概念詞構件表示為由特征詞出現的頻數構成的向量.

(4)計算向量余弦相似度表示隱性概念詞構件之間的相似度sim2.

2.3.3 混合加權方法

上述基于TF-IDF的改進方法僅考慮詞頻對結果的影響,而基于構建特征向量的方法僅考慮語境的影響.混合加權方法綜合考慮詞頻和語境,并設定相應的權重,計算隱性概念詞構件之間的相似度.

公式(5)用于計算隱性概念詞構件之間的相似度.

3 實驗與分析

為驗證上述方法的有效性,選取人文、科學、藝術等不同領域的500個顯性概念進行驗證,考慮到實驗的運行效率,僅對前部構件進行處理.由于實驗合成的隱性概念數量較大,因此采用網絡驗證的方法驗證合成的隱性概念的準確性,即利用搜索引擎搜索合成的隱性概念,若該概念出現的頻數超過一定閾值,則認為該隱性概念是正確的.

3.1 基于TF-IDF的改進方法

根據上述2.3.1中的方法,計算隱性概念詞構件之間的相似度,并設定隱性概念詞構件相似度閾值為θ1,隱形概念詞構件和前部構件的相關度為θ2,超過閾值則可以合成隱性概念,僅考慮θ1取不同值時的實驗結果如圖2所示.

由圖2可以看出,合成隱性概念的個數隨著θ1取值的增大不斷減少,經網絡驗證,當θ1=0.75時,合成隱性概念的準確率相對較高,但是由于沒有考慮θ2的取值,準確率僅為37%.確定θ1的值后,由實驗結果可知,當θ2=0.5時準確率最高,可以達到54%.分析可得,僅僅考慮詞頻,效果不太理想.

3.2 基于構建特征向量的方法

由圖2可知,當θ1取值較大時,合成的隱性概念準確率較高,所以本次實驗選取θ1和θ2的值相對較大,實驗結果如表2所示.

由表2可知,當θ1和θ2取值越大,合成的隱性概念個數越少,經網絡驗證當θ1=0.75,θ2=0.5時,準確率最高,達到75%.可見概念的上下文語境要比詞頻的貢獻更大.

表2 基于構建特征向量方法合成隱性概念結果表

3.3 混合加權方法

上述兩次實驗結果顯示,當θ1=0.75時,效果相對較好.根據上述2.3.3中的方法,當α和θ2取不同的值時,合成的隱性概念結果如表3所示.

表3 基于混合加權方法合成隱性概念結果表

經網絡驗證,當α=0.4,θ1=0.75,θ2=0.5時準確率最高,達到82%,由此可見,綜合考慮概念的詞頻和上下文語義信息,合成的隱性概念效果更好.

4 結語

本文主要研究了隱性概念的合成問題,首先利用分詞和統計的方法獲取維基百科中的顯性概念,然后利用構詞特征構建前部構件庫、后部構件庫和隱性概念詞構件庫.經過計算隱性概念詞構件之間的相似度及隱性概念詞構件和前后部構件的相關度,合成隱性概念,實驗結果顯示可以有效擴充已知概念庫[10],但仍有以下不足需要考慮:

(1)由于本文使用分詞工具比較頻繁,因此分詞和詞性標注結果的準確性對實驗結果有一定的影響,可知實現更加準確的分詞方法也是以后待研究的工作.

(2)網絡驗證的準確性會有誤差[11],本文判斷概念正確與否的標準是概念是否在搜索引擎中以超過一定的頻數出現,但是有些概念可能暫時沒有在互聯網中出現,經過人工判斷后可能是正確的概念,比如“哈密頓望遠鏡”、“水利縣”、“爆炸系數”等.

猜你喜歡
概念文本方法
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 四虎成人在线视频| 日本妇乱子伦视频| 国产呦精品一区二区三区网站| av大片在线无码免费| 尤物精品视频一区二区三区| www成人国产在线观看网站| 久久99蜜桃精品久久久久小说| 亚洲欧美另类色图| 最新国产网站| 国产精品3p视频| 干中文字幕| 欧美怡红院视频一区二区三区| 中国国产一级毛片| 67194成是人免费无码| 亚洲综合专区| 中文字幕首页系列人妻| 亚洲精品图区| 亚洲av无码久久无遮挡| 亚洲香蕉久久| 婷婷激情五月网| 国产高清在线精品一区二区三区| 久久99久久无码毛片一区二区 | 色135综合网| 国产网友愉拍精品| 久久综合成人| 日韩无码真实干出血视频| 在线观看国产精美视频| 97视频在线精品国自产拍| 老司机久久99久久精品播放| 亚洲色无码专线精品观看| 国产一区二区三区精品久久呦| 欧美精品成人一区二区在线观看| 红杏AV在线无码| 91精品国产自产在线老师啪l| 午夜性爽视频男人的天堂| 高潮毛片免费观看| 在线观看精品国产入口| 97久久免费视频| 精品久久高清| 国产鲁鲁视频在线观看| 国产手机在线ΑⅤ片无码观看| 国产91精品调教在线播放| 国产1区2区在线观看| 国产大片黄在线观看| 亚洲国产日韩欧美在线| 中文成人在线视频| 国内精自线i品一区202| 欧美激情视频二区| 91亚洲视频下载| 欧美精品在线免费| 亚洲热线99精品视频| 国产伦精品一区二区三区视频优播| 蝴蝶伊人久久中文娱乐网| 成年女人a毛片免费视频| av午夜福利一片免费看| 亚洲V日韩V无码一区二区| 国产经典免费播放视频| 欧美色亚洲| 一级毛片免费观看久| 福利在线不卡一区| 欧美午夜网站| 最新国产精品第1页| 欧美日韩国产精品va| 国产亚洲欧美日韩在线一区二区三区| 国产99久久亚洲综合精品西瓜tv| 国产美女在线观看| 国产欧美自拍视频| 久久精品国产999大香线焦| 亚洲日韩高清无码| 久久亚洲日本不卡一区二区| 亚洲中文精品久久久久久不卡| 四虎AV麻豆| 久久性妇女精品免费| 精品欧美日韩国产日漫一区不卡| 午夜限制老子影院888| 999精品视频在线| 刘亦菲一区二区在线观看| 99视频国产精品| 精品人妻一区无码视频| 日日拍夜夜操| 免费国产高清精品一区在线| 久久国产毛片|