999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的結構化數據分類算法研究*

2022-09-07 12:52:30王勝漪劉汪洋蔡惠民
計算機時代 2022年9期
關鍵詞:分類文本模型

王勝漪,劉汪洋,鄒 佳,蔡惠民

(中電科大數據研究院有限公司 提升政府治理能力大數據應用技術國家工程實驗室,貴州 貴陽 550081)

0 引言

在大數據發展的今天,政府數據資源的開放共享是大數據產業蓬勃發展的關鍵。我國的數據資源分類管理體系還不健全,這是阻礙政府數據開放共享的重要因素之一。政府數據的分類管理有助于理清數據管理和共享開放的義務及權利,幫助政府加快推動政務信息系統互聯及數據共享,增強政府公信力,為大數據產業發展提供安全支撐。目前我們需要聚焦于政府數據的自動分類。

政府數據存在多種類型,如:結構化庫表數據、非結構化文本數據以及多媒體數據等,本文針對政府領域結構化庫表數據展開深入研究,探討文本的自動分類算法。嘗試通過知識圖譜解決標簽數據少及數據交叉性問題。

1 文本分類算法

按照領域劃分,文本分類任務可分為主題分類、情感分類、問題分類等。按照計算方法劃分,文本分類任務可分為傳統文本分類和基于深度學習的文本分類。傳統文本分類中特征選擇對分類結果至關重要。靳一凡等人提出了基于頻繁項特征擴展的短文本分類方法,通過FP-growth 算法將擴展特征權重加入到特征空間,訓練SVM 實現短文本分類。黃春梅等人提出將詞袋模型和TF-IDF 結合,實現短文本分類,通過詞袋模型提取詞頻矩陣,結合TF-IDF 提取文本特征實現分類。但傳統文本分類算法不適用于政府結構化庫表數據中的大量的交叉性數據。

近幾年,基于深度學習的文本分類方法得到了廣大研究學者的歡迎。Kim提出TextCNN 模型,通過卷積神經網絡學習句子特征實現文本分類。Jacob提出了非常經典的BERT 預訓練模型,在大規模語料庫上實現模型預訓練,基于下游NLP 任務的數據集對BERT 預訓練模型進行微調。劉碩等人提出一種基于混合字詞特征深度神經網絡模型的中文短文本分類算法。深度模型雖然能較好地捕捉文本中的語義信息,但深度模型需要大量的訓練數據集,對政府結構化庫表數據的小樣本數據無法完成模型訓練。

政府領域結構化庫表數據的特點是標簽數據少、數據交叉多,而傳統文本分類模型和深度學習模型均不適用于該類數據。

2 知識圖譜

知識圖譜是結構化的語義知識庫,以符號形式描述物力世界中的概念及其相互關系,揭示各領域知識的動態發展規律,為領域研究提供可解釋性數據。現如今,知識圖譜已經成為推動人工智能和互聯網發展的核心技術之一。

按知識圖譜的構建領域進行劃分,分為通用知識圖譜和領域知識圖譜。通用知識圖譜屬于百科類圖譜,互聯網上發布有大量百科類圖譜供學者們使用,常用的有DBpedia、YAGO、Freebase等。領域知識圖譜指特定應用領域的圖譜,如:金融知識圖譜、自然災害應急知識圖譜、醫學知識圖譜等。通過信息抽取、知識融合、知識推理等技術實現高精度、高效率的知識圖譜自動構建,為知識圖譜的大量應用提供技術支撐,如語義搜索、智能問答、個性化推薦、輔助決策等。

3 基于知識圖譜的文本分類算法

3.1 算法結構

針對政府結構化庫表數據中存在的標簽數據少、數據交叉多等難題,本文采用結合政務知識圖譜、BERT 模型以及基于TF-IDF 的主題權重模型共同實現政府數據自動分類,如圖1所示。

圖1 本文分類算法流程圖

整個分類算法可劃分為四個模塊,分別是分詞模塊、KG-BERT模塊、KG-STopic(KG-Single Topic)模塊和KG-MTopic(KG-Multiple Topic)模塊。分詞模塊采用工具將輸入數據劃分為單個詞組;KGBERT 模塊主要針對政務知識圖譜中查詢無主題的庫表數據進行分類;KG-STopic 模塊對單主題數據進行分類;KG-MTopic 模塊是通過TF-IDF 實現多主題數據分類。

3.2 政務知識圖譜的構建

政務知識圖譜是依據《綜合電子政務主題詞表》構建所得,該詞表是我國第一部按國家標準編制的,是目前國內外收納詞匯量最多、專業覆蓋面最廣的綜合性電子政務主題詞表。

該詞表分為范疇表和字順表,共收錄20252 條關鍵詞,范疇索引劃分為21 個大類、132 個二級類和37個三級類。通過分詞工具把詞表中的全部實體信息抽取出來,再結合范疇表中三個級別的類型劃分,依次將抽取出來的實體設定為頭實體和尾實體,實體間的關系為“包含”和“被包含”的關系,呈現出網狀關系型結構。并采用詞袋模型取前后實體指稱項的詞構成特征向量,通過對比余弦相似度達到聚類的目的,解決實體冗余、實體消歧的問題。

3.3 KG-BERT分類模型

本論文在結合知識圖譜與BERT 模型基礎上,通過數據擴充增加數據量用以訓練BERT 模型,再結合TF-IDF 和LDA 模型共同實現政府結構化庫表數據的分類任務,算法流程如圖2所示。

圖2 KG-BERT算法流程圖

KG-BERT算法流程具體步驟如下:

⑴結合政府領域核心詞庫完成jieba 分詞,劃分出每條數據的核心詞匯;

⑵將核心詞依次輸入知識圖譜,查詢唯一主題詞過濾掉無主題詞和多個主題詞的數據,得到ST(Single Topic)數據集;

⑶通過政府數據匹配規則修正ST 數據集,得到PM(Preliminary Modified)數據集;

⑷ 結合政務知識圖譜和LDA(Latent Dirichlet Allocation)模型實現數據擴充,得到DR(Data Replacement)數據集;

⑸融合PM 數據和DR 數據,得到經擴展后的KE(KG Expansion)數據集;

⑹通過KE 數據集訓練BERT 模型,完成文本分類任務。

以上步驟⑷中設定k=10作為擴充停止條件,遍歷所有主題詞,若該詞在政務知識圖譜中存在對應的關聯關系,則實現數據的詞替換。數據匹配規則是修正通過知識圖譜得到的唯一主題詞數據,提高訓練集標簽準確率。

為了體現出匹配規則和擴充算法的有效性,本文選取結構化庫表數據中的十個類別數據作為實驗數據,包含3600 條無標注數據,通過除去無主題和多主題數據后得到1500條唯一主題數據,經數據擴充后得到3284條有效數據,并將以上步驟得到的數據分別通過BERT、CNN、RNN、LSTM 完成實驗對比,詳細測試結果如表1所示。

表1 不同數據集下的BERT模型分類準確率%

與其余三個模型相比,BERT 模型在政府庫表短文本數據分類任務中表現更佳。從訓練集上看,添加匹配規則和數據擴充的訓練集在模型上表現更好。其原因在于通過初選出來的訓練集存在較大誤差,對模型訓練存在誤導,而糾錯后的數據更接近真實標注結果,通過圖譜擴充后模型會更好的擬合真實數據。

3.4 基于TF-IDF的多主題權重判定模型

針對在圖譜中查詢到多個主題的情況,本文提出基于TF-IDF 的多主題權重判定模型,通過計算多主題的TF-IDF 權重,選取最具有代表性的主題詞,從而達到政府數據分類的目的。

TF-IDF是一種統計方法,用以評估一個詞語對語料庫中某份文件的重要程度。在一份文件中,詞頻(Term Frequency,TF)是指某個特定詞語在文件中出現的次數,并考慮到詞頻計算的合理性,需要對詞頻進行歸一化處理,可表示為:

其中,n是詞語t在文件d中出現的次數,分母則表示文件d中出現的所有詞語之和,公式⑴表示關鍵詞在文檔中出現的頻率。

逆文件頻率(Inverse Document Frequency,IDF)是衡量一個詞重要性的度量,可表示為:

其中,|D|表示語料庫的總文件數,分母表示包含詞語ti的文件數目,即表示n≠0 的文件數目。通常,為了避免分母為零的情況,分母一般采用1+{:td} 。最終,TF-IDF的公式為:

本文利用TF-IDF 計算主題權重,選取權重最大值作為文本類型,步驟如下:

⑴對每個文本進行關鍵詞擴展;

⑵將拓展后的數據進行jieba分詞操作;

⑶將分詞后的結果再輸入政務知識圖譜進行主題查詢;

⑷由原始主題和拓展后的主題計算出每個原始主題的TF-IDF權重;

⑸對各原始主題的TF-IDF 權重進行排序,選取權重最大主題作為原數據類別。

以上步驟⑴中,通過政府數據基礎庫進行關鍵詞擴展。步驟⑵中,為了更準確的衡量各主題的重要性,TF-IDF 權重計算公式如下,其中,S表示擴展主題與原始主題相同的個數,n為擴展主題數,并將IDF設定為經驗取值100。

4 實驗與分析

4.1 實驗數據來源

實驗數據來源于某市政府庫表數據全量目錄,共計106698 條無標簽數據。抽取1500 條數據作為測試數據。數據類別為:交通運輸、醫藥衛生管理、企業、計劃生育、機構編制、法院、統計、經濟管理、政府工作、金融。該1500 條數據均由人工進行準確標注,其樣例如表2所示。

表2 某地級市政府數據樣例

本實驗數據包含各“委辦局名稱”、“系統名稱”、“表名稱”以及“字段名稱”,各名稱之間使用空格作為分隔符,每一行包含數據和與之相應的分類標簽。數據間存在嚴重的交叉性和標簽缺乏,對自動分類存在一定難度。

4.2 實驗結果及分析

為分析各個模塊對整個分類算法的影響程度,本實驗分模塊進行實驗統計。以1500 條測試數據作為輸入,統計出每種分類方法的精確率、召回率和F1值,如表3所示。

表3 不同模塊的實驗結果%

采用KG-STopic 進行數據過濾實現分類的準確率最高,這歸根于政府數據的強領域特征。與此同時,由于KG-BERT 模型采用的擴充訓練集,使得模型在處理多主題邊緣數據時效果欠佳。總的來說,結合知識圖譜的融合模型很大程度上依賴于KG-Stopic模塊,同時在KG-BERT 和KG-Mtopic 的協同下達到了理想的分類效果。

如圖3、圖4、圖5 分別統計了三種算法在各類別上的精確率、召回率和F1值。其中“無擴展分類算法”指采用無擴展數據訓練的融合方法,“擴展分類算法”指采用擴展數據訓練的KG-BERT。

圖3 三種分類算法精確率對比

圖4 三種分類算法召回率對比圖

圖5 三種分類算法F1值對比圖

從以上分類結果對比圖中不難發現,三種分類算法結果相比,本文算法的精確率、召回率和F1 值均有提高,并且本文多模塊融合算法和無擴展分類算法在三個評價指標上均高于單一模塊的擴展分類算法,說明多模塊的混合策略更適用于政府結構化庫表數據分類。與無擴展分類算法相比,本文算法提高了文本分類準確率,并在大多類別上表現出良好的分類效果,更加肯定了本算法在政府結構化庫表數據分類中的適用性。

5 結束語

本文采用KG-BERT、KG-STopic、KG-MTopic 多模塊結合的方法實現政府結構化庫表數據的自動分類。其中結合政務知識圖譜的KG-BERT 是本文研究重點,KG-BERT 相較與CNN、RNN 模型而言分類效果更好,經實驗表明,本文提出的多模塊結合方法在數據分類任務中表現較好,即本文算法對政府結構化庫表數據達到良好的分類效果。但經擴展后的數據與真實數據仍存在差異,這也是KG-BERT 模型待解決的問題,后續我們會將工作重點投入到有效的數據擴展中,提高模型分類精度。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 国精品91人妻无码一区二区三区| 在线色国产| 亚洲无线一二三四区男男| 欧美视频免费一区二区三区 | 亚洲va在线∨a天堂va欧美va| 亚洲欧洲日韩综合色天使| 欧美成人手机在线视频| 欧美日韩免费观看| аⅴ资源中文在线天堂| 久久semm亚洲国产| 制服丝袜一区| 亚洲永久视频| 亚洲第一网站男人都懂| 亚洲a级毛片| 国产午夜看片| 一级成人a毛片免费播放| 久久香蕉欧美精品| 国产女人在线| 色网在线视频| 农村乱人伦一区二区| AV在线天堂进入| 欧美一区福利| 国产女人水多毛片18| 色综合久久久久8天国| 国产特一级毛片| 色综合网址| 人妻夜夜爽天天爽| 青青青国产精品国产精品美女| 久久9966精品国产免费| 91久久偷偷做嫩草影院电| 伊人久久大线影院首页| 无码国产偷倩在线播放老年人| 97se亚洲综合| 国产永久在线视频| 日韩免费毛片| 亚洲av日韩av制服丝袜| 永久成人无码激情视频免费| 欧美日韩导航| 欧洲亚洲一区| 亚洲av无码成人专区| 久久久精品国产亚洲AV日韩| 国产福利小视频在线播放观看| 精品无码日韩国产不卡av| 在线一级毛片| 午夜无码一区二区三区在线app| 国产极品美女在线观看| 国产第一页屁屁影院| 国产h视频在线观看视频| 91福利片| 成人久久精品一区二区三区| 亚洲天堂777| 国产丝袜第一页| 91尤物国产尤物福利在线| 日韩成人高清无码| 韩国v欧美v亚洲v日本v| 伊人激情综合网| 91精品福利自产拍在线观看| 久久无码高潮喷水| 欧美亚洲激情| 无码免费的亚洲视频| 亚洲日韩Av中文字幕无码| 亚洲人成成无码网WWW| 在线日韩一区二区| 午夜欧美理论2019理论| 自拍欧美亚洲| 无码AV动漫| 午夜国产不卡在线观看视频| 中文字幕中文字字幕码一二区| 无码免费视频| 久久免费视频播放| 亚洲91精品视频| 黄色网站不卡无码| 亚洲天堂视频在线观看| 国产高清自拍视频| 中文成人在线| 波多野结衣亚洲一区| 91精品视频网站| 国产成人精品午夜视频'| 欧美成人午夜影院| 欧美v在线| 51国产偷自视频区视频手机观看| 亚洲精品中文字幕无乱码|