999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的專利自分類模型設計

2020-11-25 23:19:24莊良源
電子技術與軟件工程 2020年24期
關鍵詞:分類深度特征

莊良源

(福建省南安市市場監督管理局 福建省南安市 362300)

1 序言

專利是衡量一個國家創新能力的重要標準,在各行各業都起著重要的知識產權的保護作用。分類檢索系統是專利系統重要組成部分,一方面通過分類檢索系統能夠有效的節約研究者的搜集時間,另一方面也能通過精準的檢索標簽為研究者提供最新的研究方向。傳統的專利子分類模型是采用機器學習方式,在準確率方面一直都有所不足,面對復雜的文本有些捉襟見肘。而深度學習能夠應對復雜文本類型,是當前專利自分類模型新的研究方向,本文基于多標簽分類、專利文本和大樣本數據處理等問題進行研究,使用深度學習中的卷積神經網絡來對專利自分類模型進行研究,希望能為相關模型的構建提供參考。

2 專利文本分類技術

專利文本分類技術可以分為文本輸入、文本預處理、文本表示、分類器和類別輸入。利用計算機技術對現有的文本特征進行提取,轉變為可視化的特征值,進而轉換為專利的類別值后輸出。所以專利文本技術本質是在挖掘專利文本的所屬特征信息,然后基于訓練分類模型去學習各個類別專利的相應特征,最后進行表述性的判斷[1]。

2.1 專類文本預處理

首先是針對專利數據集中的標題、摘要等信息進行相應的文本提取,對其中所出現的網絡符號和亂碼等文字進行清理,然后是對文本進行分詞,保證文本的詞語變成有序文本,方便下一步提取文本的特征詞,同時去除文本的停用詞,最后將文本的轉化成分類器能讀取的數值形式。其中分詞是保證文本處理質量的關鍵步驟,相較于英文的自然分割,漢語的分詞步驟顯然更加復雜,基于漢語特殊的表現形式,當前研究人員將中文專利分詞算法分為四個類型:

2.1.1 基于詞典的機械方法

基于詞典的機械方法是針對字符進行匹配,在進行分詞之前導入相關詞匯的大辭典,按照相應的算法將帶分詞的文本與詞典中的詞條進行匹配,進而確定文本的詞語,導出分詞結果。通常基于詞典的機械方法有雙向匹配算法和正向最大匹配算法,在實際應用中兩者分別確定分詞算法的掃描方向和文字長度[2]。

2.1.2 基于統計的方法

基于統計的方法是針對專利文章中的字詞出現頻率進行統計,如果相鄰的字出現越多,其成為一個分詞的概率越大。因為缺少大詞典的匹配過程,所以基于統計的方法在應用之前需要進行相應的人工分詞,利用分詞模型對此類算法進行訓練。[3]通常此類算法包括N-gram 模型、隱馬爾科夫模型和條件隨機場算法,其優勢在于訓練過程簡單,能有效地提高分詞效率,但是缺點在于計算的復雜度較高,傳統的計算方式花費的代價較大,所以本文采用深度學習的方式來設計此類算法。

2.1.3 基于語義的方法

基于語義的分詞方法是模擬人對于中文詞句的理解來進行分詞,能夠自動對中文詞句的整體信息進行解讀和推理。但是需要不斷的對此類算法進行詞匯補充,現有的技術實現此類分詞算法較為困難,所以暫不在討論之列。

2.1.4 基于字標注的方法

基于字標注的分詞方法是指不依靠大詞典,而是依靠文本的構詞進行分詞,基于詞句中的關鍵信息來對文本進行解構,將構詞在文本中標注出來,通過構詞的位置對現有子串和字符進行分詞,將分詞過程轉變為字在子串中的標注過程。

2.2 專類文本分類方法

專利文本的表示方法是指將專利預處理后的文本記過表示為數值形式。在文本預處理之后,需要將分詞結構轉化為特征詞,然后將特征詞轉化為數值形式,這一方面能夠減少文本的工作量,另一方面能夠明確文本住址。常用的幾種文本表示方法有詞頻-逆文檔頻率算法、N-Gram 模型和word2vec 模型[4]。

2.3 卷積稀疏編碼

卷積稀疏編碼是基于卷積神經網絡結構的一種無監督學習方法,可以將卷積稀疏編碼結構分為卷積神經網絡結構和稀疏編碼兩部分。首先是稀疏編碼,稀疏編碼的最主要特征是將元特征空間映射到稀疏表示,從而提升計算機視覺性能。但是稀疏編碼應用到文本識別技術需要給一個特定的樣本進行輸入,從而完成線性組合的超完備字典表示。這就需要卷積神經網絡提供相應的輸入數據空間位置信息;其次是卷積神經網絡,卷積神經網絡結構包含了池化采樣層、卷積層和全連接層三種不同類型的層。卷積神經網絡在針對輸入數據空間位置信息方面有著良好的表現,此結構的三層能夠依次完成輸入樣本的特征表示、特征表示的平移和提取抽象特征三個步驟。同時應用到特征詞處理工作時,能夠憑借線性修正單元的深度神經網絡單元函數優勢進行速度的提升,同時卷積層的存在還能夠構建出兩個不同模式的非線性映射,進而完成特征轉換工作。同時還能夠引入時間概念來對卷積神經網絡的多個平臺進行數據處理,進而完成時間域和空間域的互補。文本識別系統可以分為檢測模塊、對準模塊和識別模塊,其中檢測模塊主要是針對文本進行檢測,對文本信息進行基礎的收集,同時也為后續的對準和識別奠定基礎;對準模塊是針對文本特征詞和實現模板的對其工作,同時避免文本特征詞因一系列其他因素而出現變形等情況;識別模塊是指對文本特征詞進行識別,進而完成個人身份的識別。基于上述三個模塊可以看出文本識別的任務主要在于文本辨識和文本驗證,基于卷積稀疏編碼的文本識別系統可以很好地完成此類文本識別任務。本次試驗的測試庫為國際公開測試庫,保證不同算法之間的對比,進而達成直觀的對比效果。其中最主要的測試平臺為AR 數據集,進而對基于深度卷積稀疏編碼文本識別算法的魯棒性和識別性能進行研究。

3 基于深度學習的專利自分類模型

3.1 詞向量模型

從上述介紹可以看出,卷積神經網絡具有很強的特征提取能力,所以基于卷積神經網絡對現有的專利子分類模型進行設計,最重要的一步就是建立相應的詞向量模型,為專利自分類模型的學習模式提供基礎的模板。因為卷積神經網絡能夠增加相應的網絡深度和激活函數的進程優化,所以在整體識別率方面要遠高于傳統的文本分類方式。與一般的數據識別相比,專利數據識別具有其自身的特征,即專利數據序列中的字符與字符相關。循環神經網絡可以利用序列間的關系來預測當前字符。卷積神經網絡一般是由五個卷積層構成的,本章節提到的措施是將它的每一個卷積層后面都加上一個池化層和一個激活層,并且將它的主要結構改為由三個卷積層組成。最后在卷積神經網絡的最后一層的基礎上將最后一層的feature dimension 進行了轉換,以便于長短時記憶網絡層的計算。典型的卷積神經網絡可以分為特征提取、類標預測和交叉嫡監督函數三部分。典型的卷積神經網絡結構特別適合用于分類任務,屬于一種端到端的模型。這類模型下,學習出來的深度特征呈可分性,能夠通過分類器區分開來。特征的可分性指的不同類別的特征能夠通過分類器區分開來,這里提到的分類器可以是線性的或者非線性的。而特征的判別性指通過特征之間的相互關系就能夠進行類別判斷。具體可以分為以下幾個步驟:

3.1.1 CNN+LSTM 深度神經網絡算法的信息提取

經過前面的文本上傳和文本預處理之后,便可以調用數據識別模塊的CNN+LSTM 深度神經網絡算法來提取文本中的數據信息。

3.1.2 數據識別功能

卷積神經網絡中的數據識別方法將文本中分割出來的數據與字符庫中的數據進行相似度匹配,所以還需要與待識別內容相匹配的字符庫。本文所研究的基于卷積網絡神經的專利文本數據識別方法中主要識別的還是中數據符,所以只需要將下載的中數據符庫安裝在指定目錄下即可。

3.1.3 字符庫訓練功能

卷積神經網絡可以識別大部分識別文本中的數據,但是因為專利文本字符比較復雜,識別起來經常會存在識別錯誤的情況,導致卷積神經網絡自帶的字符庫識別的準確率不高,難以滿足實際識別場景下的需求。為了提高卷積神經網絡識別的準確率可以根據自己的需求訓練出自己所需要的字符庫來替代原字符庫,即通過修正系統中識別錯誤的字,重新生成所需的文件字庫,將其作為識別匹配的字符庫。

3.2 基于深度學習的自分類模型

基于對深度學習中,卷積神經網絡和循環神經網絡的研究。本文提出了二維卷積神經網絡結合雙向長短時記憶網絡所構成的深度神經網絡模型。該網絡模型能夠從文本的句子到詞進行特征學習,其中卷積神經網絡負責提取專利文本中以句子為單位的特征值,雙向長短時記憶網絡負責提取句子特征融合后的詞特征。這樣的特征提取過程,符合人類的閱讀習慣,也有助于神經網絡對文本中的特征進行深度的挖掘。為了進一步提高模型的分類效果,模型中使用了基于詞的注意力機制對雙向長短時記憶網絡的輸出詞特征進行了加權,將模型的注意力集中在對文本貢獻度更高的特征向量上。

該二維深度神經網絡的具體算法可以描述為:

輸入:專利文本

輸出:專利類別值

步驟一:在專利文本預處理時,在去停用詞時,保留其中的斷句標點符號,如“。”,“;”等。

步驟二:將文本分句,每個專利文本劃分為包含1000 詞的15個句子,其中詞不夠的自動補零。

步驟三:對句子詞向量化,根據預先訓練得到的詞向量庫,將句子中的每個詞對照詞庫轉化為詞向量,將專利文本轉化為句子二維矩陣。

步驟四:使用搭建好的CNN2d 模型進行特征提取,其中卷積核的大小設置為3*3,維度根據詞向量設置為300 維,池化層的大小為2*2。得到專利文本的句子特征向量。

步驟五:將句子特征向量進行維度轉換,從二維特征向量降為一維特征向量,成為由每個句子中的特征組成的詞特征向量。

步驟六:使用雙向LSTM 對詞特征向量進行進一步的學習,提取出其中的關鍵詞特征,其中隱藏神經元設置為128,Dropout 值為0.20

步驟七:使用注意力機制對雙向LSTM 中提取的詞特征進行加權。

步驟八:根據深度神經網絡的輸出信息,在全連接層,利用Sigmoid 激活函數計算得到專利對應12 個類別的概率值。

為得到最佳的專利分類模型,在實驗過程中將CNN2d 和加入注意力機制的CNN2d+Att,CNN2d+Bi-LSTM+Att 進行了對比實驗,除了神經網絡的不同,兩個模型的其他實驗參數都一致。后續筆者進行了相應的實驗對比,從實驗結果表中可以看出,CNN2d與雙向LSTM 結合后的分類模型明顯要優于CNN2d 的分類模型,CNN2d雖然善于提取局部特征但在處理文本信息時還是有所不足,提取的特征范圍過大,導致分類的召回率不佳。并且添加注意力機制后的分類模型能夠更好地掌握專利文本中的關鍵特征,從而有效提高模型效果。

4 總結

深度學習是專利文本自分類領域的重要研究方向,對其進行進一步研究不但能提高專利分類的效率,更能提高專利文本分類的準確程度,同時快速地構建起相關的預測模型。當然本次實驗的研究也存在著許多的不足,雖然卷積神經網絡在專利文本識別應用中存在的問題進行了分析,但仍不夠深入,希望將來能有機會繼續對專利自分類領域的問題進行研究,進而為我國相關領域的發展作出貢獻。

猜你喜歡
分類深度特征
分類算一算
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 91麻豆久久久| 亚洲欧洲日产国产无码AV| 国产好痛疼轻点好爽的视频| 国产成人禁片在线观看| 国产一区免费在线观看| 操国产美女| 手机在线免费不卡一区二| 午夜性刺激在线观看免费| 伊人中文网| 成年免费在线观看| 久久人搡人人玩人妻精品一| 亚洲国产综合精品一区| 超碰91免费人妻| 久久国产V一级毛多内射| 欧美日韩北条麻妃一区二区| 青青青视频免费一区二区| AV不卡国产在线观看| 不卡午夜视频| 9啪在线视频| 国产精品免费入口视频| 国产哺乳奶水91在线播放| 欧美精品一二三区| 伊人91在线| 色哟哟色院91精品网站| 伊人91在线| 国产超薄肉色丝袜网站| 国产精品粉嫩| www欧美在线观看| 91香蕉视频下载网站| 人人看人人鲁狠狠高清| 国产成人综合久久| 114级毛片免费观看| 青青草原偷拍视频| 人妻精品全国免费视频| 国产裸舞福利在线视频合集| 97超碰精品成人国产| 青青热久免费精品视频6| 97超碰精品成人国产| 美女一级免费毛片| 88av在线播放| 免费午夜无码18禁无码影院| 国产精品亚洲欧美日韩久久| www.精品国产| 一区二区三区国产精品视频| 99视频全部免费| 福利一区在线| 人妻精品久久无码区| 国产欧美视频一区二区三区| 亚洲综合色在线| 91福利片| 国产成本人片免费a∨短片| 91人妻在线视频| 69综合网| 乱色熟女综合一区二区| 99精品免费欧美成人小视频 | 亚洲AV无码久久精品色欲| 亚洲热线99精品视频| 麻豆精选在线| 制服丝袜亚洲| 九九久久99精品| 色哟哟国产精品| 97se亚洲综合| 2018日日摸夜夜添狠狠躁| 久久毛片网| 国产美女一级毛片| 色悠久久久| 日韩专区欧美| 中文字幕永久在线观看| 啪啪免费视频一区二区| 麻豆国产在线不卡一区二区| 精品無碼一區在線觀看 | 亚洲av无码成人专区| 久久婷婷色综合老司机| 午夜国产小视频| 中文字幕在线日本| 亚洲国产亚综合在线区| 亚洲爱婷婷色69堂| 亚洲综合色在线| 日韩经典精品无码一区二区| 中文字幕丝袜一区二区| 97色婷婷成人综合在线观看| 在线视频亚洲欧美|