王保越 及歆榮



摘要:為深入挖掘和充分利用已有專利文獻(xiàn)中的創(chuàng)新思路和關(guān)鍵技術(shù),基于TRIZ理論中的發(fā)明原理,對(duì)中文專利文獻(xiàn)自動(dòng)分類實(shí)現(xiàn)方案進(jìn)行了設(shè)計(jì)和實(shí)現(xiàn)。該方案中基于TRIZ發(fā)明原理的經(jīng)典描述和已標(biāo)注發(fā)明原理的專利文獻(xiàn)構(gòu)建TRIZ發(fā)明原理字典,基于構(gòu)建的發(fā)明原理字典對(duì)專利文本進(jìn)行分詞和特征選擇,利用機(jī)器學(xué)習(xí)方法對(duì)專利特征向量樣本進(jìn)行分類模型訓(xùn)練和預(yù)測(cè)。為加快方案驗(yàn)證,TRIZ發(fā)明原理字典的構(gòu)建、基于構(gòu)建的發(fā)明原理字典的專利文本分詞、特征選擇以及特征向量化都使用軟件實(shí)現(xiàn),利用支持向量機(jī)實(shí)現(xiàn)分類模型的訓(xùn)練和預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該方案可以達(dá)到較高的分類準(zhǔn)確性。因此,該方案的實(shí)施可為基于TRIZ發(fā)明原理的專利自動(dòng)分類提供一條可借鑒的思路。
關(guān)鍵詞:TRIZ理論;TRIZ發(fā)明原理;中文專利文獻(xiàn);文本分類
中圖分類號(hào):TP391.1? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)23-0215-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Design of Patent Automatic Classification Scheme Based on TRIZ Invention Principle
WANG Bao-yue, JI Xin-rong
(Hebei University of Engineering, Handan 056038, China)
Abstract: In order to dig deeply and make full use of the innovative ideas and key technologies in existing patent documents, based on the invention principle of TRIZ theory, the implementation scheme of automatic classification of Chinese patent documents is designed. In this scheme, a TRIZ Dictionary of Invention Principles is constructed,which is based on the classical description of TRIZ Invention Principles and the patent documents labeled with TRIZ Invention Principles. Based on the dictionary of Invention Principles, the patent text is segmented and selected. The classification model of patent eigenvector samples is trained and predicted by machine learning methods. In order to speed up the scheme verification, the construction of TRIZ Dictionary of Invention Principles, the word segmentation of patent text based on TRIZ Dictionary of Invention Principles, feature selection and feature vectorization are all realized by software, and the training and prediction of classification model are realized by using support vector machine. The experimental results show that the scheme can achieve high classification accuracy. Therefore, the implementation of this scheme can provide a reference for automatic patent classification based on TRIZ invention principle.
Key words: TRIZ theory; TRIZ invention principle; Chinese patent documents; text classification
1 引言
專利文獻(xiàn)是世界上最大最新的技術(shù)信息源,是創(chuàng)新的源泉[1]。當(dāng)前對(duì)于專利分類檢索大多采用國(guó)際專利分類法(International Patent Classification, IPC),該分類方法采用功能與應(yīng)用相結(jié)合,以功能為主的分類原則,將專利按技術(shù)主題進(jìn)行多層次分類[2]。因此,人們按照IPC分類方法對(duì)專利信息進(jìn)行檢索,只能檢索到專利所屬的技術(shù)領(lǐng)域、應(yīng)用領(lǐng)域以及其實(shí)現(xiàn)的功能,并不能從專利中挖掘出潛在的更有價(jià)值的內(nèi)容,如發(fā)明創(chuàng)造和解決技術(shù)難題的創(chuàng)新思路等[3]。對(duì)于想要進(jìn)行發(fā)明創(chuàng)造的研發(fā)人員,IPC分類方法不能滿足他們從專利中獲取創(chuàng)新資源和創(chuàng)新思路的需求。因此,需要一套能夠指導(dǎo)人們進(jìn)行發(fā)明創(chuàng)造和解決復(fù)雜工程問題的方法學(xué)理論[4]。TRIZ理論是由蘇聯(lián)發(fā)明家、教育家根里奇·阿奇舒勒(G.S.Altshuller)在1946年開始創(chuàng)立,旨在研究人類進(jìn)行發(fā)明創(chuàng)造、解決技術(shù)難題過程中所遵循的科學(xué)原理和法則[4]。該理論是阿奇舒勒及其研究團(tuán)隊(duì)通過梳理、分析數(shù)以百萬(wàn)計(jì)的已有技術(shù)創(chuàng)新成果和相關(guān)自然科學(xué)知識(shí),歸納總結(jié)出的一套能指導(dǎo)人們進(jìn)行發(fā)明創(chuàng)新、解決工程問題的系統(tǒng)化的方法學(xué)體系[5]。經(jīng)過幾十年的發(fā)展,TRIZ理論已經(jīng)成為當(dāng)今世界上著名的發(fā)明問題解決理論,已在世界各國(guó)諸多知名企業(yè)中推廣應(yīng)用,加快了人們創(chuàng)造發(fā)明的進(jìn)程和高質(zhì)量創(chuàng)新產(chǎn)品的產(chǎn)出[5]。TRIZ理論中用以解決系統(tǒng)矛盾的抽象法則——40條發(fā)明原理是最流行和最普及的,它利用有限的發(fā)明措施來(lái)指導(dǎo)發(fā)明者解決幾乎無(wú)限的發(fā)明問題,能夠使發(fā)明者清楚地了解到目前專利所采用了哪些發(fā)明原理解決了什么矛盾沖突[6]。然而,人工對(duì)專利信息進(jìn)行40個(gè)發(fā)明原理的分類,其工作量是非常巨大,甚至無(wú)法實(shí)現(xiàn)[6]。因而,基于TRIZ的40個(gè)發(fā)明原理對(duì)專利信息進(jìn)行分類和檢索成為當(dāng)前專利信息管理中一個(gè)研究思路。
本文利用自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)方法,對(duì)TRIZ理論中的發(fā)明原理的經(jīng)典描述和已標(biāo)注發(fā)明原理的專利文獻(xiàn)進(jìn)行分析和研究,提出了一種基于TRIZ發(fā)明原理的專利自動(dòng)分類實(shí)現(xiàn)方案。該方案關(guān)鍵之處在于其一是基于TRIZ理論中的發(fā)明原理的經(jīng)典描述和已標(biāo)注發(fā)明原理的專利文獻(xiàn)構(gòu)建發(fā)明原理字典;其二是基于構(gòu)建的發(fā)明原理的字典對(duì)專利文本進(jìn)行分詞和特征選擇。使用支持向量機(jī)分類算法進(jìn)行分類模型訓(xùn)練和測(cè)試[7]。經(jīng)試驗(yàn)驗(yàn)證,該方法有效可行。
2 中文專利文本自動(dòng)分類實(shí)現(xiàn)方案設(shè)計(jì)
為實(shí)現(xiàn)對(duì)中文專利文獻(xiàn)按照TRIZ發(fā)明原理進(jìn)行分類,本研究對(duì)中文專利文本自動(dòng)分類實(shí)現(xiàn)流程中的TRIZ發(fā)明原理的字典設(shè)計(jì)、專利文本的特征抽取、專利文本特征的數(shù)字化三項(xiàng)內(nèi)容進(jìn)行了分析和設(shè)計(jì),然后利用支持向量機(jī)分類算法對(duì)專利文本數(shù)字化樣本集進(jìn)行了分類模型訓(xùn)練和預(yù)測(cè),具體流程,如圖1所示。
2.1 基于TRIZ發(fā)明原理的字典構(gòu)建
為了準(zhǔn)確切分出專利文本中表征TRIZ發(fā)明原理的特征詞,本研究首先構(gòu)建了基于TRIZ發(fā)明原理的字典。該字典的構(gòu)建思路具體包括:⑴準(zhǔn)備TRIZ發(fā)明原理的經(jīng)典描述和每個(gè)發(fā)明原理下的案例描述,該項(xiàng)工作參考了TRIZ理論及應(yīng)用相關(guān)的書籍20余部;⑵準(zhǔn)備已標(biāo)注發(fā)明原理的專利文獻(xiàn),該工作使用了四川大學(xué)創(chuàng)新方法工作專項(xiàng)項(xiàng)目的成果——已標(biāo)注發(fā)明原理的1147條專利;⑶借助分詞工具對(duì)前面準(zhǔn)備的發(fā)明原理及相關(guān)案例的描述和專利文獻(xiàn)進(jìn)行分詞;⑷利用人工識(shí)別方式將分詞結(jié)果中表征發(fā)明原理的特征詞加入TRIZ發(fā)明原理的字典中。基于上述思路構(gòu)建了TRIZ發(fā)明原理的字典。基于構(gòu)建的TRIZ發(fā)明原理的字典對(duì)專利文本進(jìn)行分詞,可以大大提高專利文本中表征發(fā)明原理的特征詞切分的正確率。另外,該字典會(huì)隨著分析專利文獻(xiàn)數(shù)量的不斷增加而豐富和完善。
2.2 專利文本的特征抽取設(shè)計(jì)
基于TRIZ發(fā)明原理的字典對(duì)每條專利進(jìn)行分詞處理后,首先對(duì)專利分詞結(jié)果進(jìn)行詞的去重復(fù)處理,然后再利用人工識(shí)別方式將去重復(fù)處理過的分詞結(jié)果中表征發(fā)明原理的特征詞加入TRIZ發(fā)明原理的字典中,以進(jìn)一步豐富和完善發(fā)明原理字典內(nèi)容。基于每條專利去重復(fù)處理后的分詞結(jié)果,對(duì)該專利文本進(jìn)行特征抽取。為了能在專利文本特征抽取時(shí)更多的抽取到表征發(fā)明原理的特征詞,也為了專利文本特征向量維數(shù)盡量低,本研究采用的文本特征抽取方法是基于構(gòu)建的TRIZ發(fā)明原理字典,將專利文本的分詞結(jié)果中有的詞并且字典中也有的詞抽取出來(lái),而對(duì)專利文本分詞結(jié)果中有的詞但字典中沒有的詞不進(jìn)行抽取。基于該方法對(duì)每條專利進(jìn)行特征抽取,既能抽取到表征發(fā)明原理的詞,同時(shí)也控制了專利文本的特征向量維數(shù)。
2.3 專利文本特征的數(shù)字化設(shè)計(jì)
為了使特征抽取處理后的專利文本易于處理,需要對(duì)專利文本特征進(jìn)行數(shù)字化處理。一般來(lái)說(shuō),文本信息的數(shù)字化就是對(duì)文本建立特征向量空間模型。BoW(Bag of words)模型是一種比較簡(jiǎn)單的構(gòu)建文本信息特征向量的方法, 其思路是將特征選擇后的每個(gè)詞作為列向量,每篇文本的特征詞作為行向量建立矩陣,將文本信息中出現(xiàn)列向量對(duì)應(yīng)單詞的位置置為1,在文本中未出現(xiàn)單詞的位置置為0。本研究對(duì)專利文本特征的數(shù)字化思路是將TRIZ發(fā)明原理字典中的每個(gè)詞語(yǔ)表示為文本空間向量的列向量,將每篇專利表示為文本空間向量的行向量, 將每條專利文本特征向量與由TRIZ發(fā)明原理字典構(gòu)成的列向量進(jìn)行比對(duì),在專利文本特征向量有列向量對(duì)應(yīng)的特征詞的位置設(shè)置為1,在沒有列向量對(duì)應(yīng)特征詞的位置設(shè)置為0,以此實(shí)現(xiàn)專利文本特征的數(shù)字化。
2.4 專利文本分類器的構(gòu)建
為了實(shí)現(xiàn)專利文本特征的模型構(gòu)建和預(yù)測(cè),本研究采用了支持向量機(jī)分類算法。由于本研究屬于多分類應(yīng)用,而支持向量機(jī)是一個(gè)典型的兩分類算法,本工作采用了支持向量機(jī)構(gòu)建多分類器的思路,即通過兩兩任意組合的方式設(shè)計(jì)分類器,將其中一類標(biāo)記為正,另一類標(biāo)記為負(fù),構(gòu)建多個(gè)分類器[8]。
3 中文專利文本自動(dòng)分類實(shí)現(xiàn)
為了驗(yàn)證本研究方案的可行性,利用PYTHON編程語(yǔ)言和jieba中文分詞工具包對(duì)20多部TRIZ理論及應(yīng)用相關(guān)書籍中的發(fā)明原理的描述和案例進(jìn)行了分詞,并對(duì)四川大學(xué)創(chuàng)新方法工作專項(xiàng)項(xiàng)目成果中已標(biāo)注發(fā)明原理的專利文獻(xiàn)的標(biāo)題和摘要使用同樣的方法進(jìn)行了分詞處理,然后人工識(shí)別出能表征發(fā)明原理的特征詞。利用JAVA編程語(yǔ)言和JAVA WEB開發(fā)技術(shù)設(shè)計(jì)了能實(shí)現(xiàn)該方案的軟件,該軟件實(shí)現(xiàn)了TRIZ發(fā)明原理字典的管理、專利文獻(xiàn)管理、專利文本分詞管理、專利文本特征向量生成、專利文本特征數(shù)字化等功能。具體功能如圖2~圖5所示。
為了驗(yàn)證該方案中專利自動(dòng)分類模型訓(xùn)練和預(yù)測(cè)效果,對(duì)四川大學(xué)創(chuàng)新方法工作專項(xiàng)項(xiàng)目成果中已標(biāo)注發(fā)明原理的專利文獻(xiàn)中屬于分割原理、抽取原理和局部質(zhì)量原理三個(gè)發(fā)明原理的專利文本進(jìn)行多分類模型的訓(xùn)練和預(yù)測(cè)。本實(shí)驗(yàn)所用數(shù)據(jù)具體情況見表1,使用MATLAB仿真環(huán)境和支持向量機(jī)(Support Vector Machine)分類算法進(jìn)行專利文本模型訓(xùn)練和預(yù)測(cè)。三種類別的專利樣本通過兩兩組合進(jìn)行模型訓(xùn)練和預(yù)測(cè),每?jī)蓚€(gè)類別實(shí)驗(yàn)隨機(jī)選擇訓(xùn)練樣本數(shù)據(jù)和測(cè)試樣本數(shù)據(jù),且都重復(fù)50次,得到的模型平均預(yù)測(cè)精度結(jié)果見表2。
從表2的模型預(yù)測(cè)正確率結(jié)果可以看出,分割與抽取兩類模型預(yù)測(cè)正確率較高,其次是分割和局部質(zhì)量分類模型的預(yù)測(cè)正確率,最后是抽取和局部質(zhì)量分類模型預(yù)測(cè)正確率,該結(jié)果表明訓(xùn)練樣本數(shù)量越多,模型預(yù)測(cè)正確率越高,符合機(jī)器學(xué)習(xí)統(tǒng)計(jì)原理,因此,按照本研究設(shè)計(jì)方案進(jìn)行模型訓(xùn)練與預(yù)測(cè)是可行的。但模型預(yù)測(cè)正確率效果不理想,分析產(chǎn)生該結(jié)果的原因主要是模型訓(xùn)練樣本數(shù)量太少,分割原理樣本最多為40個(gè),另外兩類都為24個(gè),對(duì)于維數(shù)較高的樣本來(lái)說(shuō),該實(shí)驗(yàn)中訓(xùn)練樣本數(shù)量太少;另外一個(gè)原因是TRIZ發(fā)明原理字典里面的特征詞還不全面。隨著TRIZ發(fā)明原理字典的不斷完善以及訓(xùn)練樣本數(shù)據(jù)的增加,模型預(yù)測(cè)正確率會(huì)明顯提高。
4 結(jié)束語(yǔ)
本文基于TRIZ理論中的發(fā)明原理,對(duì)中文專利文獻(xiàn)按發(fā)明原理自動(dòng)分類的實(shí)現(xiàn)方案進(jìn)行了設(shè)計(jì)和實(shí)現(xiàn)。其中,對(duì)基于TRIZ發(fā)明原理的字典構(gòu)建、專利文本特征抽取、專利特征向量數(shù)字化以及基于SVM的自動(dòng)分類模型的訓(xùn)練和預(yù)測(cè)進(jìn)行了詳細(xì)設(shè)計(jì)和具體實(shí)現(xiàn)。仿真實(shí)驗(yàn)結(jié)果表明,本文提出的中文專利按TRIZ發(fā)明原理自動(dòng)分類的設(shè)計(jì)方案是可行的。為了進(jìn)一步提高模型預(yù)測(cè)正確率,增加專利自動(dòng)分類模型訓(xùn)練樣本數(shù)量和完善基于TRIZ發(fā)明原理的字典是下一步要開展的工作。
參考文獻(xiàn):
[1] 楊雪琴,關(guān)玉蘭.專利文獻(xiàn)與企業(yè)技術(shù)創(chuàng)新[J].青海科技,2001(2):48-49.
[2] 賈杉杉. 基于IPC的專利文本自動(dòng)分類研究綜述[A]. 中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì).中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2017年第二十一屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì)論文集[C].北京:中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì):北京聯(lián)合大學(xué)北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,2017:4.
[3] 劉玉琴,桂婕,朱東華.基于IPC知識(shí)結(jié)構(gòu)的專利自動(dòng)分類方法[J].計(jì)算機(jī)工程,2008,34( 3) : 207-209.
[4] HE Cong,HAN Tong Loh.Grouping of TRIZ Inventive Principles to Facilitate Automatic Patent Classification[J]. Expert Systems with Applications,2008,34(1) : 788-795.
[5] 秦曉梅.基于TRIZ的專利標(biāo)引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2018,14(22):65-66.
[6] 翟繼強(qiáng), 王克奇. 依據(jù)TRIZ發(fā)明原理的中文專利自動(dòng)分類[J].哈爾濱理工大學(xué)學(xué)報(bào), 2013, 18(3): 1-5.
[7] 李云,高茂庭.支持向量機(jī)在文本分類上的研究[J].電腦知識(shí)與技術(shù),2009,5(10):2643-2645.
[8] 龐劍鋒,卜東波, 白碩. 基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn) [J]. 計(jì)算機(jī)應(yīng)用研究, 2001(9) :23-26.
【通聯(lián)編輯:梁書】