文/李 更 汪 凱 鄒中華(安徽省科學技術情報研究所)

構建融合TRIZ 的專利信息檢索分析系統是一個具有發展前景的思路,近些年國內外有一些相關研究文獻的報道。如河北工業大學的江屏、王川等人利用IPC 聚類分析與TRIZ 結合,可以滿足一些專利規避設計需求[1];四川大學的李睿、薩日娜等人在新能源汽車充電技術的研發中實現了基于TRIZ 的專利信息組織[2];中國科學院成都文獻情報中心、中國科學院大學等單位的胡正銀、劉春江、隗玲等人分析了3 種典型的專利分析工具,指出其都存在對專利技術內涵的揭示不足的問題[3];東北林業大學的王克奇、于江濤等人認為通過挖掘專利說明書所涉及的創新方法,可以啟發新的創新[4];Choi S、Kang Dongwoo、Lim Joohyung等人優化了基于功能的文獻檢索方法FOS(Function—Oriented Search)[5];安徽省科學技術情報研究所的研究團隊也曾就將TRIZ 創新流程與專利檢索相結合以輔助創新,提出過自己的設想[6]。可以看出,專利信息服務以數據庫為核心,而專利分類法作為專利分類的依據,是專利數據庫收集和管理專利信息的基礎。因此將TRIZ 理論引入專利分類法,對專利信息進行標引,形成基于TRIZ 理論的專利知識庫,能夠更好地發揮專利檢索對創新研發的支撐作用。
TRIZ 理論創新方法與專利信息相結合,就是要提取專利文本中技術方案所運用的原理、手段和改進的參數、功能,這是現有的專利檢索系統所挖掘不到的。建立TRIZ 理論和專利信息的融合模型如圖1 所示,具體環節為:將專利文獻進行文檔格式轉換,生成本地文件,將專利號、申請日、摘要、權利要求、IPC 分類等專利基本信息分段存儲。深入閱讀專利文獻中權利要求、說明書、實施方案等關鍵技術描述,理解專利所涉及的技術手段、原理方法、實現的功能等隱性技術內容。運用TRIZ 理論重新解讀專利,確定現有技術所存在的矛盾參數,提煉出專利技術可能涉及的創新原理,將專利中蘊含的創新思維與技術手段用TRIZ 理論的形式呈現出來。將上述環節提取的專利文獻顯性技術內容和隱性技術內容,融合到一起,構建基于TRIZ 的專利數據庫,并提供技術人員進行檢索的入口。技術人員在使用創新方法解決技術問題時,能夠通過創新原理、矛盾參數、專利改寫等字段對基于TRIZ 的專利數據庫進行檢索。

圖1 基于TRIZ 的專利知識庫作用模型
在上述模型的基礎上,選取研究的數據既要保證一定的數量,也要考慮數據的穩定性,因此選擇某省1985—2014 年的機械、電子類的發明專利(包括失效的發明專利,因為只要曾被授予發明專利,就認為其技術方案對于啟發創新是有意義的),總計檢索出專利3771 條。
其中標引和復核的準確度打分,由低到高按1 至5 分記分,如果文獻難以理解,可標為1 分,如果對標引結果比較有把握,可以標為5分。
專利標引的流程如圖2 所示,包括:判斷是否具有TRIZ 理論重新解讀的可行性——確定專利技術方案的研究對象——針對技術背景及現有方案的不足,確定待解決問題和已有方案的缺陷——確定創新原理、矛盾參數——進行審核,判斷是否邏輯自洽——TRIZ 理論改寫專利——導入基于TRIZ 的專利數據庫。

圖2 專利標引流程圖
本項目引入閉環管理的理念,進行標引質量控制,確保標引的質量。閉環管理的原理所確定的閉環管理的程序是:確立控制機制——評定活動成效——糾正錯誤手段——消除偏離標準和計劃的情況。為此,我們在數據庫中設計了標引人員、審核人員、準確度、復核準確度四個字段。
在人工標引的基礎上,技術團隊嘗試采用基于機器學習的中文文本分類技術實現專利TRIZ 理論的自動標引[7]。
計算機輔助標引的流程如圖3所示。
結構化建模模塊:主要完成專利文本的非結構化自然語言形態到結構化形態的建模。主要包括:文本預處理、特征提取與選擇、語義建模等部分。在準備數據源的時候,專利的摘要部分是可以批量下載的,其它如背景、技術方案等部分不支持批量下載,因此,我們利用專利的摘要部分作為待分析的專利文本。

圖3 計算機輔助標引系統框架
訓練模塊:分類判別的前提是已知若干個樣品的類別以及每個樣品的特征,在此基礎上才能對待測樣品進行分類判別,因此對分類問題需要建立樣品庫。根據這些樣品庫建立判別分類函數,這一過程是由機器來實現的,稱為學習過程,然后對一個未知的新對象分析它的特征,決定它屬于哪一類。
訓練模塊利用機器學習算法對已標注數據進行學習,得到分類判別模型。嘗試不同分類器如支持向量機(SVM)、樸素貝葉斯(Naive Bayesian)等,針對TRIZ 原理和工程參數,分別生成三個獨立的分類器(分別用于TRIZ 原理、改善參數、惡化參數的分類)。
預測與反饋模塊:實現對目標的分類預測,計算出目標屬于不同分類的概率。可以根據結果調整特征提取的算法,提高準確率。
在實際研究中,輔助標引與人工標引是同步進行的,在標引過程中,標引的工作人員可以提供對機器標引的邏輯的意見,或者向專業的編程人員提出用戶需求、最終目標、修改意見等。
結構化建模模塊包括文本預處理、特征提取與選擇、語義建模等環節。
(1)訓練模塊。本項目中,用于訓練的分類樣本為不同領域的專業人員進行人工標引的專利數據,并且設置了準確度評分標準,因此作為用于機器訓練的樣本,具有較高的可信度。項目的專利語料庫共計2804 篇專利,包含專利摘要和部分專利說明。其中TRIZ 原理有效標注數量為2671 個,改善參數有效標注數量為2266 個,惡化參數有效標注數量為2370 個,測試樣本數150 個。
訓練模塊利用機器學習算法對已標注數據進行學習,得到分類判別模型。嘗試支持向量機(SVM)分類器、樸素貝葉斯(Naive Bayesian)分類器,針對TRIZ 原理和工程參數,分別生成3 個獨立的分類器(分別用于TRIZ 原理、改善參數、惡化參數的分類)。
(2)分類結果及分析。程序采用Java 語言編寫,訓練結束后,信息顯示框出現測試數據的分類信息(分類類別及可能類別的排序),同時訓練文件自動打開,顯示分類結果如圖4、圖5 所示。
通過運行上述程序,分別選用不同的分類器、特征提取方式,分別對TRIZ 原理、改善工程參數、惡化工程參數進行自動分類。得到的分類結果統計如表1 所示。
從表1 中可以看出,從分類器選擇的角度看,分別采用SVM 分類器和樸素貝葉斯分類器的情況下,對于TRIZ 原理、改善參數、惡化參數的分類準確度差別不大;從標引正確率的角度看,對TRIZ 原理的自動分類準確度,前5 個類別平均達43%、前10 個類別達64%,具有一定的參考價值。
基于自然語言的分類,天然存在準確性的瓶頸。在本項目中,由于研究時間和工作量的限制,自動分類算法受到一些因素的影響,如訓練樣本數量不足、分類結果數量多等。在提高標引準確率方面,需要在今后的工作中加以完善的地方包括:改善模型:特征選擇、特征權重、參數適當調整;在訓練環節采用更多的人工分類的樣本;降低分類結果數量,將相近的結果并入同一分類;從專利文獻的其它章節(不僅限于摘要)抽取文本進行分析。
在專利標引的研究中,進行了專利標引格式和流程的設計、專利標引結果的質量控制等研究。在待標引的專利數據來源方面,充分考慮了數據的可靠性和完整性;在標引格式設計方面,在專利文獻已有屬性字段的基礎上增加了用于標引TRIZ 信息的若干字段,設定了每個字段所代表的意義,并充分考慮了計算機處理的需求,對字段內容和文本格式做了規范化處理;在專利標引的規則方面,制定了規則并通過咨詢TRIZ 理論專家,得到了可行性的認可;在標引結果的質量控制環節,引入閉環管理的理念,采用標引人——審核人機制并輔以客觀的質量評分規則,確保標引的質量。

圖4 自動標引分類結果界面1

圖5 自動標引分類結果界面2

表1 計算機輔助標引分類正確率統計表
在計算機輔助分類的研究中,采用模式識別技術對專利的摘要部分進行基于自然語言的自動分類,分別嘗試了不同的分類模型、特征提取模型等,并采用Java 代碼實現上述模型,進行了實例驗證,基于上述研究,提出了提高計算機輔助TRIZ 分類的準確率的建議。