利用詞嵌入模型實現基于網站訪問日志的專利聚類研究

2018-05-15 10:17:06文奕陳文杰張鑫楊寧趙爽

現代情報 2018年4期

文奕陳文杰張鑫楊寧趙爽

〔摘要〕[目的/意義]專利信息是人類科學技術進步的結晶，隨著社會的發展，專利信息將為促進科技創新發揮日益重要的作用。利用聚類技術可以將海量專利信息進行自動分類，在實現信息有序歸并管理的同時，有助于用戶高效而全面的獲取相關技術領域中的集成專利信息，具有重要的現實意義，傳統聚類研究方法效率與準確度存在不足。[方法/過程]本文通過對專利信息服務網站（中國科學院知識產權網）訪問日志數據的清洗與分析，生成專利信息點擊序列，基于深度學習詞嵌入模型，設計了PatentFreq2Vec模型，計算得出專利關聯信息。[結果/結論]利用PatentFreq2Vec模型分析計算訪問日志數據，能夠得到關聯專利信息，實現專利聚類，且聚類準確度高于傳統方法。

〔關鍵詞〕專利；聚類；深度學習；詞嵌入；訪問日志

DOI：10.3969/j.issn.1008-0821.2018.04.016

〔中圖分類號〕G202 〔文獻標識碼〕A 〔文章編號〕1008-0821（2018）04-0112-06

〔Abstract〕[Purpose/Significance]Patent information is the fruit of the progress of science and technology.With the development of society，patent information will play an increasingly important role in promoting scientific and technological innovation.Through patent clustering analysis，it is possible to aggregate isolated information according to different aggregation degree，so that they can be transformed from ordinary information to valuable Patent Competitive intelligence.The traditional clustering methods have some efficiency and accuracy problems.[Method/Process]Based on cleaning and analysis access log data of the patent information service website （Intellectual property network of the Chinese Academy of Sciences），the sequence data of patent clicking were generated and input into the PatentFreq2Vec model based on word embedding to obtaine patent related information with the learning algorithm.[Result/Conclusion]This could cluster the patents and improve accuracy of the patent clustering.

〔Key words〕patent；clustering；deep learning；Word Embedding；access log

以專利文獻為主的專利信息是人類科學技術進步的結晶。隨著經濟全球化快速發展，知識經濟迅猛崛起，尤其是隨著我國“雙創”活動全面開展，專利信息將為促進科技創新以及社會發展發揮重要作用，世界各國每年發布與出版大量專利文獻信息[1]，近年來專利信息及其關聯資源更呈現爆炸式增長，如何有效的組織管理海量專利信息，幫助用戶精準把握專利技術內涵，提高專利技術信息的利用率，是文本信息處理領域的重要研究方向之一[2]。專利聚類是專利文獻信息分析的重要方法，但現有方法在準確性與效率方面存在不足。近年來，隨著深度學習技術的迅猛發展，諸多算法與工具在專利文獻分析中發揮日益重要的作用。

1 專利聚類

1.1 專利聚類的重要性

專利信息分析的主要目的是通過對數據信息的有效整合管理，利用技術分析手段，將海量分散的信息按照一定的規則進行有序組織、過濾與匯集，對其技術內涵進行挖掘與凸顯，將普通的專利文獻信息轉化為有價值的專利技術情報，根據這些情報可以從技術分布、交叉、演化等角度揭示機構專利布局及所處地位、核心專利權人、合作網絡等綜合信息，從而研判分析企業、研究所、高校、地區或國家在產業技術領域的重點發展方向，洞察主要競爭對手的技術組合、研發、投資動向，避開專利技術壁壘，制定專利研發戰略[3]，在專利技術競爭中取得先機。

利用聚類技術可以將海量專利信息進行自動分類，在實現信息有序歸并管理的同時，處于同一類別中的專利往往在技術上存在高度關聯，有助于用戶高效而全面的獲取相關技術領域中的集成專利信息。這不僅能適應專利信息數據的快速增長，也能顯著提高專利分析的效率與準確性，具有重要的現實意義[4]。

1.2 專利聚類常用方法及存在的不足

專利文本聚類的首要問題是文本數據的數學模型表示。常用的聚類方法包括K-Means、LDA等。

K-Means首先由MacQueent[5]提出，該算法認為文本聚類是由向量空間上距離相近的文本對象組成的，完美的聚類應該是得到高度接近且與其他類相分離的文本對象集。其優點主要表現在算法快速而又簡單，計算復雜度較低，時間復雜度與文檔數量成線性關系，因此計算效率較高，適合挖掘大規模數據集。而且它伸縮性較強，隨著數據集的增長，它體現較強的適應性，因此K-Means在大數據聚類中被廣泛使用，很多聚類研究都是以K-Means為基礎根據研究需要進行相應改進而開展的。

LDA（Latent Dirichlet Allocation）主題模型由Blei等于2003年提出，它可以訓練計算文檔集中每篇文檔的主題概率分布，當給定一個文檔集時，它可以計算抽取文檔的主題，并可根據主題分布實現主題聚類或文本分類。LDA的基本原理是將文本信息從詞匯空間的分布變換到主題空間的分布，顯而易見主題數量遠低于詞匯數量，從而達到文本信息在向量空間表示上降維的效果，解決維數災難問題[6]。

總的來說，目前多數文本聚類算法的數學基礎都是向量空間模型，類似的文本表示方法較為簡單且容易理解，在文本信息降維方面效果較好，但高維稀疏的問題卻難以避免，同時由于文獻在向量空間表達時，文本特征的空間維數很高，導致聚類算法時間開銷大，文本聚類算法性能下降，效率和準確性受到較大影響。

2 利用PatentFreq2Vec實現專利聚類

本文提出利用PatentFreq2Vec模型結合網站訪問日志數據進行分析與處理，借鑒了Word2Vec詞嵌入式模型的思想，實現專利聚類，當用戶訪問專利數據時，利用聚類信息即可向用戶精準推送專利關聯信息，幫助用戶全面獲取其所關心的技術領域的專利信息。

2.1 Word2Vec

Word2Vec是Google在2013年發布的一個工具包，利用神經網絡為單詞尋找一個連續向量空間中的表示。它是一種深度學習模型，基于人工神經網絡，利用遞歸處理模式，通過復合多層感知機將初始設定的底層特征組合為更抽象更準確的高層特征，并將高層特征用于普通的機器學習方法以得到更好的效果[8]。Word2Vec的核心是矩陣分解，簡單地說，矩陣表達了每個詞和其上下文的詞的集合的相關關聯信息。對這個矩陣進行分解，只取每個詞對應在隱含空間的向量，通過對詞向量空間中的向量運算，向量空間上的相似度可以用來表示單詞語義上的相似度。Word2Vec主要采用連續詞袋模型[7]（Continuous Bag-of-Words，CBOW）以及Skip-Gram[8]模型。從圖1可以看到CBOW模型的目的是通過上下文預測當前詞匯出現的概率，而Skip-Gram是通過給定的當前詞匯來預測上下文[9]。

利用Word2Vec對文本數據進行訓練，并結合訓練集利用余弦向量值即可以對關鍵詞進行近義詞計算，表1是利用Word2Vec進行近義詞聚類的示例。

Word2Vec在近義詞聚類上有非常明顯的效果，國內外論文中有很多對比實驗。如Mikolov在利用Word2Vec進行的實驗結果表明，利用詞向量作為初始值替代隨機設定的初始值，實驗效果有較顯著的提升（識別命名實體的準確率從81.47%提升到88.67%，標注詞性的準確率從96.37%提升到97.20%）。同時諸多試驗都表明測試效果與語料集的規模成正比，語料集數據規模越大，Word2Vec測試效果越好[10]。

由上可見，Word2Vec具有堅實的數學基礎，是深度學習算法在文本處理上的典型應用，在近義詞計算上也表現出優異的性能。但Word2Vec并不是只能用于近義詞計算，作為一個算法模型，只要提供符合輸入格式的數據，Word2Vec可計算出相應的輸出結果，通過對計算結果進行專業解讀，可以實現Word2Vec在不同領域的應用。歸納來說，只要符合以下特征即可以利用Word2Vec進行數據模型構建計算：

特征1：數據量應具備一定的規模，從理論上來說，數據量越大，Word2Vec的效果越好；

特征2：可以將數據表示成以行為單位的數據序列，單行數據由若干數據單元組成，數據單元間具有前后關聯規則約束；

特征3：數據單元會在數據集中頻繁復用，復用頻率越高，Word2Vec效果越好。

2.2 利用詞嵌入模型的訪問日志關聯分析

通過對Word2Vec的輸入文本數據接口進行分析，可以發現其格式可表示為如表2所示。

每1行表示1篇文獻由若干個詞組成，若干篇文獻構成一個輸入數據，上下文單詞序列具有明顯的有方向的語義關聯性。如果有其他的應用情景，能夠將數據輸入格式表示成類似的結構，那么也可以構造相應的詞嵌入模型來進行訓練與計算，得到相應的輸入結果。Paragraph2vec、Sentence2vec，Doc2vec等模型是其中一些代表，在相應的到文本分析任務中也取得了很好的效果。

網站的訪問日志適合利用類似Word2Vec的詞嵌入模型進行計算分析，以中國科學院知識產權網為例：1）該網站集成了中國科學院眾多專利信息，用戶訪問量較大，中國科學院專利信息具有較高的社會關注度，每年生成海量的用戶訪問日志，如此規模的數據集更能夠避免樣本不足造成的Word2Vec計算結果不準確，使得計算結果具備更高的準確性與可信性；2）用戶對知識產權網進行訪問時帶有較強的目的性，更可能對同一類型的專利具有較高的興趣，在某一時間段內連續點擊的專利很可能具有相應的關聯，而且當前點擊的專利很大程度上會影響用戶對下一條專利的選擇，這使得整個點擊過程具有時序性和關聯規則，可以將訪問日志表示為以單個專利為行為數據的序列；3）同一條專利會出現在不同用戶的訪問序列中，重復率較高。所有這些特征表明可以利用詞嵌入模型對網站訪問統計日志進行計算分析，為每一條專利計算分析出相似度高的關聯專利，從而實現專利數據的聚類。

2.3 對專利關聯序列進行處理挖掘

由于用戶對專利信息的點擊在具有目的性的同時，也帶有一定的隨意性，這會造成最終得到的關聯專利序列具有較多的噪音，為提高數據分析處理的準確性，可利用頻繁序列模式挖掘算法對數據結果進行進一步處理，頻繁序列模式挖掘（Sequence Pattern Mining，SPM）是指從序列數據庫中尋找頻繁子序列作為模式的知識發現過程[11]。其基本思路是給予若干有順序的輸入序列，預設規定閾值，在輸入序列中尋找出現次數大于閾值的序列子串。序列模式挖掘最早由Agrawal等人提出，通過多年來不斷的完善與發展，其已經成為數據挖掘領域的重要研究課題之一，性能良好的序列模式挖掘算法不斷被研究者提出。

序列模式挖掘算法主要分為

1）基于Apriori特征的算法，如AprioriAll，GSP算法[12]等；

2）基于垂直格式的算法，如SPADE算法[13]，SPAN算法[14]等

3）基于投影數據的算法，如FreeSpan算法[15]和PrefixSpan算法[16]等等。

4）基于內存索引的算法和其他算法等。

基于投影數據的算法是將已經發現的頻繁序列作為起始數據集，在更小的投影數據庫上將其遞歸投影，并在投影數據庫中繼續計算子序列，最后將得到的序列進行拼接，從而獲取完整序列模式。由于一個頻繁子序列的前綴序列肯定是頻繁子序列，因此PrefixSpan算法可以根據頻繁前綴構造投影數據庫。投影算法可以避免反復掃描整個數據集的次數，極大減少了時間開銷，效率較高，故本文采用投影算法進行頻繁序列挖掘。

3 實證研究

3.1 系統架構

綜合詞嵌入模型與頻繁序列挖掘算法，我們設計PatentFreq2Vec模型用于基于網站訪問日志的專利聚類，PatentFreq2Vec模型的整體處理流程如圖2所示。

3.2 研究流程

3.2.1 數據清洗、處理

數據源選擇：我們選擇中國科學院知識產權網2011-2016年5年的網站訪問統計數據作為數據源，由于訪問統計數據會包含網站所有數據對象，而我們只關注專利的被點擊情況，因此需要對數據進行清洗，經過清洗后，得到500萬條具體專利的訪問點擊數據。

數據處理：數據清洗完成后，需要將數據處理為詞嵌入模型的輸入格式，我們的處理規范如下。

規范1：每一個IP在某一時間段內對專利的點擊序列作為一條數據；

規范2：點擊序列按照用戶的點擊次序順序排列；

規范3：一個點擊序列點擊次數至少為5次；

考慮到有很多爬蟲程序對網站數據進行自動抓取，而這部分非瀏覽器訪問數據對于試驗結果的影響較大，容易導致試驗結果失真，因此我們以頁面停留時間作為篩選條件，將頁面停留時間少于10秒的訪問數據剔除。

3.2.2 生成訓練集

本文基于Spark的MLib工具包，基于Word2Vec實現了PatentFreq2Vec模型算法程序。模型提供多個參數選擇，具體如表4所示：

本文的技術模式是通過給定專利來預測關聯專利，因此選擇Skip-Gram算法來進行訓練與計算。

3.2.3 利用訓練集為每條專利計算關聯專利序列

訓練集生成后，即可計算出每一條專利的近似關聯專利，實現專利聚類，計算結果如表5所示，可以看出，計算結果中尤其是概率較高的關聯專利，都與目標專利表現出較強的關聯性。

3.2.4 對關聯專利序列進行進一步分析處理

我們選取Spark的MLlib工具包中集成的PrefixSpan算法進行進一步處理，PrefixSpan算法包含3個參數：

·minSupport：最小支持度，序列最小出現次數占輸入序列總數的比例

·maxPatternLength：最大序列長度。

·maxLocalProjDBSize：投影數據庫局部迭代開始之前，前綴投影數據庫最大容量。

由于輸入序列長度一致，且序列長度比較短，故實驗中取maxPatternLength為輸入序列長度為20.分別取最小支持度minSupport為0.001，0.0015，0.002，（即序列最小出現次數分別取50，75，100）得到高頻序列結果。

3.2.5 研究結果

實驗結果采用經典的平均準確率（AP）和（MAP）指標來進行評價。AP表示對每條專利進行關聯查詢獲得首個結果中有關聯的專利的平均百分比，而MAP指標則表示對每條專利進行關聯查詢獲得前5個結果中有關聯的專利的平均百分比，測試值越高模型相對越準確。實驗將K-MEANS、LDA的測試結果與本文方法進行比較，每組實驗取10次計算平均值。結果如表6所示。

由表6可知，PatentFreq2Vec和其他的方法相比，AP和MAP均有一定的提高，這說明將用戶對專利的點擊序列模擬為PatentFreq2Vec的輸入數據集，通過PatentFreq2Vec進行詞向量相關度計算后，可以挖掘出隱含的專利關聯信息，效果較好有三方面原因：一是因為詞嵌入模型具有堅實的數學基礎，可以通過詞向量上下文關系進行出現概率的迭代計算，從而分析出高相關度的關聯專利；二是因為訪問日志中用戶對于專利的點擊序列與詞嵌入模型的文本單詞序列高度相似，可以將同一用戶的訪問序列類比為文檔，以專利序列類比文檔中的單詞序列，采用基于Skip-Gram的詞嵌入模型進行訓練，加之頻繁序列發現算法進行去噪聲，保證了計算結果的準確性；三是中國科學院知識產權網用戶訪問量較大，可以得到較大規模的用戶對專利信息的點擊序列，保證算法的收斂性和有效性，這也是詞嵌入模型成功應用的必要條件。

4 結語

詞嵌入模型是深度學習算法在文本處理方面應用的一個典范，利用Word2Vec對海量文本數據進行處理，可以實現較高準確率的關鍵詞聚類與關聯發現，本文通過對詞嵌入模型原理及功能的深入學習，將用戶對專利信息的點擊序列為樣本，設計了PatentFreq2Vec模型，再通過頻繁序列模式挖掘，取得了較好的專利聚類效果，拓展了詞嵌入模型的應用范圍，具有較好的意義，未來將進一步研究深度學習方法在用戶點擊序列與專利信息關鍵詞聚類上的綜合應用。

參考文獻

[1]林偉峰，丁海暉.試論專利信息的作用[J].圖書情報導刊，2004，14（3）：14-15

[2]徐曉明.專利文本聚類及關鍵短語抽取的研究[D].沈陽：東北大學，2011.

[3]徐丹丹.專利文本聚類分析及可視化研究[D].南京：南京理工大學，2009.

[4]羅璇.基于數據挖掘技術的專利信息分析及應用研究[D].北京：首都經濟貿易大學，2011.

[5]MacQueen J.Some Methods for Classifi Cation and Analysisof Multivariate Observations[C].Proceedings of 5th Berkeley Symposium on Mathematics.Statistics and Science，1967：281-296.

[6]范宇，符紅光，文奕.基于LDA模型的專利信息聚類技術[J].計算機應用，2013，33（S1）：87-89，93.

[7]Tomas Mikolov，Kai Chen，Greg Corrado，and Jeffrey Dean.Efficient Estimation of Word Representations in Vector Space[C].In Proceedings of Workshop at ICLR，2013.

[8]Tomas Mikolov，Ilya Sutskever，Kai Chen，Greg Corrado，and Jeffrey Dean.Distributed Representations of Words and Phrases and their Compositionality[C].In Proceedings of NIPS，2013.

[9]寧建飛，劉降珍.融合Word2vec與TextRank的關鍵詞抽取研究[J].現代圖書情報技術，2016，（6）：20-27.

[10]Mikolov，Tomas，Wen-tau Yih，and Geoffrey Zweig.Linguistic Regularities in Continuous Space Word Representations[C].Proceedings of NAACL-HLT，2013.

[11]王虎，丁世飛.序列模式挖掘研究與發展[J].計算機科學，2009，（12）：14-17.

[12]Agrawal R，Srikant R.Mining Sequential Pattern[C].Proc.of the 11th International Conference on Data Engineering，1995.

[13]Srikant R，Agrawal R.Miningsequential Patterns：Generaliza-Tions and Performance Improvements[C].Proceedings of the 5th In-Ternational Conference on Extending Database Technology，1996.

[14]Sui Yi，Shao Fengjing，Sun Rencheng，et al.Asequential Pattern Mining Algorithmbased on Improved FP-Tree[C].Proceedings of 9th ACIS Int.and SNPD 2008，2008.

[15]Hsieh Chia-Ying，Yang Don-Lin，Wu Jungpin.An Efficient Sequential Pattern Mining Algorithm Based on the 2-Sequence Matrix[C].Proceedings of IEEE International Conference on Data Mi-ning Workshops，ICDM Workshops 2008，2008.

[16]Xifeng Yan，Jiawei Han，Ramin Afshar.CloSpan：Mining Closed Sequential Pattens in Large Databases[C]. SIAM International Conference on Data Mining， 2003.

（責任編輯：孫國雷）