薛淑暉 王麗 吳海濤



摘? 要:專利信息作為目前國際知識產權中科技含量最高的存在,是國家和企業獲取競爭優勢最全面的技術情報來源。使用專利數據網的數據信息作為測試數據,采用K-means算法,針對專利文本數據進行聚類分析,旨在找出隱含在專利數據信息中不容易被直觀發現或直接統計得出的數據情報信息。通過深入挖掘專利信息,提高專利信息利用率,使之轉換為具有實際價值的情報信息,有效解決了對專利信息利用不足的問題。
關鍵詞:聚類分析;K-means;專利數據;數據挖掘
中圖分類號:TP391.1;TP312? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)05-0085-03
Patent Data Analysis Based on K-means Algorithm
XUE Shuhui,WANG Li,WU Haitao
(Nanjing Institute of Technology,Nanjing? 211167,China)
Abstract:Patent information is the most comprehensive source of technical information for countries and enterprises to obtain competitive advantages. In this paper,the data information of the patent data network is used as the test data,and K-means algorithm is adopted to conduct clustering analysis on the patent text data. The aim is to find out the data intelligence information which is hidden in the patent data information and not easy to be found directly. Through deep mining of patent information,improving the utilization rate of patent information,transforming it into information with practical value,the problem of insufficient utilization of patent information is effectively solved.
Keywords:cluster analysis;K-means;patent data;date mining
0? 引? 言
數字信息網絡的飛速發展正逐步改變著信息服務的傳統模式,科研、教育、文獻等數字情報服務正處于高速發展的變革階段,這預示著數據科學和計算科學的情報分析和知識服務時代已經來臨。尤其近年來,隨著大量科研實驗內容及其成果數字化的實現,以專利信息和科研論文為主題的文獻情報發展迅速。知識產權的重要性愈發顯著,已成為一個國家或企業在同行業競爭中獲取優先優勢占據有利地位的主要手段。專利信息,作為目前國際眾所周知的知識產權中科技含量最高的存在,是國家和企業獲取競爭優勢的最全面的技術情報來源。但是面對浩如煙海的專利信息,如何從中充分發現并利用其價值是目前進行專利數據分析挖掘的重中之重。
當今我國目前的數據研究和數據分析都處于快速發展階段,針對專利數據的統計分析和引文分析較為成熟,但對專利信息的深入研究分析尚有明顯不足之處,而聚類分析和關聯分析的存在,恰恰可以彌補這部分的缺陷。聚類分析可以幫助我們分析隱含在海量專利數據中的、不容易被直接統計得出的信息,適合通過比對專利數據的共同之處研究專利研究的趨勢和重點,從而抓住發展的趨勢[1]。為了對專利信息進行更深層次的挖掘利用,本文基于江蘇省大學生創新訓練項目“基于Python的專利數據分析系統的設計與實現”中文本聚類分析的K-means算法,從專利的名稱入手,基于Python語言對醫藥專利數據進行專利文本聚類分析。
1? 文本聚類分析
聚類就是根據不同的類型特征,將數據劃分為相應的數據類。目的是減小同類型數據之間的距離,增加不同類型數據間的距離[2]。聚類算法又稱為群分析,是數據挖掘領域的重要算法之一。
在選擇以何種聚類算法來實現聚類分析時,需要從數據類型、聚類目的以及實際應用三個方面來考慮。對專利數據信息進行聚類分析,主要是對專利信息中的標題名稱和摘要中的文本內容進行分析。在所有文本聚類算法中,K-means聚類算法是比較傳統和基礎的聚類算法。我們可以根據自己的需求決定聚成幾類,其中每個類別都用該類中所有數據的平均值來表示,這個平均值被稱為聚類中心。這種算法雖然不能用于類別屬性的數據,但對數值屬性的數據來講,能夠較好地發揮聚類方法在幾何學和數學統計學上的研究價值[3]。
整體來說,文本聚類分析一般按照以下幾個步驟進行:
(1)數據預處理。對專利數據進行文本聚類分析之前要先進行專利字段提取、分詞、去停用詞、提取關鍵字、預處理等計算。
(2)停用詞處理。對抓取到的專利數據文檔利用jieba分詞庫進行去停用詞處理。
(3)數字建模與文本聚類。將經過初步數據處理得到的專利文本關鍵詞進行數字建模處理,數據分析結果采用矩陣表示。數字建模處理所建立的VSM模型中的VSM的維度由專利數據進行預處理后得到的關鍵詞數目表示,向量的大小用來表示關鍵詞的權重。文本聚類算法采用TF-IDF權值計算法,所得詞頻TF表示特征關鍵詞在VSM數據模型中出現的頻率。
(4)分析處理。最后采用K-means算法對創建成功的VSM模型中的向量進行聚類分析處理[2]。
1.1? 數據采集及預處理
使用Python數據抓取技術編寫數據爬蟲腳本,對專利網的數據進行抓取。抓取成功后對采集到的專利數據進行初步篩選、清洗[3]。由于專利文本信息過于龐大,在這里我們采取醫藥數據的動物醫藥分支進行處理研究,摘取關于動物醫藥的專利標題及摘要進行文本聚類驗證。由于Python語言的簡便性,以及其在科學計算、數據可視化領域擁有豐富的工具包,我們采用Python語言對專利數據進行分析處理。
1.2? 停用詞處理
在聚類分析開始之前對提取出的專利文本數據進行預處理可以提高聚類分析的效率,使分析出的結果更有意義。預處理的質量會嚴重影響聚類分析的結果。經過預處理,文本最終會以一種結構化的形式展現出來。文本預處理主要包括以下幾個方面:
1.2.1? 分詞
分詞,就是把一個句子按照詞語表達的含義進行分割。對于英語文本來說,由于每一個英文單詞之間都使用空格分開,所以分詞很容易實現。但對于中文文本來說,漢字的組詞非常靈活,詞語和詞語之間的分割標志并不鮮明,這就增加了中文分詞的困難性。
1.2.2? 詞性標注
清華大學和山西大學是主要研究漢語詞性標注的機構。他們處理的基本思路是人工標注數萬字的語言材料,通過統計帶詞性標記的詞語出現的頻率,做成統計表并提取詞類共現頻度矩陣,建立詞類自動標注的概率計算模型[4]。對文本分詞后進行詞性標注可以從語法上檢驗分詞是否正確,從而進一步優化分詞的結果。
1.2.3? 停用詞過濾
停用詞是指一些在文本中出現的頻率很高但是對文本內容所要表達的含義沒有任何貢獻的詞,并且在計算相似度的過程中會引入不必要的誤差。所以,把這些停用詞從文本中過濾出去非常有必要。這一過程就稱之為停用詞過濾。
停用詞過濾首先要建立出一個包含文本中所有停用詞的列表。通過查詢每一個詞條,判斷該詞條是否包含在停用詞列表中,如果包含就將其從詞條中刪除。這一過程可以提高文本聚類的效率和聚類分析的精確度。
文本挖掘和文本聚類的基礎就是文本預處理,只有做好預處理工作,才能保證文本挖掘的可靠性和實用性。
1.3? 利用TF-IDF算法計算其權值
使用TF-IDF算法計算權值過程中,主要對預處理過后的文本數據進行權重的分配,這一過程主要利用逆向文檔頻率和詞頻來分配權重。文本數據的關鍵詞的權重值和文本中的頻率成正比,和文集中包括這一關鍵詞的文檔總和成反比[5]。TF-IDF的應用綜合考慮了關鍵詞在單個文本中和多個文本中出現的次數的情況,使分析結果更具有可靠性。詞頻算法如下:
式(1)中,tfij表示特征詞ti在數據集dj的詞頻,N是專利文獻總數,Ni表示其中出現特征詞的數量。專利文獻標題經TF-IDF權值處理后如圖1所示,其各項詞頻權重如圖2所示。權值和權重為一一對應關系。
1.3? 使用K-means算法聚類分析
K-means算法,又稱K均值算法,是于1955年提出的一種新型劃分式聚類算法。聚類算法發展多年過程中,K-means算法一直未被淘汰,是聚類算法的經典算法之一。顧名思義,其是通過多次反復迭代求數據間的均值來實現大量數據的文本聚類分析。其算法的核心是:通過隨機選擇的方式選擇多個數據點,再把這些選中的數據點用作K-means算法分析過程中的初始類簇中心,再將其他未選中的數據點依次分配給最近的類簇中心,這就形成了一個個的初始類簇。接著,計算每個隨機組成的初始類簇內所有點的均值,并把計算所得的簇內均值當作一個個新的類簇中心點,重新分配其余數據點到離自身最近的類簇中心點;然后,重復迭代這一分配求均值過程,直到每個類簇的中心都不再產生變化[6]。聚類分析結果如圖3所示,對應圖1、圖2的詞頻和詞重,可以根據數字的大小明確地觀察出各關鍵詞之間的聚類關系,數字越小,代表對應的關鍵詞與其他詞的相關性越小。反之,則證明與之對應的關鍵詞在整個數據集中相對較為重要。關鍵詞和其分析結果能幫助我們從宏觀上大致確定專利研究的主題和各主題的重要性。
1.4? 數據分析及方法的總結
本文進行專利數據文本聚類所采用的K-means算法,其無監督式的自主搜尋方法,在聚類過程中,打破了我們固有的思維模式,避免了僅憑專利知識對專利數據進行分類從而導致的思想局限和誤區,能更好地擺脫個人思想帶來的主觀局限性[7]。但對文本特征值進行權值計算的方法卻有很大的局限性:其只適用于維度低的文本,否則會影響聚類的準確性。
2? 結? 論
本文基于Python語言,采用網絡爬蟲技術獲取到專利數據,然后通過K-means算法對數據進行了聚類分析。通過對專利數據的聚類分析可以清楚直觀地發現當前專利網上現有專利的研究方向及偏重點,在很大程度上提高了用戶對專利數據把控的準確度,在研究中具有重大意義。
參考文獻:
[1] 齊麗花,張妮妮,秦曉梅.基于K-means的專利文本聚類分析 [J].電腦知識與技術,2018,14(22):206-207+214.
[2] 吳啟明,易云飛.文本聚類綜述 [J].河池學院學報,2008(2):86-91.
[3] 徐丹丹. 專利文本聚類分析及可視化研究 [D].南京:南京理工大學,2009.
[4] 王彬宇,劉文芬,胡學先,等.基于余弦距離選取初始簇中心的文本聚類研究 [J].計算機工程與應用,2018,54(10):11-18.
[5] 霍緯綱,程震,程文莉.面向不等長多維時間序列的聚類改進算法 [J].計算機應用,2017,37(12):3477-3481.
[6] 葉夢竹.基于專利和論文互引的科學—技術關聯研究 [D].武漢:華中師范大學,2017.
[7] SALTON G,BUCKLEY C. Term-weighting approaches in automatic text retrieval [J].Information Processing & Management,1988,24(5):513-523.
作者簡介:薛淑暉(1997-),女,漢族,山東德州人,本科在讀,研究方向:數據分析。