王 塑 張 萍 周 新 王乙民
(陜西省煙草公司西安市公司 陜西 西安 710061)
?
基于規則置信度調整的知識挖掘及在煙草科技管理中的應用
王塑張萍周新王乙民
(陜西省煙草公司西安市公司陜西 西安 710061)
介紹信息管理領域中的一個熱門研究主題——知識挖掘。知識挖掘旨在從結構化、半結構化的數據中挖掘信息。例如從電子文檔、不完備的歷史數據中搜索穩定的模式或模型,分析挖掘數據間的交互特征和規律,以輔助管理人員制定、調整規范與標準,構建專家庫和知識庫。提出知識挖掘的一種改進方法,通過動態規則置信度生成算法提高所獲得規則的準確性與適應性,并結合煙草企業科技項目智能輔助管理中的實際應用進行了驗證,取得了一定的成效。
知識挖掘規則置信度信息管理
根據思科公司的調查顯示,全球數字化信息的年度總量從09年的0.79ZB已經上升到13年的3.3ZB。隨著信息設備、互聯設備、存儲技術的快速發展,面向大規模數據的深度挖掘、知識挖掘、關聯關系分析的智能系統被廣泛部署,并逐步成為大型企業的核心價值和必須的組成部分[1]。在2013年Nazlioglu等人經過研究石油與農產品之間的微妙溢價關系而獲得了巨大的市場成功后,更多的數據科學家和企業管理者將深度數據分析與知識挖掘作為其研究的重要方向[2]。
知識挖掘的核心是將數據挖掘技術應用于專業領域,從中獲得可以在一定程度上和一定時間范圍內實現預測和評估的技術與方法。人類在數據密集型的應用中發揮著關鍵作用:不僅是被動的知識消費者,同時也是活躍的數據產生者和數據的采集者,而信息技術需要協助人們解決內在的大規模數據關聯分析和知識獲取的難題[3]。因此,知識挖掘需要解決的問題包括:
(1)ETL(ExtractionTransformLoading):數據提取、轉換和加載。現實中的數據通常由多個不同的數據源整合而來,數據冗余與數據沖突成為常態。將數據轉換為信息的技術統一稱之為ETL。
(2)MKS(multidimensionalknowledgestorage)高維知識的存儲:知識之間的復雜關系已經難以二維化了,根據歐拉公式的推廣,只有在知識之間的關聯小于9條時,才可以用一張不相交的二維圖形表示,復雜知識給我們帶來的是牽一發而動全身的無力感。因此亟需面向高維知識的處理方法。
(3) 關聯關系分析:知識本質上是不同信息之間的關聯關系模型,因此只有深入分析信息之間的關系才可以獲得有實用價值的預測模型。因此,關聯關系分析方法可以說是知識挖掘的核心部分所在。
如圖1所示。知識挖掘主要有基于概率和基于距離的兩類方法。基于概率的方法以貝葉斯后驗概率為理論依據,用概率分布情況描述知識模型,可以實現規則之間互相重疊的冗余知識庫生成;其主要的不足是當特征空間維度增加時所生成的知識重疊率過高以致效率低下?;诰嚯x的方法以特征向量表示基礎數據,將基礎數據看作向量空間中的一個點,通過計算點之間的距離實現聚類,所構建的知識可以實現特征空間的劃分,不存在知識模型之間的相互重疊,其主要算法有k-means算法、瑞士卷算法等;其主要的不足是當特征空間維度較高時算法性能下降顯著。

圖1 知識挖掘的三個主要環節
本文的應用背景是嘗試解決煙草企業科技項目管理平臺中的自動化輔助管理問題。在項目類型多樣化、數量巨大化的情況下,如何通過知識挖掘技術實現文檔的關鍵詞提取與自動主題分類將直接影響科技項目的申報周期。在科研管理申報過程中有兩個重要的概念:主題、關鍵詞。其中主題是在項目申請指南中由科研管理人員根據年度科研規劃會議確定的,那么各個單位根據自己的情況提交申請,申請書常常跨越不同的專業領域,在以往的工作中只能由科研管理人員主觀判斷,對于交叉學科常常造成專家選擇不準確的情況,影響了申請書評審的及時性和準確性。而由申請書作者填寫的關鍵詞也不能完全保證其選取的有效性與作者個人的主觀判斷,采用自動方式從申請書中提取關鍵詞與作者設定的關鍵詞綜合考慮,依據主題進行分類,將大大降低科研管理人員的工作量,同時提高交叉領域申請書申報的準確性和有效性。本文研究的重點是從結構化和半結構化的電子文檔中提取核心知識,分析主題與文檔之間的關聯度,以便對文檔進行有效分析與分類推薦,實現煙草企業科技項目管理平臺實際效率的提升。
1.1電子文檔的結構化、半結構化表示
電子文檔是一種結構化、半結構化數據,電子文檔中的每一項內容均可以與數據庫中的特定字段相對應。內容明確的字段被認為是結構化數據,例如日期、姓名、編號等;內容寬泛的字段被認為是半結構化數據,例如標題、摘要、關鍵詞、文檔正文等。結構化數據的意義明確,分類、聚類過程相對簡單;而半結構化電子文檔的特征分類是本文研究的重點內容。
1.2關鍵詞與主題特征向量
針對結構化文檔數據,可以采用向量空間模型表示每一個主題,并根據主題特征向量和結構化文檔數據內容生成主題向量,在計算特定文檔不同主題向量之間的關聯度比較,創建結構化文檔數據與主題之間的關聯矩陣,再通過歸一化和標準化實現關聯矩陣的可比性[4]。其主題特征向量的形式化表述如下:
Topici=[(keyi,1,weighti,1),(keyi,2,weighti,2),…,
(keyi,j,weighti,j),…,(keyi,n,weighti,n)]
(1)

根據上述特征向量的定義可知,由于結構化文檔數據其搜索過程可以通過SQL查詢語句獲得,只需要生成其不同關鍵詞(在數據庫中各個意義明確的字段)的權重即可完成基本知識挖掘建模過程。
1.3文檔與主題的關聯度評估
文檔與主題的關聯度表示結構化或半結構化電子文檔數據與特定主題之間的關聯程度[5]。因此,文檔Dock與主題Topici之間的關聯度與關鍵詞所占比重與出現次數有關。即使在結構化文檔中,除關鍵字段外,其他數據也有缺少的可能,在半結構化文檔數據中,關鍵詞的出現次數需要對文檔進行掃描統計得出。因此可以構建文檔Dock與主題Topici之間的關聯矩陣如下:
(2)
其中,n表示主題數,m表示文檔數,ηik表示Dock與主題Topici的關聯度。ηik的計算過程如下:
(3)
其中,i表示主題Topici中的關鍵詞個數,而‖Dock‖×weighti,j表示文檔Dock中關鍵詞keyi,j的加權出現率。
通過計算文檔與主題之間的關聯度,構建了文檔與主題之間的關聯矩陣,下一節中將在結構化文檔與主題的關聯度生成算法的基礎上構建基于規則置信度的關聯度生成算法。
上一節中說明了關鍵詞、主題、文檔之間關聯度的基本計算方法,而從一篇文檔中獲取關鍵詞主流的方式是使用最大熵模型以Chi-square統計量的方法進行判定,已經形成了完整的算法庫,在此不再贅述。本節主要介紹的內容是在獲取文檔關鍵詞后,如何對科技項目申請指南中的不同主題進行對應與分類。
提取關鍵詞完成后,需要將關鍵詞與不同的主題相對應,而關鍵詞又需要與文檔相對應,其關系如圖2所示。從申請書中可以獲得多個關鍵詞,這些關鍵詞一部分來自作者的設定,另一部分來自從電子文檔中的自動提取,每一份申請書所包含的關鍵詞組成關鍵詞向量,所有的申請書所對應的關鍵詞向量組成關鍵詞矩陣。關鍵詞矩陣與申請指南中的主題形成的主題向量一起,通過標準化和歸一化過程,可以計算得出關鍵詞矩陣與主題向量之間的特征向量ηik,ηik表示了每個關鍵詞與各個主題之間的相對抽象距離,那么我們可以通過ηik計算申請書與每項主題直接的抽象距離,結合關鍵詞加權出現率‖Dock‖×weighti,j可以得出申請書與主題之間的相對距離,從而完成應該歸于哪一類或者哪幾類中的問題,進而指導科研管理人員對申請書進行快速分類與評審專家組選擇。
在獲得相對距離后,分類算法方面目前絕大多數系統采用的是k-means算法,k-means算法以二維空間距離表征相對距離,算法簡潔,但不適合交叉領域情況,也就是說k-means算法只能將一份申請書分配到一個主題下,而目前的科研項目交叉領域的申請成為多數情況,因此k-means算法所帶來的問題在其他的科研管理平臺中已經日益凸顯[6-8]。為了解決交叉領域匹配問題,本文提出了基于規則置信度調整的知識挖掘算法CKMA(basedofconfidenceknowledgeminingalgorithm)。如圖2所示。

圖2 申請書關鍵詞提取與主題間的關系
CKMA算法的核心思想是關鍵詞被越多的申請書所采用意味著該關鍵詞的熵越小,其對分類的指導度也越低;同時根據關鍵詞與主題的關聯度進行綜合計算,得出申請書的主題序列,即交叉領域的申請書也需要確定所涉及的多個主題之間的主次順序。
(1) 針對關鍵詞keyi,j在所有申請書中出現的頻次,對比在特定申請書Dock中出現的頻次確定keyi,j對申請書Dock的辨識貢獻度,計算其熵值;
(2) 根據第一步計算所得熵值,所得申請書Dock對關鍵詞keyi,j的置信度,在獲得申請書Dock所有的關鍵詞置信度后進行置信度層次化排列;

根據1.3節的說明,在分析文檔與主題的關聯度時將‖Dock‖×weighti,j(文檔Dock中關鍵詞keyi,j的加權出現率)作為關鍵詞與主題之間關聯度評估的重要參數。根據CKMA算法中再次以‖Dock‖×weighti,j為基礎,綜合評估獲得申請書Dock對主題Topici的基于置信度的關聯度時,整個計算過程將申請書與研究主題之間完整連接,從而實現申請書的有效分類。
實驗部分采用的樣本數據包括兩個集合:其中一個是擁有2584份文檔的兩主題數據集;另一個是擁有45 781份文檔、31個主題的數據集。顯然,4萬余條數據31個主題的數據集是科研管理平臺所需要承擔的任務。我們將CKMA算法與基于相對距離的k-means算法進行比對。
3.1實驗步驟
根據第2節的說明,實驗中采用的測試文檔經過三個步驟的計算:
(1) 計算關鍵字熵值:兩個數據集分別包括2584份文檔和45 781文檔,每份文檔有3至5個關鍵詞,根據每個關鍵詞在所屬文檔中的出現頻率和文檔總詞數計算其熵值。在該步驟中,CKMA算法與傳統的k-means算法沒有差別。
(2) 根據文檔Dock與主題Topici之間的關聯矩陣,每個關鍵詞與所屬文檔的熵值將根據重復關鍵詞和重復主題之間進行交叉計算,每個關鍵詞的熵值將不僅與所屬文檔相關,與同主題的所有文檔均呈現相關性,這是CKMA算法與k-means算法的主要差別,該步驟在文檔數較少的測試集合由于同主題的關鍵詞較少,因此計算結果變化不明顯;而文檔數據增加后關鍵詞的熵值代表意義明顯增強,對第三步驟的分類提供了強有力的支持。
對第二步驟的關鍵詞熵值,分析文檔與主題的關聯度,由于已經CKMA算法的關鍵詞熵值在全局具有代表性,因此作為穩定分類依據所產生的提升效果明顯。
3.2實驗結果對比


表1 k-means算法在2584數據集中的處理結果

表2 CKMA算法在2584數據集中的處理結果

表3 k-means算法在45781數據集中的處理結果

表4 CKMA算法在45781數據集中的處理結果

圖3 兩種算法在兩個數據集中的準確性比較
3.3實驗結果分析
當文檔主題限制為兩類時,新的CKMA算法較傳統的
k-means算法提高了約4個百分點,在實際應用中效果不明顯,分析時間均在1秒鐘以內;而當主題多達31項,且一個文檔可能與多個主題相關時,CKMA算法仍保持了60%以上的準確性,而k-means算法下降到僅為6%,完全失去了指導科研人員進行分類的可能性。
本文通過全面分析主題、文檔與關鍵詞之間的基于置信分析的關聯度評估,實現CKMA算法,針對多主題文檔分類問題進行了嘗試,并在煙草企業科技項目申報管理平臺中進行了試用,解決了傳統方法無法實現的多主題分類指導。但目前,針對復雜文檔的多目標分類仍是研究的難點,其準確性有待提高,而主要的技術難點在于大量文檔的存儲與并行算法框架兩方面,這將是我們下一步研究工作的重點內容。
[1]ChenH,ChiangRHL,StoreyVC.BusinessIntelligenceandAnalytics:FromBigDatatoBigImpact[J].MISQuarterly,2012,36(4):1165-1188.
[2]ChauM,XuJ.Businessintelligenceinblogs:UnderstandingConsumerInteractionsandCommunities[J].MISQuarterly,2012,36(4):1189-1216.
[3]DuanL,DaXuL.BusinessIntelligenceforEnterpriseSystems:ASurvey[J].IndustrialInformatics,IEEETransactionson,2012,8(3):679-687.
[4]MoraesR,ValiatiJF,Gavi?ONetoWP.Document-levelSentimentClassification:AnEmpiricalComparisonBetweenSVMandANN[J].ExpertSystemswithApplications,2013,40(2):621-633.
[5]GordoA,PerronninF,ValvenyE.Large-scaleDocumentImageRetrievalandClassificationwithRunlengthHistogramsandBinaryEmbeddings[J].PatternRecognition,2013,46(7):1898-1905.
[6]SahuN,ThakurRS,ThakurGS.Hesitantk-NearestNeighbor(HK-nn)ClassifierforDocumentClassificationandNumericalResultAnalysis[C]//ProceedingsoftheSecondInternationalConferenceonSoftComputingforProblemSolving(SocProS2012),December28-30,2012.SpringerIndia,2014:631-638.
[7]DattolaRT.AFastAlgorithmforAutomaticClassification[J].InformationTechnologyandLibraries,2013,2(1):31-48.
[8]CulottaAron.LightweightMethodstoEstimateInfluenzaRatesandAlcoholSalesVolumefromTwitterMessages[J].Languageresourcesandevaluation,2013,47(1):217-238.
KNOWLEDGEMININGBASEDONRULESCONFIDENCEADJUSTMENTANDITSAPPLICATIONINTOBACCOS&TMANAGEMENT
WangSuZhangPingZhouXinWangYimin
(Xi’an Company of Shaanxi Provincial Tobacco Company,Xi’an 710061,Shaanxi,China)
Thispaperintroducesapopularresearchtopicinthefieldofinformationmanagement,knowledgemining.Itaimsatminingtheinformationfromstructuredandsemi-structureddata,forexample,searchingthestablepatternormodelfromelectronicdocumentsandtheincompletehistoricaldata,analysingandminingtheinteractivefeaturesandrulesbetweendata,soastoassistthemanagerstoformulateandadjustthenormsandstandards,constructtheexpertdatabaseandknowledgebase.Inthispaper,wediscussanimprovedmethodforknowledgemining,throughdynamicruleconfidencegenerationalgorithmitimprovestheaccuracyandadaptabilityoftheobtainedrules.Wealsoverifiedthemethodcombiningtheactualapplicationinintelligentauxiliarymanagementoftobaccoindustryproject,andachievedsomeeffect.
KnowledgeminingRulesofconfidenceInformationmanagement
2014-06-05。國家自然科學基金項目(61373120);陜西省市科技項目(KJ-2013-06)。王塑,高級經濟師,主研領域:經濟管理,科技管理。張萍,高級經濟師。周新,碩士。王乙民,學士。
TP311.13
ADOI:10.3969/j.issn.1000-386x.2016.03.019