胡耀宇(北京科技大學 東凌經濟管理學院,北京 100083)
面向思維主題發現的概念對分類研究
胡耀宇
(北京科技大學東凌經濟管理學院,北京 100083)
數據挖掘又稱數據庫中的知識發現(Knowledge Discover in Database,KDD),是目前人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的,先前未知的并有潛在價值的信息的非平凡過程。當前數據挖掘所面臨的困境之一在于任務的確定和挖掘對象信息的表征仍由數據分析人員主觀完成。思維主題發現作為一種全新的數據挖掘問題提取方法能夠推動數據挖掘技術應用的進一步發展。本文提出的概念對分類研究則有利于大大提高思維主題發現的效率。
數據挖掘;思維主題發現;分類;概念對
當今世界,信息革命越來越多地改變著我們生活方式的同時也讓我們置身于一個信息爆炸的時代。數據挖掘這一全新領域正是隨著信息的越來越增多而孕育而生,吸引了無數的研究者從事于這一領域的研究工作,眾多的數據挖掘領域專家提出了很多非常好的數據挖掘方法和算法。如今,數據挖掘的理論研究在各方面都已經取得比較大的突破,但是數據挖掘走向應用還面臨著一系列亟待解決的問題。其中如何快速地自動地解決數據挖掘任務的確定和挖掘對象信息的表征這一難題成為數據挖掘研究人員的比較關注的問題之一。思維主題發現技術對于數據挖掘應用的問題提取起到非常好的效果,但是該算法的實驗效率還有待進一步提高。
1.1概念對的定義
定義概念對(Concept Pair,CP)
概念對 CP=<ci,cj>表示概念<ci,cj>之間的高強度關聯關系。認知主體從概念ci,通過想象和聯想直接關聯到概念cj,其中概念ci為概念對 CP=<ci,cj>的前驅概念,概念cj為概念對CP=<ci,cj>的后續概念。
概念對CP=<ci,cj>存在偏序關系。在概念對CP=<ci,cj>中,概念ci為抽象程度高的高層概念,概念cj為抽象程度低的低層概念。概念對CP=<ci,cj>的偏序關系為從高層概念ci指向低層
定義概念集(Concept Set,CS)
概念集CS是指概念對集CPS中所有概念對所包含的概念的全集,CS={c|c∈CPandCP∈CPS}其中c表示概念,CPS表示概念對集。
思維主題發現技術在獲得滿意的概念對組成的概念集之后,會將數據挖掘任務所涉及的全部概念,按照從抽象到具體、從整體到部分的順序,自頂向下形成具有一定層次關系的概念序列集合,稱為思維序列。而在這過程中擔負中間橋梁作用的概念對的質量好壞直接影響到所形成的思維序列的好壞以至于最后思維主題發現結果的好壞。因此在由概念對得到思維序列之前非常有必要對概念對本身以及由其所組成的概念對集利用數據挖掘的方法進行處理得到令人滿意的、高質量的概念對以及概念對集。
1.2概念對的特點
通過上節的描述,我們可以看到概念對是以成對形式存在的、抽象的、存在偏序關系的詞對。而且基于數據挖掘任務問題描述的概念對集會是一個數據容量不大的集合。因此我們總結概念對以及由概念對組成的概念對集的特點如下:
(1)概念對是由各種類型的詞組成的;
(2)概念對是由詞成對存在的;
(3)概念對的詞之間存在偏序關系;
(4)概念對所謂的概念是有抽象意味的;
(5)概念對集是一個數據容量不大的集合。
通過對概念對的特點進行分析以及概念對形成思維序列和最終得到思維主題發現結果的要求選擇合適的數據挖掘分類方法對概念對進行數據層面上的處理,使之進行后續的思維主題發現過程能夠大幅度地提高算法效率。
分類(Classification)是數據挖掘中的一個重要的概念。數據分類一般分為兩個過程。第一是建立分類模型,描述預定的數據類集或者概念集。通過分析有屬性描述的數據庫元組來構造模型。第二是使用分類對新的數據集進行劃分,主要涉及分類規則的準確性、過分適合、矛盾劃分的取舍等。
一般而言,自然語言處理即是讓計算機以字、詞、句、篇章為單元,對相關的輸入、輸出進行識別、分析、理解與生成等進行加工和操作的過程。
2.1分類的種類及特點
分類作為數據挖掘研究的一個重點領域,經過無數研究人員的努力提出了很多算法,按大的方向分類主要有:決策樹、關聯規則、貝葉斯、神經網絡、規則學習、k-臨近法、遺傳算法、粗糙集以及模糊邏輯技術等[5]。
2.1.1決策樹
決策樹學習在求解分類問題的方法中是應用最廣的歸納推理算法之一。它是一種逼近離散函數值的方法,分類精度高,操作簡單,并且對噪聲數據有很好的健壯性,因而成為使用的并且比較流行的數據挖掘算法。它的最大優點是在學習過程中不需要使用者了解很多背景知識,只要訓練樣本集能夠用“屬性—值”的方式表達出來就能使用決策樹學習算法分類。
2.1.2遺傳算法
遺傳算法是模擬生物進化過程的全局優化方法,將較劣的初始解通過一組遺傳算子(繁殖——已選擇、交叉——即重組、變異——即突變),在求解空間按一定的隨即規則迭代搜索,直到求得問題的最優解。遺傳算法在數據挖掘領域的主要應用有:①用它和BP算法結合訓練神經網絡,然后從網絡提取規則;②分類系統的涉及,如編碼方式、信任分配函數的設計以及遺傳算法的改進等。
2.1.3神經網絡
神經網絡是大量的簡單神經元按一定規則連接構成的網絡系統。它能夠模擬人類大腦的結構和功能,采用某種學習算法從訓練樣本中學習,并將獲得的知識存儲在網絡各單元之間的連接權中。神經網絡主要有前向神經網絡、后向神經網絡和自組織網絡。在數據挖掘領域,主要采用前向神經網絡和自組織網絡。
2.1.4貝葉斯算法
貝葉斯分類是統計學的分類,基于貝葉斯公式即后驗概率公式。樸素貝葉斯分類過程是首先令每個數據樣本用一個N維特征向量X={X1,X2,…,Xn}表示,其中Xk是屬性Ak的值。所有的樣本分為m類:C1,C2,…,Cn。對于一個類別的標記未知的數據記錄而言,若P(Ci/X)>P(Cj/X),1≤j≤m,j≠i,也就是說,如果條件下X下,數據記錄屬于Ci類的概率大雨屬于其他類的概率的話,貝葉斯分類將把這條記錄歸類為Ci。
2.2自然語言處理
自然語言處理可以大致分為兩個部分:自然語言理解和自然語言生成。前者強調讓計算機理解人們借助文字或語音表述的語言,后者則關注讓計算使用人類可以理解的方式——文字或語音——表達意思。一般而言,自然語言處理即是讓計算機以字、詞、句、篇章為單元,對相關的輸入、輸出進行識別、分析、理解與生成等進行加工和操作的過程。自然語言的計算機處理大體可以分成四個層次:
(1)文字和語言即基本語言信息的構成及其規律;
(2)語法及語言的形態結構研究;
(3)語義即語言與它所指的對象之間的關系;
(4)語用即語言與它的使用者之間的關系。
自然語言處理的技術和思路紛繁復雜,國際上有各種各樣的研究方向,本文擬定處理的對象為中文書面文本數據,結合實際需要,在此僅從中文分詞技術以及文本挖掘技術兩個方面進行綜述。
3.1概念對分類
要對概念對進行分類研究,首先應當對概念對的特點進行細致地分析,基于概念對的特點以及數據挖掘分類各個經典算法所能特別解決的問題偏好。本文主要針對概念對的橫向與縱向兩方面進行分類處理。而對概念對進行分類所依據的影響因子由于論文研究進展現暫列舉以下情況:
表1 概念對分類影響因子
由于概念對是由不同詞性(如:名詞,動詞)、不同詞性跨越(如:從名詞聯想到動詞)、概念對獲得效率(依據分詞難易情況來分),所以在進行數據挖掘的分類處理過程中,可以以這些為分類屬性影響因子對概念對進行分類研究。
3.2分類方法的組合
目前發展較成熟的幾種分類算法如決策樹、關聯規則分類、神經網絡、貝葉斯方法、遺傳算法等數據挖掘分類算法。將多種不同分類算法結合在一起進行數據挖掘的分類研究是當前數據挖掘的一個研究熱點領域,多種不同的算法不但能夠互相彌補之間的缺點而且能夠發揮算法自身在某一類情況下對特定研究對象所具有的優勢,因此,本文研究嘗試多種不同分類算法以不同形式地結合提高對概念對分類效果。
概念對作為一個為解決數據挖掘應用而被提出來的新的概念,研究者對之研究分析比較少,作者首先分析概念對的特點然后再從數據挖掘經典的算法中尋求適合對概念對進行處理的經典算法并對算法根據概念對的特點進行進一步的優化完善,利用新完善好的分類算法來處理概念對。對概念對的分類無疑能夠得到不同等級、不同種類的概念對,用高等級、特定種類的概念對進行思維流程發現,無疑能夠得到優質的結果,提高思維流程發現技術對數據挖掘應用中的問題解決的效率。通過對概念對的質量好壞分類能夠預測思維主題發現所得到結果質量的好壞。利用高質量的概念對進行思維序列的產生自然能夠得到高質量的思維序列,良性循環之下得到高質量的問題空間最終提高思維流程發現技術的整體效果。
未來對概念對分類需要更多考慮分類對于概念對之間:
(1)契合度的度量以及區分;
(2)對思維流程技術效率的提升;
(3)概念對獲取指導性導向。
主要參考文獻
[1]Han J W,Kamber M.Data Mining:Concepts and Techniques[M].Beijing,China:China Machine Press,2006.
[2]陳學昌.數據挖掘應用中的思維流程發現技術[D].北京:北京科技大學,2012.
[3]談恒貴,王文杰,李游劃,數據挖掘分類算法綜述[J].微型機與應用,2005(2).
[4]何中市.自然語言處理與統計語言模型[J].外國語言文學研究,2004 (6).
[5]劉秀娟,田川,馮欣.數據挖掘分類技術研究與分析[J].現代電子技術,2010,33(20):86-88.
[6]P K Agarwal and C M Procopiuc.Exact and Approximation Algorithms for Clustering[J].Algorithmica,2002,33(2):201-226.
[7]史忠植.認知科學[M].合肥:中國科學技術大學出版社,2008.
[8]何軍,劉紅巖,杜小勇.挖掘多關系關聯規則[J].軟件學報,2007(11).
[9]Hang Li,Kenji Yamanishi.Topic Analysis Using a Finite Mixture Model [J].Information Processing and Management,2003,39(4):521-541.
10.3969/j.issn.1673-0194.2016.17.098
TP391
A
1673-0194(2016)17-0175-03
2016-07-19概念cj。