999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集理論的文本分類研究現狀綜述

2018-11-20 12:27:54郭艷芬
教育教學論壇 2018年46期

郭艷芬

摘要:文本分類是信息處理的重要研究方向之一。本文對粗糙集和文本分類的發展現狀及存在的問題進行了系統性闡述。

關鍵詞:文本分類;粗糙集;屬性約簡

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2018)46-0241-02

一、引言

伴隨互聯網與信息技術的迅猛發展,互聯網上的信息與資源也迅猛地增長,在人們日常所接觸到的海量信息中,大部分都是以電子文檔的形式表現的文本信息。高速有效地管理信息并準確的提取用戶信息,是當前信息科學技術領域面臨的一項艱巨的任務和問題[1]。數據挖掘技術成為計算機信息處理領域的研究熱點和前沿技術。文本分類是數據挖掘中一項非常重要的任務,并作為處理海量文本信息的一項關鍵技術,可以在相當大的程度上解決信息雜亂無章的問題,從而方便用戶精準地定位所需要的信息和信息分流[2-3]。因此,文本自動分類技術已作為具有實用價值的重要關鍵技術之一,是當前信息檢索和自然語言處理領域最活躍的研究主題之一,得到了廣泛的關注。

理論上,模式識別和機器學習是文本分類的一個重要應用方向。由于其特點,它涉及到的學科很多,主要包括語言學類、認知信息科學類、人工智能類、統計學、概率論、計算機等[4]。在社會領域文本分類同樣也可以應用到,例如網頁分類、科技文獻分類、電子圖書館、專利分類、商標分類、電子郵件過濾等。因此,對文本分類進行研究具有重要的理論意義和實用價值。

在文本分類中,向量空間模型是描述文本最經常用到的。自然語言十分復雜的特性導致其所涵蓋的特征詞的數量增多,這就使得文本特征空間的維數過高,高維的特征空間可能會使一些算法的運算效率過低。因此,某些系統為了降低維數會使用詞頻統計,利用閾值過濾掉一些特征。但是,這樣做也有一些弊端。可能會導致一些重要信息的丟失,例如某些專有名詞,雖然使用頻率過低但是其作用是不可忽視的。

坡那克教授在1982年提出了粗糙集理論。它可以有效分析和處理各種不完備信息,并且可以從中發現其隱藏的規律和信息。粗糙集理論可以盡可能的解決在處理不完備信息方面存在的問題,因此該理論在數據挖掘抽取中得到了廣泛的應用。空間維數過高是文本分類中存在的主要問題,降低文本分類向量維數,減少特征數,提高分類速度是粗糙集理論的屬性約簡特征。為了可以更好地構成分類器,粗糙集的這一優勢可以與其他分類算法相融合,如與K-緊鄰,神經網絡及模糊集等的結合。

總之,能夠分析隱藏在數據中的事實而無需提供除問題之外的任何附加信息和先驗信息,是粗糙集理論最顯著的優點。對于發現各數據間的關系并提取有用信息,粗糙集理論具有無可比擬的優越性。粗糙集的屬性約簡和規則冗余值約簡是重中之重,通過對維數進行約減和降低,從而總結出一些知識規則來用于決策支持。

二、研究現狀

美國IBM公司對文本分類進行了開創性的研究,正在被人們廣泛的應用和實踐。后來Marone發表了一篇論文,其內容是關于自動文本分類的,其觀點是用概率模型來進行的。Salton等人后來提出了向量空間模型(VSM),該模型是文本分類處理的一種經典模型,該模型是在統計學的基礎上進行了論述,對文本特性尤其是在抽象描述方面有了很好的詮釋。而后,諸多學者在這一領域進行了諸多開創性的研究。

截至上世紀80年代末,在眾多文本分類方法中,基于知識工程的方法即系統利用專家規則進行分類,一直起著主導地位。到了90年代,模式識別、統計、數據挖掘等理論逐漸開展開來,機器學習的方法逐漸被人們所使用,進而慢慢取代了知識工程的方法。近年來,研究人員將人工智能和機器學習技術相結合并應用到文本分類研究中,并且提出了各種分類模型與算法,如決策樹、K-緊鄰(KNN)、樸素貝葉斯、支持向量機、遺傳算法(Genetic Algorithms)等。科研人員對這些分類方法進行對比分析,得出粗糙集是最有發展前途的、知識獲取研究中的最有力工具之一的結論。英國愛丁堡大學的教授在粗糙集理論的基礎上對文本分類問題進行了詳細的研究和探討,已知給定文件全體和一個已分類的文件集合,能夠較好地區別文件類型的最小并列關鍵詞集合,并達到大大降低了關鍵詞空間的維數的效果。

我國在中文文本分類的研究方面比國外研究相對較晚。在1981年侯漢清教授對于計算機在文本分類中做了開創性的研究和探討。同時國內許多研究機構也對文本分類工作進行了研究和開展,其中有代表性的有:中科院的史忠植、李曉黎把網絡概念推理植入到文本分類中。上海交通大學王永成將神經網絡模型運用到了中文自動分類系統,以及中文自動分類系統的開發者清華大學吳軍、東北大學圖書館分類專家系統、開發金融自動分類系統的山西大學劉開瑛等。南京大學計算機系的劉靜等對文本分類進行了研究,主要是將分類規則和貝葉斯方法相結合,該方法放寬了貝葉斯對強獨立性假設條件的要求。復旦大學李榮陸開發了文本分類系統,是將K近鄰方法和支持向量機的方法相結合。在粗糙集方法上,主要有下面幾個成果:李鈍等提出了一種新的分類方法,將文本聚類和粗糙集理論的屬性約簡相結合的方式提高了文本分類的效率;張著英將KNN算法的應用范圍得到了擴大,解決了KNN算法的缺點,從而使KNN算法得到了廣泛的應用。王效岳等提出了一種混合算法是將屬性約簡的粗糙集理論和分類機理相結合,提高了分類速度并較好地體現了其穩定性及容錯性。

對于Pawlak粗糙集理論的分類具有嚴格的要求,不容有一點錯誤。按照等價類分類方式進行分類,也就是“包含”或“不包含”的關系。文本分類依賴的關鍵詞,其分布有很大的隨機性,采用Pawlak粗糙集模型進行文本分類也會存在一些問題。有諸多不確定的信息需要處理及分析,在多數包含關系的基礎上,Ziarko提出了可變精度粗糙集模型(VPRS),通過設定近似包含閾值,放松了經典粗糙集嚴格的邊界定義,它對于抗噪聲能力有一定的作用,同時也可以處理一定程度上的包含關系。

三、研究方法

應用粗糙集理論對文本分類中所涉及的關鍵技術和問題進行研究和探討時,包括文本向量化、基于可變精度的粗糙集理論的文本特征加權研究、基于可變精度粗糙集理論的知識約簡、針對各規則分類結果不相同時的沖突消解等內容。研究目標是利用該方法實現一個分類準確度高的文本分類系統。主要分解為以下幾個方面:(1)文本向量化預處理研究。主要是分詞處理和文本特征提取。針對中文的最小組成單位是漢字,最小的語義單位是詞或者短語,并且以不間斷的字符串形式呈現,詞與詞之間沒有歧義詞或者自然分隔的問題,展開以概率統計為基礎的分詞方法的中文分詞研究并去停用詞;文本匹配到向量匹配的轉化研究。(2)特征加權研究。在文本大小不一致情況下,分析絕對詞頻作為度量某詞重要程度標準的不合理性,分析逆文本頻率加權算法(TFIDF)存在的問題,進行相對詞頻計算方法的研究和粗糙集加權算法研究;針對文本特征提取中高維到低維變換可能喪失數據原來所蘊含的信息問題,進行基于TFIDF和VPRS模型的降維處理研究。(3)基于粗糙集理論的知識約簡研究。針對VPRS在知識約簡中的NP問題,從分類質量、相對正域和決策類三個層面分析約簡的核心問題,基于屬性核思想展開研究。從兩個角度研究:基于分類率不變與正域不變條件下的VPRS屬性約簡;下屬性不變條件下的VPRS屬性約簡。從而得到最小規則集來降低知識約簡計算的復雜度。(4)沖突消解策略研究。針對實際處理過程中,由于現實世界的數據協調性和正確性難以保證,從而導致知識庫會存在一定程度的不協調性問題,將產生不同的規則對同一文本可能會做出不同的分類現象,進行沖突消解的研究。

結語:中文分詞對于文本分類有著至關重要的影響,隨著新詞匯的不斷出現,對分詞工作提出了更新的要求;其次,值得人們探討和研究的是在使用分類算法時,如何選擇最優的特征選擇方法。目前,雖存在多種分類算法,但是大部分分類系統都是針對應用某一種分類算法,如何尋找最優的通用的文本分類算法是科研者們面前的一項課題。

參考文獻:

[1]王光宏,蔣平.數據挖掘綜述[J].同濟大學學報,2004,32(2):246-252.

[2]鄭麗英,王海涌,劉麗艷.基于粗糙集和模糊聚類理論的文本分類系統的研究與實現[J].鐵道學報,2007,29(1):45-49.

[3]王國胤.Rough集理論與知識獲取[M].西安:西安交通大學出版社,2001:12-14.

[4]蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006,17(9):48-55.

主站蜘蛛池模板: 超碰免费91| 激情综合图区| 制服丝袜一区二区三区在线| 午夜影院a级片| 老熟妇喷水一区二区三区| 日韩国产亚洲一区二区在线观看| 日本亚洲成高清一区二区三区| 久久精品人人做人人综合试看| 亚洲精品国产首次亮相| 日韩免费中文字幕| 国产69囗曝护士吞精在线视频| 亚洲乱码在线视频| 视频二区中文无码| 国产精品亚洲а∨天堂免下载| 国产高清免费午夜在线视频| 狠狠亚洲五月天| 欧美伊人色综合久久天天| A级毛片无码久久精品免费| 视频一本大道香蕉久在线播放| 国产一区二区三区免费观看| 亚洲成人福利网站| 玖玖免费视频在线观看| 少妇精品在线| 日韩久久精品无码aV| 小说区 亚洲 自拍 另类| 制服丝袜一区| 婷婷六月在线| 重口调教一区二区视频| 国内a级毛片| 福利在线不卡| 在线中文字幕网| 国产微拍一区二区三区四区| 成人一级免费视频| 久久精品国产精品一区二区| 国产理论一区| 亚洲国产日韩视频观看| 无码国产伊人| 日本三级黄在线观看| 亚洲精品波多野结衣| 午夜a视频| 国产手机在线小视频免费观看| 人人爽人人爽人人片| 日本精品中文字幕在线不卡| 免费国产黄线在线观看| 在线色国产| 国产欧美日韩视频怡春院| 欧美成人免费午夜全| 国产精品专区第1页| 日韩视频免费| 3344在线观看无码| 国产欧美日韩资源在线观看| 國產尤物AV尤物在線觀看| 久久精品嫩草研究院| 久久先锋资源| 天天摸夜夜操| 久久久精品久久久久三级| 中日无码在线观看| 一级做a爰片久久免费| 国产精品无码影视久久久久久久| 素人激情视频福利| 国产女人在线| 无遮挡国产高潮视频免费观看 | 国产精品永久免费嫩草研究院| 一级做a爰片久久毛片毛片| 波多野结衣无码中文字幕在线观看一区二区| 热思思久久免费视频| 成人国内精品久久久久影院| 青青青草国产| 熟妇无码人妻| 亚洲黄网视频| 无码中文字幕精品推荐| 国产综合在线观看视频| 欧美亚洲综合免费精品高清在线观看| 精品国产99久久| 五月婷婷导航| 91区国产福利在线观看午夜| 粉嫩国产白浆在线观看| 国产香蕉国产精品偷在线观看| 国产无码高清视频不卡| 久久精品视频亚洲| 美女被躁出白浆视频播放| 特级做a爰片毛片免费69|