劉立蘭
摘? 要:大數據中的內容數據挖掘,通過內容挖掘技術解決垃圾檢測、黃賭識別、標簽提取、內容提取、文章分類、情感分析這一系列業務領域的內容數據分析。
關鍵詞:內容數據挖掘;內容挖掘與應用
一、概述
1.內容挖掘的定義
Web上的信息量隨著因特網的飛速發展以驚人的速度增長,面對Web上海量、分布、動態、異質、復雜、非結構化的豐富信息資源,用戶如何從中查找、抽取自己想要的數據和有用信息,由此產生了Web挖掘技術。
Web挖掘就是從大量的Web文檔和Web活動中發現、抽取感興趣的、潛在的有用模式和隱含的、事先未知的、潛在的信息。Web信息的多樣性決定了Web挖掘任務的多樣性。Web挖掘可分為三類:Web內容挖掘、Web結構挖掘和Web應用挖掘。
Web內容挖掘分為文本挖掘與多媒體挖掘。而文本挖掘,則是從Web文檔的內容信息中抽取知識。是從大量Web數據中發現信息、抽取有用知識的過程。多媒體挖掘則是通過對多媒體的音頻、視頻、圖片等要素的比對、識別、抽取實現有用知識的挖掘分析。Web內容挖掘是Web挖掘的一個重要方面,本文主要闡述的Web挖掘中的內容數據挖掘與應用。
2.國內外研究現狀
Web內容挖掘和信息檢索有較深的淵源,因此,許多技術都是源自信息檢索領域。從信息檢索角度研究這個問題,主要研究如何處理文本格式和超鏈接文檔,這些數據是非結構化或者是半結構化的。數據以詞組、短語、n-維詞元、詞包等形式表示,采用TFIDF(文檔特征權值表示常用方法)和變量、機器學習和詞組統計包括自然語言的統計等研究方法對文檔進行分類、聚類,研究抽取詞組在文檔中出現的規律。Craven等研究了用關系模型表示文檔內容,采用修改了的貝葉斯算法,給超文本鏈接分類,尋求Web頁面關系,抽取規則。Crimmins研究了用短語、超級鏈接和信息元表示文檔內容,采用自動和非自動學習的分類算法,對文檔進行聚類和分層分類。Furnkranz和Joachims用超級鏈接信息表示文檔內容,采用規則學習算法PTFIDF,對超級鏈接文檔進行分類。
二是從數據庫角度研究,主要處理半結構化的Web數據庫,也就是超級鏈接文檔。數據多采用帶權圖或者對象嵌入模型(Object Embedded? Model OEM),或者關系數據庫表示,應用Proprietary算法或者經過修改了的關聯規則挖掘算法,尋找出網站頁面之間的內在聯系。Goldman、Nestorov等人用OEM表示文檔,采用Proprietary算法,分別在半結構化數據中,尋找標引字段和數據的層次結構。Zaiane等用關系數據庫表示數據,采用面向對象的推理方法,尋找多層次數據庫的構建策略,為文獻標引提供決策依據。
無論是從IR角度還是從數據庫角度研究,都是為了研究如何實現文本分析(Text Analysis)、文本解釋(Text Interpretation)和文本分類(Text Classification)等工作的自動化。從而提高網上搜索引擎的查準率和查全率。
二、內容的數據挖掘與應用
1.首先要了解用戶要解決的問題
內容的數據挖掘在不同行業的應用有其不同。在內容數據挖掘之前首先要了解所在行業對于內容數據挖掘的需求,用戶希望通過數據挖掘要解決的問題是什么?是否是想通過對內容的分析與挖掘實現:
1)垃圾檢測:精準識別垃圾郵件、垃圾內容等低質量文本內容
2)黃賭識別:準確定位文本中所含涉黃、涉賭等違規內容
3)標簽提取:高效提取文本核心詞語以生成標簽
4)內容提取:對文本符合某種規則的特定內容進行提取
5)文章分類:依據預設分類體系對文本進行自動歸類
6)情感分析:準確分析用戶透過文本表達出的情感傾向
2.非結構化文本數據的挖掘實現
2.1基于關聯規則的文本挖掘
關聯規則中最常用的是Apriori,其核心是基于兩階段頻集思想的遞推算法,該關聯規則在分類上屬于單維、單層、布爾關聯規則,常用于事務性的挖掘規則中。
2.2序列模式挖掘
序列模式挖掘解釋的關系跟關聯模型相同,只不過把時間因素考慮在內,算法包括三類:
類Apriori算法:典型代表GSP算法,SPADE算法;
基于劃分模式的生長算法:典型代表是FreeSpan和PrefixSpan算法;
基于序列比較的算法:代表為Disc-all;
整體來看PrefixSpan和Disc-all在算法效率和性能表現上會更好,同時,考慮到業務對時間上的約束條件,比如我們分析發現,用戶的存 留周期只有1年,那么我們只想對1年內發生重復行為的用戶進行針對性動作,1年就是我們的約束條件。這也是在做基于時間序列也需要考慮的因素。
2.3文本聚類挖掘
聚類分析是業務進入數據挖掘場景最基本的需求,通常的需求如,描述某類用戶的基本特征,同時,這些特征可以作為進一步挖掘和分析的基本條件。聚類分析中最常用的算法是K-MEANS聚類和兩步聚類。
2.4文本規則提取
所謂的文本規則提取,指的是把文本作為用戶提取規則的一個變量,通常用決策樹、SVM、SLRM來提取業務規則,比如要找到購買家電類的用戶,他們對產品有哪些需求點,可以通過以下幾種方式提取規則。
2.5決策樹
決策樹挖掘模式通常使用C 5.0、C&RT、CHAID、QUEST等,決策樹模型的特點是以樹狀展現規則,并按照規則對目標的影響程度分支,非常利于業務理解和規則提取。
在文本挖掘中,充另一個挑戰是文本的“語意”。由于文本在漢語中的豐富的色彩,對文本的感情屬性的判斷需要根據語境,挖掘融合了全套自然語言處理技術和機器學習技術,基礎文字處理集成了文本分詞、詞性標注、句法分析、命名實體識別、文本標簽提取等功能模塊,基于此再結合機器學習算法,實現認知層次上的文本自動分類、涉黃涉政分析、垃圾評論識別等功能。
3.非結構化文本數據挖掘的應用
用戶給出內容分析與挖掘的規則及要求,系統根據規則及要求對文本內容進行文本自動審核、垃圾評論檢測、文本標簽提取、文本自動歸類、文本情感分析。
3.1規則制定
1)提供用戶自行制定分析規則,規則包括:標簽組合、關鍵詞組合,標簽組、關鍵詞組。組合規則包括與、或、非。
3.2文本自動審核
1)文本中涉黃、涉堵、涉政、反動等違規方面進行審核,給出當前文本違規的嚴重系數。
2)假設將每類違規類型系數定為1,將文本內容審核時給出文本內容符合哪類違規類別,給出違規系數。
3)提供對文本的自動審查,用戶給出一段文本內容后,自動對文本進行審核對。
3.3垃圾評論檢測
1)提供對文本的內容是否為垃圾內容或低質量的文本內容的檢測。
2)給出文本是垃圾內容及低質量內容的評定系數。將評定系數高的數據進行剔除。
3.4文本標簽提取
1)提供對文本內容標簽的自動提取功能,將文本中核心詞語進行提取生成文本重要標簽。標簽按重要性遞減排序
2)并將標簽與規則進行比對,比對成功的進行標識。
3.5特定規則內容提取
用戶進行自定義的提取規則的設定,系統可以根據用戶的要求進行提取。符合某種規則的特定內容提供取某類型的庫中。
1)提取規則一:key=value格式,可以支持多種KEY=value的樣式。
2)提取規則二:符合手機號、身份證、MAC、IMEI、IMSI、郵件帳號規則。
3)提取規則三:基于郵件正文、附件內容的模版提取。提取郵件姓名、電話、公司地址、公司電話、傳真號、QQ號、公司網站、公司名稱。
4)提取規則四:符合自行設定規則的提取,如:APP名稱、盜號規則等。
3.6文本自動歸類
1)提供對文本內容進行分析,依據預設的分類體系對海量文本進行自動歸類,并給出所屬類型的置信度(如:社會資訊、健康、科技)。
2)提供對文本內容進行分析,分析后將文本自動歸類并給出所屬類型的置信度(如:社會資訊、健康、科技)。
3.7文本情感分析
1)在論壇、郵件及網站中產生了大量的用戶郵件、評論信息,如何在這些信息中提取出有價值的信息不是一件容易的事。
2)通過對一段文本內容分析,發現其表達的是正面情緒還是負面情緒并顯示兩種情緒的占比。
3)通過情感傾向的正面與負面的權重(0.2/0.8)及標簽,可快速定位負面內容的發起者與傳播者。
參考文獻
[1]? 認知計算與大數據分析【美:JudithS.Hurwitz MARCIA kaufman Adrian Bowles張鴻濤譯】