999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的內容數據挖掘與應用

2020-02-29 20:16:11劉立蘭
科學導報·學術 2020年4期
關鍵詞:數據挖掘規則分類

劉立蘭

摘? 要:大數據中的內容數據挖掘,通過內容挖掘技術解決垃圾檢測、黃賭識別、標簽提取、內容提取、文章分類、情感分析這一系列業務領域的內容數據分析。

關鍵詞:內容數據挖掘;內容挖掘與應用

一、概述

1.內容挖掘的定義

Web上的信息量隨著因特網的飛速發展以驚人的速度增長,面對Web上海量、分布、動態、異質、復雜、非結構化的豐富信息資源,用戶如何從中查找、抽取自己想要的數據和有用信息,由此產生了Web挖掘技術。

Web挖掘就是從大量的Web文檔和Web活動中發現、抽取感興趣的、潛在的有用模式和隱含的、事先未知的、潛在的信息。Web信息的多樣性決定了Web挖掘任務的多樣性。Web挖掘可分為三類:Web內容挖掘、Web結構挖掘和Web應用挖掘。

Web內容挖掘分為文本挖掘與多媒體挖掘。而文本挖掘,則是從Web文檔的內容信息中抽取知識。是從大量Web數據中發現信息、抽取有用知識的過程。多媒體挖掘則是通過對多媒體的音頻、視頻、圖片等要素的比對、識別、抽取實現有用知識的挖掘分析。Web內容挖掘是Web挖掘的一個重要方面,本文主要闡述的Web挖掘中的內容數據挖掘與應用。

2.國內外研究現狀

Web內容挖掘和信息檢索有較深的淵源,因此,許多技術都是源自信息檢索領域。從信息檢索角度研究這個問題,主要研究如何處理文本格式和超鏈接文檔,這些數據是非結構化或者是半結構化的。數據以詞組、短語、n-維詞元、詞包等形式表示,采用TFIDF(文檔特征權值表示常用方法)和變量、機器學習和詞組統計包括自然語言的統計等研究方法對文檔進行分類、聚類,研究抽取詞組在文檔中出現的規律。Craven等研究了用關系模型表示文檔內容,采用修改了的貝葉斯算法,給超文本鏈接分類,尋求Web頁面關系,抽取規則。Crimmins研究了用短語、超級鏈接和信息元表示文檔內容,采用自動和非自動學習的分類算法,對文檔進行聚類和分層分類。Furnkranz和Joachims用超級鏈接信息表示文檔內容,采用規則學習算法PTFIDF,對超級鏈接文檔進行分類。

二是從數據庫角度研究,主要處理半結構化的Web數據庫,也就是超級鏈接文檔。數據多采用帶權圖或者對象嵌入模型(Object Embedded? Model OEM),或者關系數據庫表示,應用Proprietary算法或者經過修改了的關聯規則挖掘算法,尋找出網站頁面之間的內在聯系。Goldman、Nestorov等人用OEM表示文檔,采用Proprietary算法,分別在半結構化數據中,尋找標引字段和數據的層次結構。Zaiane等用關系數據庫表示數據,采用面向對象的推理方法,尋找多層次數據庫的構建策略,為文獻標引提供決策依據。

無論是從IR角度還是從數據庫角度研究,都是為了研究如何實現文本分析(Text Analysis)、文本解釋(Text Interpretation)和文本分類(Text Classification)等工作的自動化。從而提高網上搜索引擎的查準率和查全率。

二、內容的數據挖掘與應用

1.首先要了解用戶要解決的問題

內容的數據挖掘在不同行業的應用有其不同。在內容數據挖掘之前首先要了解所在行業對于內容數據挖掘的需求,用戶希望通過數據挖掘要解決的問題是什么?是否是想通過對內容的分析與挖掘實現:

1)垃圾檢測:精準識別垃圾郵件、垃圾內容等低質量文本內容

2)黃賭識別:準確定位文本中所含涉黃、涉賭等違規內容

3)標簽提取:高效提取文本核心詞語以生成標簽

4)內容提取:對文本符合某種規則的特定內容進行提取

5)文章分類:依據預設分類體系對文本進行自動歸類

6)情感分析:準確分析用戶透過文本表達出的情感傾向

2.非結構化文本數據的挖掘實現

2.1基于關聯規則的文本挖掘

關聯規則中最常用的是Apriori,其核心是基于兩階段頻集思想的遞推算法,該關聯規則在分類上屬于單維、單層、布爾關聯規則,常用于事務性的挖掘規則中。

2.2序列模式挖掘

序列模式挖掘解釋的關系跟關聯模型相同,只不過把時間因素考慮在內,算法包括三類:

類Apriori算法:典型代表GSP算法,SPADE算法;

基于劃分模式的生長算法:典型代表是FreeSpan和PrefixSpan算法;

基于序列比較的算法:代表為Disc-all;

整體來看PrefixSpan和Disc-all在算法效率和性能表現上會更好,同時,考慮到業務對時間上的約束條件,比如我們分析發現,用戶的存 留周期只有1年,那么我們只想對1年內發生重復行為的用戶進行針對性動作,1年就是我們的約束條件。這也是在做基于時間序列也需要考慮的因素。

2.3文本聚類挖掘

聚類分析是業務進入數據挖掘場景最基本的需求,通常的需求如,描述某類用戶的基本特征,同時,這些特征可以作為進一步挖掘和分析的基本條件。聚類分析中最常用的算法是K-MEANS聚類和兩步聚類。

2.4文本規則提取

所謂的文本規則提取,指的是把文本作為用戶提取規則的一個變量,通常用決策樹、SVM、SLRM來提取業務規則,比如要找到購買家電類的用戶,他們對產品有哪些需求點,可以通過以下幾種方式提取規則。

2.5決策樹

決策樹挖掘模式通常使用C 5.0、C&RT、CHAID、QUEST等,決策樹模型的特點是以樹狀展現規則,并按照規則對目標的影響程度分支,非常利于業務理解和規則提取。

在文本挖掘中,充另一個挑戰是文本的“語意”。由于文本在漢語中的豐富的色彩,對文本的感情屬性的判斷需要根據語境,挖掘融合了全套自然語言處理技術和機器學習技術,基礎文字處理集成了文本分詞、詞性標注、句法分析、命名實體識別、文本標簽提取等功能模塊,基于此再結合機器學習算法,實現認知層次上的文本自動分類、涉黃涉政分析、垃圾評論識別等功能。

3.非結構化文本數據挖掘的應用

用戶給出內容分析與挖掘的規則及要求,系統根據規則及要求對文本內容進行文本自動審核、垃圾評論檢測、文本標簽提取、文本自動歸類、文本情感分析。

3.1規則制定

1)提供用戶自行制定分析規則,規則包括:標簽組合、關鍵詞組合,標簽組、關鍵詞組。組合規則包括與、或、非。

3.2文本自動審核

1)文本中涉黃、涉堵、涉政、反動等違規方面進行審核,給出當前文本違規的嚴重系數。

2)假設將每類違規類型系數定為1,將文本內容審核時給出文本內容符合哪類違規類別,給出違規系數。

3)提供對文本的自動審查,用戶給出一段文本內容后,自動對文本進行審核對。

3.3垃圾評論檢測

1)提供對文本的內容是否為垃圾內容或低質量的文本內容的檢測。

2)給出文本是垃圾內容及低質量內容的評定系數。將評定系數高的數據進行剔除。

3.4文本標簽提取

1)提供對文本內容標簽的自動提取功能,將文本中核心詞語進行提取生成文本重要標簽。標簽按重要性遞減排序

2)并將標簽與規則進行比對,比對成功的進行標識。

3.5特定規則內容提取

用戶進行自定義的提取規則的設定,系統可以根據用戶的要求進行提取。符合某種規則的特定內容提供取某類型的庫中。

1)提取規則一:key=value格式,可以支持多種KEY=value的樣式。

2)提取規則二:符合手機號、身份證、MAC、IMEI、IMSI、郵件帳號規則。

3)提取規則三:基于郵件正文、附件內容的模版提取。提取郵件姓名、電話、公司地址、公司電話、傳真號、QQ號、公司網站、公司名稱。

4)提取規則四:符合自行設定規則的提取,如:APP名稱、盜號規則等。

3.6文本自動歸類

1)提供對文本內容進行分析,依據預設的分類體系對海量文本進行自動歸類,并給出所屬類型的置信度(如:社會資訊、健康、科技)。

2)提供對文本內容進行分析,分析后將文本自動歸類并給出所屬類型的置信度(如:社會資訊、健康、科技)。

3.7文本情感分析

1)在論壇、郵件及網站中產生了大量的用戶郵件、評論信息,如何在這些信息中提取出有價值的信息不是一件容易的事。

2)通過對一段文本內容分析,發現其表達的是正面情緒還是負面情緒并顯示兩種情緒的占比。

3)通過情感傾向的正面與負面的權重(0.2/0.8)及標簽,可快速定位負面內容的發起者與傳播者。

參考文獻

[1]? 認知計算與大數據分析【美:JudithS.Hurwitz MARCIA kaufman Adrian Bowles張鴻濤譯】

猜你喜歡
數據挖掘規則分類
撐竿跳規則的制定
數獨的規則和演變
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 99热亚洲精品6码| 国产成人久视频免费| 在线精品自拍| 久久精品无码专区免费| 综合人妻久久一区二区精品| 国产精品九九视频| 欧美成一级| 久久精品人人做人人综合试看| 日韩色图在线观看| 在线观看精品自拍视频| 亚洲欧美国产五月天综合| 国产成人高清精品免费| 亚洲福利片无码最新在线播放| 国产呦视频免费视频在线观看| 久久中文字幕2021精品| 日韩 欧美 小说 综合网 另类| www.av男人.com| 熟妇丰满人妻av无码区| 午夜视频在线观看免费网站 | 在线观看热码亚洲av每日更新| 国产精品视频第一专区| 久久人搡人人玩人妻精品一| 欧美精品xx| 久久黄色毛片| 国产免费网址| 99久久国产综合精品2023| 欧美一区二区三区国产精品| 成人日韩精品| 9啪在线视频| 在线视频一区二区三区不卡| 国产女人水多毛片18| 成人福利免费在线观看| 伊人激情久久综合中文字幕| 伊人久久婷婷五月综合97色| 精品国产成人a在线观看| 国产成人欧美| 国产福利观看| 四虎在线高清无码| 伊人激情综合| 成人午夜免费视频| www.youjizz.com久久| 色妞www精品视频一级下载| 国产美女主播一级成人毛片| 一区二区无码在线视频| 青青草国产一区二区三区| 国产凹凸视频在线观看| 久久精品丝袜高跟鞋| 91色在线观看| 亚洲综合精品第一页| 天堂成人av| 99国产精品一区二区| 99国产精品免费观看视频| 中文字幕丝袜一区二区| 九九热在线视频| 国产在线第二页| 欧美午夜视频在线| 人妻91无码色偷偷色噜噜噜| 久久久精品无码一区二区三区| 日本国产一区在线观看| 久久中文字幕2021精品| 亚洲国产一成久久精品国产成人综合| 国产超碰在线观看| 久久99这里精品8国产| 国产精品入口麻豆| 亚瑟天堂久久一区二区影院| 91年精品国产福利线观看久久| 午夜视频在线观看免费网站| 久久综合国产乱子免费| 国产一级毛片在线| 欧美影院久久| 国产99久久亚洲综合精品西瓜tv| 国产91丝袜在线播放动漫| 日本伊人色综合网| 91色爱欧美精品www| 97亚洲色综久久精品| 精品国产一区二区三区在线观看 | 91免费国产高清观看| 久久99国产综合精品女同| 欧美一区二区自偷自拍视频| 中文无码毛片又爽又刺激| 狠狠色噜噜狠狠狠狠色综合久 | a毛片在线播放|