999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本標引的數據挖掘實踐教學系統研究

2019-10-08 03:48:01楊臻
科技經濟市場 2019年7期
關鍵詞:數據挖掘

楊臻

摘 要:基于大數據時代人才培養新要求,設計基于文本標引的數據挖掘實踐教學系統,創建模塊化的數據挖掘工作環境,使學習者能在平臺完成數據收集、數據預處理、數據標引、數據可視化的數據挖掘全過程,得到基于數據標簽的分析結論。系統提供的基于文本標引的數據挖掘算法環境既降低了對學習者算法編程能力的要求,又培養了學習者的數據挖掘思維與數據挖掘實踐能力,適用于各個專業領域的初學者及商業用戶應用于營銷決策。

關鍵詞:文本標引;數據挖掘;教學系統

1 系統開發背景

數據挖掘,從廣義來講泛指從大量的數據中提取有意義的新知識的過程,發現數據背后隱藏的可應用于實際的有益信息,產生于應用且面向應用。數據挖掘的核心步驟主要包括數據收集、數據預處理、數據轉換、知識挖掘、模式評估,主要任務在于描述當前數據的一致性屬性或基于當前數據預測未來趨勢走向,融合了人工智能、模式識別、機器學習、數據可視化等多領域理論與技術,是助推大數據時代發展的一項核心技術,更是當下國內外信息技術研究領域的熱點。在大數據時代的今天,越來越多的商業領域運用數據挖掘開展決策分析能力也愈加成熟,有專家指出,在可預見的將來,數據挖掘將成為21世紀人才必備的技能要求。教育部發布的《教育信息化2.0》行動計劃中明確提出人工智能、大數據等技術的迅猛發展“將深刻改變人才需求和教育形態”,培養能運用數據思維分析問題、應用數據挖掘手段解決問題的人才將是我們開展新時代人才培養的新目標。

2 系統設計

本系統數據挖掘過程的實現基于文本標引算法,基本思路為通過設計判定圖為采集的文本數據源打標簽的方式將提取數據關鍵屬性深入挖掘內在聯系,再通過數據可視化方式將挖掘結果呈現,實現了數據從收集到挖掘的全過程。對于系統用戶而言,大大突破了對專業的局限和對算法能力的要求,在明確挖掘目標的前提下,用戶可運用本系統各模塊功能搭建面向主題的數據挖掘環境,完成自定義的數據挖掘項目,獲得深度分析報告。

基于文本標引的數據挖掘實踐教學系統由數據采集、數據標引、數據存儲、數據可視化四個模塊構成,各模塊實現的具體功能如下:

2.1 數據采集模塊

數據采集模塊完成數據的采集與清洗工作。首先進行目標人群的抽樣,可按興趣、年齡、關注產品、共同評價等方法根據需求進行抽樣,數據來源于各類社交網站等在線平臺。例如可采集關注某品牌的人群、購買使用某產品的微博用戶,參與提問回答某問題的知乎用戶等。抽樣完成后,根據清洗規則進行目標數據清洗,比如限制發微博數>500條的用戶、排除藍V用戶等規則,獲得有效目標人群,再據此采集該群體公開的基礎用戶信息及歷史微博,完成數據采集工作。本模塊采集的所有數據都將存儲至數據存儲模塊。

2.2 數據標引模塊

數據標引模塊主要通過繪制判定圖完成對已采集數據打標簽的工作。收集數據后,通過打標簽的方式為數據標注關鍵屬性,從而進行下一步用戶畫像的描繪。判定圖是打標簽工作的核心內容,是數據挖掘過程中的核心環節。在數據標引模塊具體實現的功能如下:

(一)梳理知識和語料

采用知識樹模型構建層級式知識框架實現目標的所有相關組織知識間的因果關系或從屬關系。樹結構作為知識內容的表示形式,結構要盡可能適應所要承載內容的要求。其中,根節點表示組織的目標知識,條目表示知識樹節點上的詞或短語,葉子為層級結構的末端節點。在這基礎上對知識進行分門別類,快速、準確地定義知識的分類并對每一個目標知識進行細分。借助于知識樹的構建,知識可以在一棵樹上不斷的積累,分門別類的進行保存,便于知識定位。

(二)確定數據的資源類型

在此部分需完成:(1)了解數據挖掘的業務目標,即利用數據達到的目的,是產品改進,還是輿情監控、競爭對手分析等,明確判定圖的主題名稱;(2)針對業務需求,通過搜索引擎、微博、專業的論壇和網站等,搜索與主題相關的數據,確定哪些空間(資源類型、網站)的數據符合需求;(3)確定用于標引數據的判定圖的資源類型。

(三)構建集合的文本標引規則

基于以構建知識樹細分標簽維度,總結知識的邏輯關系,即能夠標引該類數據的關鍵特征知識。如通過看提及明星的數據,可以總結該類數據主要的明星名稱類特征詞+人物形象類修飾詞,兩類特征詞同時出現在一句話中。基于此,針對目標人群的特征詞知識樹梳理,可整理出形如“興趣偏好-娛樂-體育-乒乓球-乒乓球賽事-乒乓球運動員”的多維度多層次知識條目。

(四)判定圖繪制

在獲得文本標引規則后,判定圖提供了可視化的需求輸入交互界面,可將對數據的操作需求表示在判定圖中。系統支持判定圖的繪制及調優,工作邏輯見圖1。

(1)創建新任務,開啟新的判定圖任務畫布。

(2)依據文本標引規則,在判定圖畫布上添加節點。

創建判定圖時系統默認提供根節點,根節點名稱默認和監測任務名稱一致。根節點可以設置任務的基本屬性:節點名、資源類型、企業庫專有數據、數據輸出類型等。根節點不可以刪除,且名字不能為空。除根節點外,繪制判定圖的主要節點有邏輯節點與模式節點。

邏輯節點包括判定節點、聯合判定節點及排除節點:

①判定節點

滿足什么條件,就能判定是什么,表示邏輯判斷“或”的關系,可用來分解分析維度,可以理解為分類。通常放置在根節點、聯合判定下,后邊可以連接其他模式節點和邏輯節點。

②聯合判定節點

同時滿足兩個以上條件,就能判定是什么,表示邏輯判斷“與”的關系,即同時滿足多個條件的時候才輸出一個結果。通常放在根節點下,后邊只能添加判定節點和非判定節點。判定表示必須滿足的條件,非判定表示必須不滿足的條件。

③非判定節點

滿足什么條件,就不能判定什么,表示邏輯判斷“非”的關系。只能添加在聯合判定節點下,和聯合判定下的其他判定節點同時使用,后邊可以添加模式節點和邏輯節點。

模式節點包括特征詞節點與漢堡包節點:

①特征詞節點

特征詞節點是填寫關鍵詞的地方,只有此處填寫的詞/屬性才會參與到互聯網的搜索,匹配文本中出現的特征詞集合,并且排除出現在歧義詞串中的情況。特征詞可以是一個集合,匹配可以設置三種類型(分詞、變形、正則)和匹配位置(起始、結尾、等于)。匹配不僅可以直接掃描字符串匹配,也可以對文本串先進行分詞,再匹配,還支持文本串的變形識別、間隔的模糊匹配。匹配不僅可以直接掃描字符串匹配,也支持正則表達式的匹配。

②漢堡包節點

漢堡包識別模式可以識別文本中同時出現兩個或多個子串的情況,如:“某某品牌***服務態度***不好”。漢堡包模式可以設置兩個子串之間的距離、兩個子串出現的順序,以及子串中不允許出現的子串。漢堡包節點不能直接跟在表達“與”關系的聯合判定節點下面,只能跟在判定節點或排除節點后。

(3)建立判定圖的邏輯結構

構建判定圖的邏輯為:根節點下—>聯合判定節點—>判定節點和非判定節點—>特征詞節點和漢堡包節點,其中漢堡包節點下可以添加并集節點和特征詞節點。

(4)為數據打標簽

分析輸出數據,給節點打上標簽,這樣在單條測試和看數據的時候就能知道具體是任務下的哪條分支的數據。

(五)判定圖調優

調優是判定圖構建完成后,通過實時/回溯系統獲取數據,按照標簽、命中線索逐條或批量驗證數據的標簽是否準確,補充及刪除特征詞、修正語義判定規則并修改判定圖的過程。處理方法包括:

(1)檢查判定圖標引邏輯:檢查邏輯是否過嚴:如漢堡邏輯距離過近;檢查特征詞是否夠全:是否收入了標引所需的特征詞;修改后利用判定圖中集成的單條測試功能測試邏輯修改是否有效等。

(2)檢查采集配置是否全面:檢查是否部署了數據所在信源;檢查是否部署了相關采集詞。

2.3 數據存儲模塊

數據存儲模塊主要存儲數據標引模塊生成的三類數據:

(一)目標用戶的基礎信息數據庫:目標人群的年齡、地域、職業、性別等基礎信息。

(一)標簽數據庫:針對目標用戶標引的數據源標簽,由數據標引模塊的文本標引規則生成。

(三)動態數據庫:動態數據的存儲,如微博的點擊數、評論數、點贊數等動態數據。

2.4 數據可視化模塊

利用數據可視化工具進行數據的統計及可視化圖表展示,便于分析報告的生成。

3 系統應用

以本系統為某美妝品牌用戶的興趣愛好維度畫像為例,

(一)采集微博數據源:選取提及該品牌用戶微博id,去除廣告數據、企業賬號,且限定發微博數大于100條,最終獲得品牌用戶id 2000個;采集每位用戶微博數據100條,共計200000條數據。

(二)設計興趣愛好維度判定圖及調優,為數據源打標簽。

(三)將標簽數據導入可視化分析工具,獲得可視化數據,由此可描繪出該品牌用戶畫像:

(1)用戶年齡與地域分布

該品牌用戶女性占絕大多數,年齡集中分布于18-30歲區間,18-22歲年齡段用戶比例最大;地域分布與微博用戶分布一致,多集中于經濟較發達地區,而經濟相對落后省市覆蓋率較差,說明該品牌推廣實現全覆蓋還需進一步努力。

(2)用戶特征關鍵詞

用戶自我認知標簽很多,其中“美食”“旅游”“娛樂”“名人明星” 是最高頻的標簽,可見該品牌用戶對于自我滿足感較為看重,物質享受和精神享受都是他們不可或缺的訴求。

(3)用戶關注美妝品牌分類

用戶關注的美妝品牌多為歐美品牌,其中也有提及平價品牌(一般社交媒體的曬單多傾向于高級品牌),說明這個客群用戶注重美妝產品性價比,會根據產品功效甄選最優產品。

(4)用戶妝容及穿衣風格

用戶的妝容多為cos妝和裸妝,開發彩妝產品時可參考cosplay角色特點以及自然青春的妝容要求。服裝風格多為正式裝和瑞麗風格,勾畫出用戶外在形象應為一群追求時尚和自然妝容且散發都市氣息的年輕人。

(5)用戶常用出行方式及養生行為

用戶多采用自行車、房車和電動車等便利交通工具出行,對保健、運動等養生方式比較關注,說明該品牌用戶是一群愛自由、愛生活的年輕人。

(6)用戶業余愛好

用戶多活躍于攝影、歌詠比賽等文藝活動,且多關注小說、童話等文學類型,說明該品牌用戶內心豐富,富有生活情趣,且有浪漫主義色彩。在做產品開發時,建議無論在產品外觀或產品寓意方面都賦予產品豐富的內涵來吸引用戶。

4 應用效益

在商業應用層面,本系統支持為企業用戶收集公開信息描繪消費者畫像,進而為客戶獲得、客戶保持、個性服務、交叉銷售等方面提供決策參考。

在教學應用層面,本系統應用于教學實踐中,為學習者創建了界面友好的數據挖掘工作環境,實現了數據從收集到預處理、到算法實施再到數據可視化的數據挖掘全過程。學生在掌握數據挖掘基本概念與意義、了解數據挖掘工作步驟及各項步驟具體意義的基礎上,在本系統工作環境下完成的數據挖掘任務可分為兩項子任務:一是在實訓指導書或系統手冊的指導下完成系統各模塊參數設置;二是面向數據挖掘主題梳理判定圖邏輯,為目標數據打標簽,再通過可視化方法生成最終挖掘結論。可見,本系統創建的工作環境維護了數據挖掘的全過程,判定圖的設計環節弱化了算法編程要求,但同時依然需要用戶對挖掘需求與語義邏輯充分理解,合理弱化了學習難點,為各專業領域學習者開展數據挖掘實踐創造了更為平等的學習機會,適合各專業領域初學者培養數據思維解決問題的能力。

參考文獻:

[1]王光宏, 蔣平. 數據挖掘綜述[J]. 同濟大學學報, 2004, 32(2):246-252.

[2]教育部關于印發《教育信息化2.0行動計劃》的通知 http://www.ict.edu.cn/p/liaoning/tzgg/n2018050811145.html

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 色噜噜久久| 制服丝袜在线视频香蕉| 欧美中文字幕一区| 欧美黄网站免费观看| 高清亚洲欧美在线看| 视频二区亚洲精品| 亚洲免费播放| 国产精品福利尤物youwu| 毛片久久久| 日本三级精品| 成年人国产网站| 动漫精品中文字幕无码| 人妻21p大胆| 精品人妻一区无码视频| 青青草原国产av福利网站| 亚洲成人黄色在线观看| 波多野结衣视频网站| 成人在线观看一区| 成人国内精品久久久久影院| 麻豆国产在线观看一区二区| 国产一级做美女做受视频| 国产精品浪潮Av| 米奇精品一区二区三区| 亚洲欧美综合在线观看| 黄色在线网| 日韩午夜伦| 日本三级欧美三级| 国产精品男人的天堂| 亚洲一区网站| www精品久久| 久久免费观看视频| 免费在线国产一区二区三区精品| 色婷婷综合激情视频免费看| 无码有码中文字幕| 色九九视频| 91视频首页| 亚洲色欲色欲www网| 国产一区二区色淫影院| 国产精品一区二区久久精品无码| 欧美在线一级片| 最新亚洲人成无码网站欣赏网 | 一级毛片高清| 东京热高清无码精品| 国产高清又黄又嫩的免费视频网站| 全裸无码专区| 丁香婷婷在线视频| 亚洲国产日韩视频观看| 亚洲午夜国产精品无卡| 国产精品免费p区| 992Tv视频国产精品| 亚洲色欲色欲www在线观看| 久久77777| 人妻夜夜爽天天爽| 拍国产真实乱人偷精品| 日韩欧美国产成人| 园内精品自拍视频在线播放| 成人夜夜嗨| 丁香婷婷综合激情| 91免费片| 久久99国产乱子伦精品免| 国产欧美视频在线| 黄片在线永久| 亚洲国产成人久久77| 亚洲青涩在线| 尤物成AV人片在线观看| 国产成人区在线观看视频| 亚洲小视频网站| 麻豆精品视频在线原创| 真人高潮娇喘嗯啊在线观看| 久久国产精品电影| 色天天综合| 亚洲黄色激情网站| 精品一区二区三区自慰喷水| 色悠久久综合| 久久国产精品无码hdav| 女人18一级毛片免费观看| 91久久国产成人免费观看| 亚洲精品无码不卡在线播放| 91免费国产在线观看尤物| 91小视频在线观看| 日本不卡在线| 国产福利一区视频|