999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的用戶畫像構建方法與運用探究

2022-02-18 04:25:39
科技創新與應用 2022年9期
關鍵詞:文本用戶信息

劉 姜

(貴州電網有限責任公司凱里供電局,貴州 凱里 556000)

從工業角度到計算機角度、從人機交互到智能駕駛、從虛擬實現到物體自動識別、從智能解譯到遙感解譯,大數據正像水電氣一樣持續地為人類造福,并且成為信息基礎設備不可缺少的一個重要環節。大數據環境之下的智能互聯平臺,能夠把具備海量、異構、多維、多尺度等特性的用戶數據從終端聚集到云端并且進行實時監控、解析與管控。同時它是無所不在、具備自我學習能力的終端,能夠不斷從云端當中吸取很多智慧,如此正向循環,就能夠成就“大數據”向“智能數據”的過渡。

1 用戶畫像的含義

用戶肖像是主要基于實際生活中對用戶數據的數學建模。主要包含三個含義,使用者肖像的構建需要社會屬性、生活習慣、用戶消費行為的數據。用戶數據的累積就是用戶的肖像基礎。用戶肖像和商業是不可分開的,這樣才可以滿足商業需求的特定用戶肖像。數學的建模,是從當前的用戶數據中去挖掘出能夠接觸到的用戶需求,通過數據就能夠可視化地顯示出有用的信息以及深層的信息。用戶畫像的本質就是讓用戶的信息和行為都“可視化”地呈現在企業面前[1]。

2 用戶畫像構建

結合各種數據源來創設用戶肖像的方法主要涉及人文科學研究方向以及計算機數據統計研究方向,其中前者所涉及的數據往往都是來源于業務系統以及相關信息。其主要缺點是肖像畫的結構不能更準確更全面。后者的數據源主要依賴移動互聯網、物聯網、大數據等,可以通過多種渠道獲取產品信息、用戶社會信息、用戶活動信息,構建全面的多維度用戶肖像畫。由于對數據的完全依賴,肖像畫相對缺乏情感傾向,很難獲得深刻的用戶動力。為了更好地促進產品和用戶的關系,獲得用戶的熱情和期望,商業決策領域的專家認為,只有單一的模式和經驗是不夠的,需要進行組合來提高可靠性。總結出了在人的思維模式的定性以及定量集成方法的理論基礎上所創設的知識框架。定量分析通常都是運用機械和定量研究的方法來對分支問題進行剖析,并且創設邏輯模型。定性的研究方法可以運用到解釋問題的定義、屬性以及與其他領域的關聯關系上。整合集成解決方案層,利用整合問題邏輯模型來獲取定量結論,利用專門的領域知識來判斷解決實際問題的入手點[2]。

2.1 用戶屬性

用戶的肖像需要創建多維屬性標記,行業對用戶的肖像屬性進行了大量相關主題的研究。當前,用戶的肖像屬性的大小被定義為6類:基本屬性、興趣屬性、社會屬性、行為習慣、心理屬性和能力屬性。電子商務采購決策的人群分析提出了將這6種屬性細分為主屬性和精細的輔助屬性標簽,輔助屬性標簽主要是基本信息,而主要屬性標簽是信息要素。

2.2 文本數據挖掘

文本挖掘的概念首先由羅恩·費爾德曼等提出。在大量的文本和語料庫數據中,可以潛在地找到寶貴的定位信息。文本挖掘的主要方法包括分類、聚類、意見挖掘、情感分析、自動關鍵字搜索、主題發現和聚類、語義分析、自動文檔聚合、實體關系模型等。作為卡內基梅隆大學開發的網絡監控工具,Web-Watcher可以通過監控用戶的點擊行為來分析用戶的行為和興趣。AutoTrader是世界上最大的汽車銷售網站,它主要就是通過數據上的挖掘來獲得用戶們對于產品的喜愛進而提供相對的服務。經過專業人士的綜合研究發現,文本數據挖掘實質就是利用文本數據來掌握更全面準確的知識,并且利用這些知識來組成信息,從而為后續信息利用創造良好的基礎。因為用戶在網絡平臺上十分的活躍,海量用戶屬于信息平臺中擁有傳遞信息功能的一個基本單位,諸多后臺數據樣本也可以為數據挖掘技術的運用創造良好的條件[3]。

2.3 提取屬性

要獲取用戶屬性、收集訪問網頁的分數并將其用于機器學習,用戶肖像的建立必須基于用戶自身。用戶們在網絡平臺上自發地輸入消息,它是企業和企業之間去滿足客戶實際需求的主要途徑,在用戶們的評論中有很多的潛在用戶需求以及情感信息。劉青、鄭西和其他專家與學者依據主體去篩選出模型或者情感解析所評論的文章。在情感態度上去分析出產品的主要特征。雖然有多種檢索文本數據(如網頁數據)的方法,但該數據首先放棄HTML標記,然后對單詞進行分段,這樣就可以轉變為需要的文本數據。在對文本進行加工的時候,需要對無用的、低頻率使用的單詞進行清楚。隨后,在文本中進行分段標記,利用統計的方法來獲取高頻詞片段,并且組織專業人士對這些詞分段進行綜合分析。因為用戶畫像往往都是結合用戶行為以及目標實際需要來創設原型結構的,所以在將文本挖掘技術加以實際運用的時候,需要從諸多文本中選擇潛在用戶的信息,將其視作用戶屬性[4]。

2.4 聚類分析

為了將用戶合并到不同的組中,屬性標簽可以將具有相似想法和共同興趣的用戶聚集在一起,從而形成特定的社交組。集群分析是根據個人獨特的特性進行分類的方法,將數據劃分為外部差異較大的多個組,但組內的相似性較高。目前,聚類分析的研究領域包括圖像處理、模式識別和市場分析等。k均值算法和模糊c均值聚類算法(FCM算法)是使用最廣泛的兩種方法。k均值是專用于群集的硬分區算法。有兩個一致度高的集群時,無法區別K-means。貝爾曼等人為了處理聚類問題,在20世紀60年代提出了模糊集的概念。在模糊聚類分析中,每個樣本都屬于具有特定成員資格的特定集群。這個分區可以更準確地描述樣本的真實分布,因此可以得到更好的聚類結果。雖然FCM算法有能夠快速應對大數據集的完美理論,但其目的和功能僅限于最小值,不能形成最為高效的解決方案。針對上述問題,專業人員將完善后的遺傳算法與FCM算法進行整合運用,這樣就可以有效地促進計算的綜合性能的提升。(1)設計期初代碼。挑選各個組內涉及到的c群集的對象組,結合相關規定和要求將n.c對象分解為c群集。(2)計算健身函數。(3)進行選擇、交叉、突變操作,維護下一代具有高適應性的父母和個人,合成新的下一代。(4)達到集再生代數時,算法結束。否則,請轉至上一個步驟[5]。

3 大數據環境下移動用戶畫像的構建技術

3.1 分布式計算技術

就現如今實際情況來說,移動用戶畫像創設的主要平臺涉及到Spark以及Hadoop。其中Spark通常屬于內存計算方法的分布式計算模式,能夠切實地提高數據的處理效率和效果,并且也使得整個平臺的兼容性和綜合性得以提升,為Spark在硬件中發揮出良好的作用起到了積極的推動作用,借助分布式計算方法能夠將分布存儲的數據實施統一的統計,并且將任務設置到關鍵節點在短時間內完成計算,也可以將磁盤中的數據統計到內存之中,從而提升計算的效率。其次,Spark還具備高效性、易操控、兼容性強等優越性,在移動用戶畫像的創設中得到了大范圍的運用。Hadoop是由HDFS以及Hive等元素組合而成,但是在實踐運用的過程中,HDFS系統所起到的作用是最為巨大的,能夠有效地將集群內部涉及到的全部節點文件加以統一存儲,這樣才可以將其引擎的作用充分發揮出來。

3.2 樣本標注技術

移動用戶畫像的創設所需要運用到的數據樣本數量較多,并且牽涉到的內容和種類較多,一般都是將人工標注以及自動標注加以整合運用。其中,自動標注往往都是結合樣本的實際情況和特征以及相關關鍵詞來完成標注,諸如:結合行業內的各個重點詞語來實施標注。自動標注也可以利用半監督的方法來對樣本實施標注,之后針對其余標注的樣本進行分類處理。當下,使用最為頻繁的自動標注方法為:自動訓練法、多視角計算方法以及圖論方法等等,人工標注往往就是專業技術人員通過手動的方式來對重點詞語進行分類和標注,標注工作整體效果較差,但是具有較強的準確性,能夠有效地規避分詞不合理的情況發生。其次,在樣本標注工作結束之后,還需要實施文本語義理解相關工作[6]。

3.3 機器學習技術

機器學習技術能夠十分高效地完成對移動用戶的分類,文章主要以移動商務環境中“孕婦標簽”為實際實例,針對大數據深度學習建模的整個過程進行詳細的闡述。首先,將移動用戶在所有品類中所實施的采購行為當做基礎模型訓練的特征,并且將各個品類進行切實的分類,這樣才可以確定與“孕婦標簽”相一致的品類,諸如:孕婦套裝、孕產品等商品,結合這類采購行為來實施篩選,從而確定出訓練的正負樣本。諸如:結合移動用戶所有品類中的實際購買情況和次數來實施分類,如果與“孕婦標簽”相統一的品類購買次數超過了3次,那么孕婦裝以及營養品就可以被標記為正樣本。如果與孕婦的表現不統一的購買次數超出了3次,那么就將這些樣本標記為負樣本。通過這樣的標記行為,能夠有效獲取模型訓練所需要的特征數據,從而創設出原始網絡模型,并且對網絡模型是否可以為自我學習給予幫助進行判斷。因為“孕婦標簽”往往對時間有較強的敏感性,在創設網絡模型的時候還需要對時間維度的影響加以綜合考慮。

4 分析與運用

將國內手機年輕用戶相機拍照的行為當做項目的研究背景,選擇年齡在18-25周歲的年輕用戶手機拍照的要求來作為研究對象,創設相關用戶畫像結構。定量分析線上數據都來自于開放的數據平臺,線下樣本都是從一些經濟較為發達的城市進行挑選,并且會對各個地區用戶的生活習慣以及風土人文加以綜合考慮。

4.1 評論數據收集與分析

GooSeeker爬蟲工具實質就是一種將網頁抓取、數據抽取和頁面信息提取加以整合的一種先進的工具包,其在實踐運用中具有較強的靈活性和實用性,其能夠自行產生指令文件,針對指定的網頁URL和HTML內元素實施定期提取,這樣就可以從中獲取需要的信息,并且將文件中有需要的文本數據進行打包輸出。所以在選擇運用這一軟件包當做抓取評論數據的工具時,為了獲取年輕用戶的相關評論數據,挑選從2015-2017年兩年時間內中國年輕用戶攝影社交活躍度較高的平臺的評論網頁,借助專業的工具實施信息的采集工作,將獲取的信息利用表格的形式進行存儲,但是因為部分信息輸出格式為XML文件,所以無法在實踐中加以直接的利用,還需要使用專門的Swift軟件將其轉變為需要的文件格式。因為將爬蟲技術加以實踐運用的時候,數據中往往會涉及到一些無效評論數據,如果不能將這些數據進行清除,那么必然會對后續的模型分析工作造成諸多的影響,在將爬山虎采集器的篩選功能加以實踐運用的時候篩選的條件為:首先,評論內容與拍照的主題二者并不存在任何的關聯。其次,形式重復的文案以及辨識度較高的廣告內容,在經過專門的處理之后會產生大量的有效樣本評論數據。借助天據英眼工具利用機器學習的模式來對導入有效評論數據進行自行分詞,這個工具中設置了HowNet情感詞典能夠為自然語言實施高效處理,將日常中使用較為頻繁的詞,但是使用價值較差的詞語進行篩選,并且這些工具擁有一定的分詞標記的功能,能夠將高頻分詞進行統計,并且將其當做文本詞語庫。所以將預處理過的有效評論當做文檔,通過達標的分詞獲取文本詞語庫當做基礎,利用專用語言編程將其轉變為分詞。因為機器處理最終獲得的部分主題分詞的詞意往往無法滿足用戶的實際需要,所以還應當對所有的分詞進行二次篩選,并且安排專業人士將所有的主題分詞進行綜合評估,判斷分詞所具有的權重值,通過上述工作最終選擇權重值較為靠前的部分分詞作為需求屬性詞。

4.2 用戶屬性量表

針對文本數據進行深入的分析,并且對其中涉及到的高頻需求屬性詞加以判斷,這樣就可以將所有用戶的需求屬性當做用戶畫像屬性,并且將這些信息進行標簽處理,為創設用戶畫像提供需要的信息和維度條件。5W2H法是在情境分析法(Scenario Analysis)的基礎上演變而來的一種新型方法,利用概括影響因素的方法來創設出產品的框架。借助5W2H法對用戶屬性量表來實施設計,量表可以劃分為2個部分,首先是將拍照的過程劃分為10個功能場景,對于用戶拍照的整個過程進行詳細記錄,并且也能夠對所有場景的使用頻率進行記錄。第二部分主要涉及到5個影響因素。可以對用戶深層次的拍照需求和動機判斷,涉及拍攝的動機、拍攝的對象、拍攝的時間空間等等。結合主題詞的種類劃分,針對所有的影響因素挑選出5個詞頻排列較為靠前的需求屬性詞當做屬性因子。

5 結束語

文章主要以大數據挖掘以及模糊聚類的方式為基礎,解析我國的年輕用戶在拍照時的行為屬性具體特征。以5W2H的方式功能以及文本挖掘去獲得相關的需求屬性語言為基礎,在拍照的過程中設定與用戶相關的屬性尺度之后,從主觀以及客觀兩個方面對用戶的定量價值數據加以獲取,將優化的FCM算法運用到聚類用戶屬性的原始形態之中,這樣就可以協助代表用戶以及相關產品的肖像創建更多的幫助。在和傳統的用戶研究方式進行對比,前者的效果更加完美,適合在實踐中大范圍加以運用。

數據分析的用戶調查方法更加客觀,相關的用戶屬性可以通過多個渠道獲得。另一方面,由于是大型數據庫,提高了用戶屬性的可靠性,同時避免了用戶屬性主觀定義的因素過多而影響到屬性的準確性判斷。基于此,用戶肖像的建立有助于促進產品開發效率的提高。本文主要從用戶屬性的定量提取和屬性尺寸的聚類角度研究用戶肖像畫的施工方法,但由于沒有全面研究將屬性尺寸轉換為立式需求設計的方法,因此跟進工作需要進一步研究。

猜你喜歡
文本用戶信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 乱码国产乱码精品精在线播放 | 日韩在线成年视频人网站观看| 亚洲免费福利视频| 国产精品手机在线观看你懂的| 亚洲精品777| 亚洲综合色吧| 亚洲天堂高清| 国产69精品久久久久妇女| 中文字幕佐山爱一区二区免费| 香蕉eeww99国产在线观看| 第一页亚洲| 国产情精品嫩草影院88av| 国产乱子伦视频在线播放| 国产一区二区三区夜色| 国产精品任我爽爆在线播放6080| 在线精品亚洲国产| 毛片在线播放a| 亚洲欧洲综合| 亚洲成在线观看 | 青青草一区| 91福利片| 欧美成人午夜影院| 国产91透明丝袜美腿在线| 中日韩欧亚无码视频| 99久久精品国产精品亚洲| 欧美性猛交一区二区三区| 国产成人精品一区二区不卡| 免费国产一级 片内射老| 国产一二三区视频| 亚洲色大成网站www国产| 污网站免费在线观看| 亚洲无码电影| 日韩欧美中文| 超清无码一区二区三区| 午夜无码一区二区三区| 她的性爱视频| 国产在线高清一级毛片| 国产成人资源| 呦视频在线一区二区三区| 亚洲第一区在线| 亚洲精品无码高潮喷水A| 91口爆吞精国产对白第三集| 精品久久蜜桃| 精品精品国产高清A毛片| 亚洲国产清纯| 精品视频一区在线观看| 午夜国产精品视频| 亚洲国产精品人久久电影| 亚洲乱码精品久久久久..| 国产精品九九视频| 中国国产高清免费AV片| 一级毛片免费不卡在线| 午夜a级毛片| 一级片一区| 午夜a视频| 亚洲精品午夜无码电影网| 国产精品内射视频| 亚洲av无码片一区二区三区| 精品国产香蕉在线播出| 久久伊人色| 丝袜亚洲综合| 国产玖玖玖精品视频| 国产va免费精品观看| 久久精品人人做人人爽电影蜜月| 国产亚洲一区二区三区在线| 午夜福利无码一区二区| 亚洲天堂精品视频| 2021国产精品自拍| 亚洲国产精品VA在线看黑人| 精品午夜国产福利观看| 欧美爱爱网| 制服丝袜一区| 永久免费AⅤ无码网站在线观看| 精品国产成人av免费| 91无码人妻精品一区二区蜜桃| 精品国产一区二区三区在线观看 | 婷婷六月综合| 毛片卡一卡二| 亚洲美女AV免费一区| 成年av福利永久免费观看| 丝袜高跟美脚国产1区| 久久综合伊人77777|