999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于D-S證據體的異構日志文件融合方法

2019-07-26 09:26:04胡若彤于樹松侯瑞春
制造業自動化 2019年7期
關鍵詞:用戶信息系統

胡若彤,于樹松,侯瑞春,陶 冶

(1.中國海洋大學 信息科學與工程學院,青島 266000;2.青島科技大學,青島 266000)

0 引言

隨著大數據、云計算等技術的不斷發展,應運而生的電子商務平臺也在不斷壯大,從起初的簡單網上購物、網上消費的升級為互聯網經營,據CNNIC于2017年1月份公布統計調查報告顯示[1]:到2016年12月,我國網民人數達到了7.31億,達到53.2%的互聯網覆蓋率,2018年11月11日的淘寶雙十一交易額達到2132億元,同比上一年增長26%。

越來越多的企業級應用軟件和網站需要對客戶源信息進行分析形成可供企業應用的用戶標簽信息,在龐大的互聯網環境下產生了大量的用戶行為,傳統的用戶畫像研究數據源主要是企業通過用戶的授權獲得的用戶數據,是相對被動的數據,而記錄軟件運行狀況的日志文件則記錄了各類角色在系統上的操作信息以及軟件的運行狀態信息。

日志文件作為近幾年數據源關注的焦點,數據量龐大,信息多樣化是日志文件的基本特點,同時網絡日志在運行過程中會產生大量的系統日志、應用日志、安全日志和網絡日志[2],這些日志文件記錄了系統以及設備的運行狀態信息、事務處理信息等系統信息,如何利用這些日志文件并將這些日志文件內的信息聚合轉換成用戶想看到的信息是近幾年國內外學者關注的焦點。

每一個web網站以及軟件都擁有的日志文件是記錄著人們的一言一行的文件,對于一個web應用,后臺生成的日志文件是海量的,每一種日志文件包含不同類型的數據信息,通過對日志進行分析,不但可以發現系統運行狀況同時也可以發現隱藏的各種系統角色的行為信息,例如當下所流行的軟件微服務架構內的每一個微服務所生成的日志文件也是各有不同,這些日志文件記錄了系統整體的運行狀態、客戶的操作狀態以及末端傳感器對數據的采集狀態信息而不同的日志文件類型以及不同的日志文件源構成了日志文件異構性的特點。

本文基于storm實時流處理框架對異構日志文件做整合和實時處理,在不同的服務器上配置Filebeat以及logstash對日志文件進行采集,利用日志中蘊含的用戶穩定的行為信息分,抽取出用戶興趣性、行為性以及傾向性的三個維度的標簽,主要方法為經過D-S證據體算法對采集的異構數據文件進行融合生成了用戶畫像里興趣性、傾向性和行為性三個維度的標簽值,為融合日志文件獲取用戶的消費習慣、消費傾向以及消費興趣提供了解決方案。通過對技術和算法的探討,推動了多源日志的研究和探索。

1 異構日志特點

日志文件以記錄內容分類可以分為三種:訪問型日志文件(主要對服務器的請求和應答信息進行記錄)、應用日志文件(主要對軟件的業務流程信息進行記錄)、操作系統日志文件(主要對操作系統運行狀態信息進行記錄),事務型日志文件(主要用于保持數據的一致性,記錄數據的增刪改查操作,用于數據回滾操作以及防止數據沖突的發生)、消息型日志文件(主要對用戶間即時通訊信息進行記錄)。

日志模塊作為操作系統、軟件框架以及程序中的重要的組成部分,它記錄著計算機系統的操作、運行狀態以及安全等信息,日志模塊內的日志文件的數據特點主要是數據量大、內容涵蓋廣泛且詳細,由于操作系統、軟件框架、程序甚至是設備的差異性而導致了日志的格式、類型、內容不能夠完全統一,本文將異構日志文件主要研究對象。

雖然基于Syslog的日志文件通用格式被廣泛運用于網絡設備日志以及linux系統日志中,但是由于不同的軟件框架中的日志文件系統都是由程序開發人員在系統要求下自行定義的,許多系統以及軟件框架的日志文件格式、內容、類型并不統一,我們需要從這些文件中提取出有用的用戶信息則需要建立異構日志收集系統。

異構日志文件采集步驟[3]:

1)異構數據獲取,不同服務器、系統的日志文件的存放位置以及日志文件類型不同,需要配置不同的Filebeat數據輸入文件。

2)異構數據預處理,原始的日志文件內有一些信息對于日志分析是無用的,我們需要將這些信息過濾掉,減少下游系統的處理壓力。還有一部分信息比較隱私(比如用戶的訪問IP),不希望被他人獲取,可以將其匿名化處理。

3)模式發現,對獲取的數據進行數據挖掘處理,包括分類、統計、聚類等方法。

4)模式分析,對發現的模式進行進一步的挖掘,根據系統需求對模式進行分析處理,例如發現用戶行為偏好,并將所發現的信息可視化,方便用戶更為直觀的觀察數據,做出更正確的決策或者產生引導消費的功能。

本文以異構日志作為數據源,構建基于Filebeat和Logstash的異構日志收集系統,收集的日志文件將通過以Storm為框架的日志數據融合系統完成異構日志文件到用戶畫像的流程。

2 用戶畫像

隨著云計算、大數據、傳感器網絡和高速無線傳輸網絡等高科技快速發展和廣泛的應用,用戶定制服務、服務內容推送等個性化功能也應運而生,用戶畫像是根據用戶屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型,web應用生成的日志文件詳細記錄了用戶在web應用內所做的操作,而用戶對web應用的訪問都是帶有目的性的[4]。

用戶畫像是根據用戶社會屬性、生活習慣和消費行為等信息抽象出得而一個標簽化的用戶模型,構建在線社交用戶畫像模型的過程中,通常會使用較為通俗且貼近現實生活的語義標簽去描述在線社交用戶的屬性特征、行為特征和偏好特征[5]。而標簽是人為的將數據內的特征提取出來抽象數據的過程,是一種把數據形象化的方法,與屬性不同,標簽是對該屬性狀態給出的結論,可以將標簽理解為業務規則的標準組成部分[6]。

對于一個用戶畫像來說場景的設定是必不可少的,本文設定D-S證據體的每一個識別框架作為用戶畫像的應用場景,如圖1所示。

依據文獻[7]中所述的用戶畫像構建步驟,本文的用戶畫像的構建步驟主要為:

1)基礎數據采集,采用filebeat+logstash從不同的服務器內收集異構日志文件,通過storm實時流處理系統處理日志文件。

2)行為建模,基于AHP層次權重賦值法和D-S證據體融合的方法進行行為建模,抽象出用戶標簽,本文以用戶對當前網站的興趣性、購物傾向性以及網站操作行為性三個維度的屬性構造用戶標簽。

3)數據可視化分析,此項步驟不在本文的討論范圍之內。

用戶畫像評價指標如圖1所示。

圖1 用戶畫像評價指標體系圖

其中Ai表示為識別框架。將用戶的興趣性、傾向性以及行為性設計成三個維度的評價指標,三個維度的語義表示為:興趣性是指用戶A對網站a的感興趣程度;傾向性是指用戶A可能在商品網站a購物的傾向程度;行為性是指用戶A可能在網站a上做與網站相關的行為程度。

A1表示用戶X對子網站的興趣評估標準,A2表示用戶X在子網站(購物類型網站)的購物傾向評估標準,A3表示用戶X在子網站的行為評估標準。

第三列的子模塊作為每一個評價標準的所需的元證據,本文設定為當前評估標準的能力值。其中元證據主要包括:1)網站交易量:當前交易網站的全部交易成交量;2)用戶交易量:用戶在當前交易網站內的成交量;3)網站瀏覽量:當前網站全部的瀏覽量;4)用戶瀏覽量:用戶在當前網站內的瀏覽量。

圖2 異構日志文件采集流程圖

3 異構日志處理系統整體設計

3.1 異構日志收集系統的設計

Filebeat是一個輕量級日志文件采集工具,屬于本地文件的日志數據采集器,用于監聽和采集日志,日志采集若直接通過logstash獲取文件對于服務器太過沉重且資源消耗量大,加入Filebeat的設計可以輕松獲得日志文件推送到中心logstash。

在所需獲取日志文件的服務器上安裝Filebeat,依次配置數據源的文件內容,獨立出一臺服務器搭建logstash,本文取一臺服務器做數據源,此臺服務器的ip地址為:192.168.153.1,搭建logstash的服務器的ip地址為:192.168.153.255。

配置Filebeat,由于服務器的差異,所有在每臺服務器安裝和配置Filebeat時需要特別修改一下配置文件,配置日志文件獲取方式以及日志文件路徑地址。

更改服務器本地Filebeat的配置文件 fi lebeat.yml下日志文件目錄路徑:

3.2 日志文件采集系統流程圖

本文中的異構日志文件類型為:交易日志、消息日志和訪問日志,從這三類日志文件內提取出網站交易數據,用戶瀏覽數據以及網站訪問量數據進行數據融合,數據分析統計。

經過上述討論,異構日志文件采集系統流程設計如圖2所示。

3.3 Storm異構日志融合系統的設計

Strom是區別于Hadoop的開源實時計算工具,它的框架處理模式與Hadoop非常相似,但隨著數據規模爆炸式的增長以及對實時數據處理功能的需求水漲船高,適用于海量數據處理的Hadoop對于實時數據的處理略顯吃力,然而針對實時數據處理Storm框架則可以滿足此類需求,其框架中提供的一系列基本概念是使其能夠進行海量日志實時計算的基礎,而支撐其平穩運行的是內部處理模型。

Storm與Hadoop最顯著的不同在于Hadoop是需要結束的,而Storm則不需要結束,在下一個新數據到來的時候作為一個新的開始,如同水流一樣由高到底源源不斷。

Storm的主體數據結構為Tuple(元組),也是Storm被處理的流數據(stream)的基礎組成單位,是消息傳遞的基本單元;storm的數據接受單元(spout)以及數據處理單元(bolt)是由用戶根據業務的復雜程度自行決定的。

Spout主要負責向一個指定的頻道發送數據,而每一個bolt需要在內部邏輯結構中對這個頻道訂閱數據。

本文中Storm實時計算拓撲流程設計如圖3所示。

DateCollectSpout是從redis中獲取日志文件,并以tuple的形式發送給FilterBolt的數據源,FileterBolt是日志過濾模塊,由于日志文件內的記錄分為多種,我們需要將用戶購物記錄、網站整體瀏覽記錄、網站交易記錄獲取并下分到各個Bolt,此處的Bolt涉及兩種判斷:

判斷log的完整程度,包括用戶名/網站地址、瀏覽量/交易量,當上述類別缺少則將其過濾掉。

判斷產品狀態值是否為空,根據海爾COSMOPlat的日志定義,日志記錄產品為空無法交易的情況,則將其過濾掉。

過濾出的t u p l e將通過批處理分別發送給WebPageViewInfoBol、DealInfoBolt、UserInterviewInfoBolt、UserPdInterViewBolt執行頁面信息統計、交易信息統計、用戶瀏覽信息統計以及用戶產品頁面瀏覽信息統計的操作,生成的統計信息發送到WeightingBolt賦予內外信息的權重并生成決策矩陣,DSEvidenceBolt則將決策矩陣作為識別框架融合生成DS證據體。

本文的日志主要來源于海爾COSMOPlat平臺,其中有n個用戶和m個子網站,在子網站中有s個交易類型的網站。

4 D-S證據體偽代碼設計實現

D-S證據體是一種不確定性推理方法,指一項事物由與之相關的外項進行評定所得到的關于此項事物的不確定程度,1967年Shafer[8]該理論進行了擴充引入了信任函數表達概率的上、下界,形成了基于“證據”和“組合”來處理不確定性推理問題的數學方法,在此基礎上形成了“證據理論”。

4.1 識別框架的設定

識別框架為用戶畫像評價標準體系:根據圖1所示,其中傾向性、興趣性、行為性設置為一級證據層,其他下分為二級證據層。

4.2 AHP權重的設置

層次分析法又稱AHP構權法(Analytic hierarchy process)是將復雜評價對象排列成為一個有序的遞階層次結構的整體,再在各個評價項目之間進行兩兩的比較、判斷、計算各個評價項目相對重要性系數的方法,由Satty教授在20世紀70年代初期提出的一種定性和定量相結合的多準則決策方法,首先需要通過專家咨詢評定重要性比值,再經過公式進行相應的計算,本文用層次分析法構造權重以及1~9標度法,對元證據賦予相關權重[9]。

設置專家組對一級和二級證據層評分,由于元證據只有四種,所以我們需要給一級證據賦予相應的權重以區分相同元證據在不同的語境下不同的重要性。

表1 一級證據層決策判斷矩陣和權重

表2 二級證據決策判斷矩陣和權重

4.3 基礎概率函數的設置

在D-S證據體中,需要設定BPA(Basic Probability Assignment)基本概率函數,本文中的元證據的基本概率函數是以支持度的形式出現的,支持度代表的是個體占總體的比列,例如整個web網站的總瀏覽量為S,子網站a的瀏覽量為Sa,則子網站a的支持度為Sa/S;用戶A對子網站a的瀏覽量為S(A),對子網站a的支持度為S(A)/Sa。

以βij表示支持度,i表示第i個一級證據評價指標,j表示第j個二級證據評價指標(下同)。則用戶A對子網站a的支持βij=S(A)/Sa;而子網站a的全局支持度為βi=Sa/S。

設識別框架θi=Aij,其中θi的數據結構是矩陣,用戶畫像指定了特定的用戶,所以在一級證據處設K=(1,2,…,k,…,m)表示子網站編號,一級證據的語義設定為用戶X對子網站K的屬性,二級證據處設置q為二級證據的個數。系統獲取了n個用戶和m個網站的數據,則以n×m的矩陣形式展示出所采集的數據,每一行代表一個用戶的數據向量,每一列代表一個網站的數據向量。

根據每個元證據的權重指數及其支持率構成D-S證據理論的基本概率分配函數(即mass函數):

式中m(Aij)表示Aij的支持度,而m(Θi)表示Aij所表示的元證據不確定性的支持度。

4.4 信任函數

D-S證據理論中信任函數Bel(θ)是指θ的可信程度[10],即本文定義的對一級證據評價標準的支持程度。而似然函數PL(θ)則是對θ的可能性的不懷疑程度,本文將其定義為一級證據不確定性的支持度。

信任函數與似然函數構成對一級證據體的支持度區間。

4.5 D-S證據體算法偽代碼

D-S證據體代碼核心為將兩個元證據向量內的核心證據值進行融合形成統一指標的過程。

5 實驗與結果

5.1 基礎數據采集

本文的log數據來自海爾COSMOPlat平臺,以其中的訪問日志和交易日志為例,所采集的日志文件格式如下所示:

1)訪問日志:

Time:[2018 十一月 22 16:03:29(125985 ms)] Type:(INFO):com.nsneo.pub.moduleAC.MoudleAccessControlManImp:用戶[admin]登錄系統,初始化第一個訪問界面[index.html]

Time:[2018 十二月 21 11:31:13 (460042 ms)] Type:(INFO):com.nsneo.pub.moduleAC.ModuleAccessControlManImp:用戶訪問系統,切換系統模塊,ModuleId[datasb2b. fi rstPage.yhhinfo]

Time:[2018 十一月 22 16:03:29(125940 ms)]Type:(INFO):addons.haier.pub.HaierUserAccessRecord SimpleFactory : 海爾登記用戶訪問系統...

T i m e:[2 0 1 8 十二月 2 1 1 1:3 4:3 6(662495 ms)] Type:(INFO):addons.haier.pub.SysUserManFactoryforHaier:加密用戶信息字段,字段名為[CosmoStoreUser.loginPwd],字段值為[haier1234]

[2018 十二月 21 11:34:36 (662495 ms)] INFO:addons.haier.pub.SysUserManFactoryforHaier:加密用戶信息字段,字段名為[CosmoStoreUser.loginName],字段值為[胡懶懶]

2)交易日志:

[2018 九月 15 15:48:34 (527272 ms)] INFO :addons.haier.pub.HaierDataRule:產品[257],產品網站[],[大蒜]商戶[吉林農嫂]用戶[USERNAME]

[2018 九月 15 15:45:49 (361971 ms)] INFO:addons.haier.pub.HaierDataRule:產品[910],產品網站[],[]狀態為空,不能交易

5.2 行為建模

基于D-S證據體識別框架的三個維度的屬性,建立當前用戶的語境,根據識別框架內的給出的支持度區間建立用戶畫像的標簽[11]戶X的用戶畫像如表3所示。

表3 用戶X的基本數據

根據式(1)計算其mass函數,得到的mij如表4~表6所示。

表4 一級證據體mij的mass函數

表5 一級證據體m2j的mass函數

表6 一級證據體m3j的mass函數

經過D-S證據體融合后,如表7所示。

表7 用戶X的D-S證據體融合數據

根據以上的基礎數據,用戶X的用戶畫像為:目標產品為金鄉大蒜,網站可以根據此項行為性的標簽值推薦相同產品的不同商戶給用戶,或者將用戶作為大蒜商家的目標用戶推薦給商家,對于海南金芒用戶的興趣性和傾向性都為0,卻存在輕微的行為性在海南金芒這個產品里,所以我們可以將海南金芒作為用戶的潛在產品購買傾向里。

5.3 數據可視化

系統根據上述數據描述利用可視化工具在前端直觀的展示出用戶X的用戶畫像,使得營銷和運維人員更加直觀的挖掘客戶行為性的指向,具體的可視化工具并不在本文的討論范圍之內。

6 結束語

隨著大數據等科學技術的不斷向前發展,各個軟件業務的拓展不僅僅限于傳統的業務模式,它們需要通過新興技術將自己的業務模式改善到更加廣闊的領域,獲得更好的用戶粘度以及用戶特性。

本文以異構數據文件作為出發點,通過提取異構日志文件內具有特殊含義的字句,提取分析融合生成特定的用戶畫像。

使用storm實時流處理大數據框架以及Filebeat、logstash和redis等技術,設計了異構日志處理系統,storm與hadoop最大的差異是其能夠完成實時處理的任務,在當時當刻給出大數據處理結果,滿足用戶畫像的實時性,采用redis消息隊列存儲模式可以使得數據存儲轉換更加便捷。

傳統的用戶畫像數據源為用戶授權的數據或者企業采集的用戶數據,來源復雜且不易獲得,企業因此對數據帶有很強的被動性,日志文件是系統本身記錄運行狀態的文件,是屬于企業的,本文提出的數據源為日志文件,使得企業在獲取數據上更占主動性。

用戶畫像的屬性值劃分往往是復雜的,本文將屬性值劃分為三個維度建立了評價指標,應用AHP權重法和D-S證據體將獲得的數據融合成三個維度的屬性值,在此理論基礎上可以延伸到未來更加廣泛的評價標準維度計算,更加有利于企業通過應用以及網站系統獲得詳細精確的用戶信息,不再被動的獲得用戶信息,推動企業走向更完整規范的道路。

猜你喜歡
用戶信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲人妖在线| 国产亚洲男人的天堂在线观看 | 国产精品福利尤物youwu | 毛片免费视频| 国产a在视频线精品视频下载| 欧美视频免费一区二区三区| 欧美a在线看| 99re在线视频观看| 亚洲激情99| av天堂最新版在线| 国产日本欧美在线观看| 成人91在线| 国产毛片基地| 欧美色视频网站| 999在线免费视频| 欧美性猛交一区二区三区| 日韩欧美国产成人| 欧美日韩专区| 欧美精品啪啪一区二区三区| 丰满人妻一区二区三区视频| 国产丰满成熟女性性满足视频| 亚洲国产高清精品线久久| 亚洲日本一本dvd高清| 22sihu国产精品视频影视资讯| 国产精品爽爽va在线无码观看 | 91精品国产情侣高潮露脸| 国产剧情无码视频在线观看| 色婷婷电影网| 免费xxxxx在线观看网站| 国产在线第二页| 亚洲不卡无码av中文字幕| 一本久道久综合久久鬼色| 亚洲免费成人网| 尤物亚洲最大AV无码网站| 国产成在线观看免费视频| 97se亚洲| 精品99在线观看| 中文字幕亚洲专区第19页| 91破解版在线亚洲| 成人韩免费网站| 亚洲首页在线观看| 亚洲综合九九| 香蕉国产精品视频| 久久精品丝袜高跟鞋| 亚洲人妖在线| 久久性视频| 香蕉久久国产精品免| 午夜老司机永久免费看片| 97人人模人人爽人人喊小说| 午夜丁香婷婷| 日韩无码白| 在线中文字幕网| 99在线视频免费| 久久综合色天堂av| 婷婷综合在线观看丁香| 国产浮力第一页永久地址| 毛片a级毛片免费观看免下载| 精品国产成人三级在线观看| 色天天综合久久久久综合片| 毛片免费高清免费| 日韩 欧美 小说 综合网 另类| 欧美色视频在线| 99re精彩视频| 就去吻亚洲精品国产欧美| 亚瑟天堂久久一区二区影院| 国产黑人在线| 九色综合伊人久久富二代| 欧美日韩国产在线播放| 青草国产在线视频| a级免费视频| h网站在线播放| 欧美a在线视频| 日韩精品专区免费无码aⅴ | 婷婷激情亚洲| 国产一区二区三区在线观看免费| 免费无码一区二区| 国产欧美又粗又猛又爽老| 999国内精品久久免费视频| 日本午夜在线视频| 欧美日韩精品一区二区视频| 伊人蕉久影院| 亚洲成人精品|