張維作

摘 要:隨著社交網絡的不斷發展及普及,人們也逐漸活躍在一個或者多個社交網絡中,這對研究用戶的興趣,為用戶提供精準的網絡推送提供了基礎。目前,我國對此的研究有很多,但是社交網絡整合信息的研究卻較少,在如今大數據的環境下,社交網絡的用戶需求、興趣也有了可能。基于此,基于大數據時代背景,提出了社交網絡用戶興趣層次化模型的構建。
關鍵詞:社交網絡;大數據時代;用戶興趣;層次化建模
web2.0時代已經逐漸到來,網絡用戶也不斷追尋全新的應用體驗,在此背景下,社交網絡油然而生。社交網絡指的就是以互動作為基礎,以網絡中用戶的共同興趣、活動及愛好為前提,以實名制或者非實名制的方式在網絡中構建的社會關系網絡服務,其是社會化媒體的一種主流形式,其中包括婚戀交友網絡。在如今大數據時代的今天,運用數據及挖掘數據決定著社交網絡的未來,所以用戶的興趣數據對社交網絡具有重要的價值意義。
1 用戶興趣模型的表示
興趣模型指的是在一定數據結構中,通過算法表示的一種形式,興趣模型的表現形式影響著模型對用戶興趣的描述能力及計算能力。用戶興趣模型包括兩方面,分別為以向量空間模型為基礎及以神經網絡為基礎:其一,以向量模型為基礎。以向量模型為基礎主要是將用戶的興趣模型當成一個n維的特征向量((t1,w2),(t2,w2),...,(tn,wn)),以此表示用戶感興趣的事物及對其的感興趣程度。ti(1≤i≤n)為興趣特征;wi(1≤i≤n)表示興趣特征的興趣模型權重。其二,以神經網絡為基礎。神經網絡就是多種簡單處理單元通過互聯形式,以此構成的網絡結構,其組織、學習及適應能力超強。以神經網絡為基礎的用戶興趣模型能夠通過網絡連接的權重網絡進行表示。[2]
2 基于大數據的社交網絡用戶興趣層次化模型的構建
2.1 構建興趣層次化模型的思路
為了能夠構建基于大數據時代的社交網絡用戶興趣層次化模型,本文提出了如圖1的研究思路:其一,在現實社交網絡中,有多種數據來源方式,總的來說可以分為標簽及無標簽兩種。用戶在注冊社交網站的時候要填寫基本信息,有的社交網站還會要求用戶填寫個人標簽。個人標簽是能夠直接反映用戶感興趣領域的方式,但是沒有標簽屬性的信息提取只能夠通過內部的結構信息實現。通過上述就可以看出,標簽數據具有預測用戶評論、瀏覽等行為的作用,非標簽行為也能夠論證用戶的興趣領域。其二,創建用戶興趣模型的主要目的就是能夠為用戶推送感興趣的信息,并且為用戶推薦具有相同信息的好友,以此描述社交網絡中不同用戶的不同偏好,從而創建個人偏好的名片,從而標記用戶對象,滿足用戶的需求,提高用戶推薦的成功率,從而提高商家的利益。[3]
2.2 用戶興趣層次化模型的構建方式
通過以上算法,把所有用戶都聚集到同一個類中,使其興趣通過屬性值、類別及興趣度表示,這些都是用戶的共同興趣,算法步驟為:(1)創建一個用戶興趣池Mki,用戶興趣池表示為屬于第k類中第i個用戶的興趣集合,興趣池中的每個元素都是由三元組(
從而能夠得出用戶的長期興趣向量IML=(
3 實驗分析
從某個交友網站中選取實驗數據,得出訓練集為兩百名用戶的基本信息,實現用戶的聚類,隨機選擇一個類,獲取一百名此類別用戶在最近一周的瀏覽行為。
為了證明本文中的方式能夠得到準確的興趣模型,通過評價指標對模型進行評價。選擇的兩百名用戶的評價指標為查全率及查準率,通過本文中的方法對用戶創建興趣模型。查全率能夠呈現出上述方法的用戶興趣尋找能力,從而判斷用戶興趣模型的全面性,查準率能夠呈現出上述方法的用戶興趣準確度。
通過聚類分析法對數據集中的兩百個樣本訓練,創建用戶興趣值,獲得用戶的長期興趣IML。計算出一百名交友網站用戶興趣模型的查全率及查準率。
使用本文中的方法計算的查全率及查準率分別為0.816及0.786,傳統模型的查全率及查準率分別為0.524及0.562,以此證明本文中的方法能夠精準的發現用戶的興趣分類,以此滿足社交網站及需求。
4 結束語
隨著社會的不斷進步,互聯網技術也在不斷的發展,使用社交網絡的用戶越來越多,以此構成了較大的用戶數據。本文通過標簽傳播集成、創建用戶興趣模型,以此構建了社交網絡用戶興趣層次化模型,社交網絡可以通過其為用戶推動個性化廣告,并且為用戶推薦相同興趣的好友,以此滿足用戶的需求,提高商家及社交網絡的利益。
參考文獻
[1]張玨,楊振華,王世琪,等.社交網絡大數據環境下的用戶興趣層次化模型研究[J].教育觀察,2016,5(8).
[2]吳良.社交網絡中社區與用戶興趣分析——模型設計與實現[D].北京大學,2014.