

摘 要:近年來,失信被執行人的數量和被執行金額都有所增加,因此案件的有效執行成為了影響社會穩定的重要因素。法院也針對該現狀逐步完善了相關立法和條規,加強了對失信被執行人的懲治措施和追查力度。本文為了幫助法院提高找人的效率,提出了一種基于用戶社交網絡信賴度的居住地位置推測PLRU(Predict Location Based on the Reliability of Social-online Users)模型。本文根據失信被執行人的在線社交歷史進行相關社交用戶的信賴度估計及篩選,然后對選取的用戶 社交聊天文本有關居住地維度權重的內容提取并進行估計。最后,結合失信被執行人歷史居住地的用戶畫像來篩選得到居住地預測范圍。
關鍵詞:在線社交;居住地預測;信賴度模型
隨著移動設備、無線網絡和社交網絡的飛速發展,以聊天為主的各種軟件成為社交必備。目前典型的有微信、QQ、Twitter、LINE等,在社交聊天的過程中,用戶會在其朋友圈、空間中分享有關他們活動的地理位置信息,這使得地理位置數據逐漸成為一種質量極高的信息資源。同時社交網絡不僅包括了傳播信息,還包括用戶行為。我們的社會活動是在不斷地與他人聯系和互動中形成,所以很多情況下人的行為只有在情景上下文中才能得到理解。因此本文假設,若一名失信被執行人在面對法院追查的情況下,最大概率行為的是向其好友尋求幫助。其中好友并不僅代表朋友,是指以聊天軟件為基礎得出的信賴值排名較高的用戶。本文基于用戶信賴度提出的PLRU模型主要分為三塊內容:用戶信賴度賦值、本地詞語提取和歷史居住地用戶畫像。
一、問題描述
本文的研究目標是利用與好友的社交內容來預測失信被執行人的未來居住地信息。主要有以下幾個目標:①如何通過社交網絡來準確得到可靠的用戶信賴度權重;②如何利用好友社交互動提高地理關鍵詞的準確性;③對居住地信息的用戶畫像維度權重的準確計算。
本實驗以微信、QQ、Twitter和LINE為信息來源,對被研究對象的聊天軟件互動信息進行研究,并進行聊天好友用戶進行信賴度估計,選取高信賴度的好友聊天內容進行地理關鍵詞提取構建本地詞語。最后結合居住地用戶畫像的維度評分來確定居住預測地。本文的重點在于提取高質量的地理詞文本,但前提是需要提高已收集到的資料中文本提取的有效性以及提取范圍的可靠性。因此,本文通過以用戶信賴度的計算為前提進行數據前期處理,有效縮小提取范圍并在提高運行效率。
二、基于社交聊天的用戶信賴度估計
面對龐大的聊天文本數據,要想提高對聊天文本中地理信息的關鍵詞提取的運行效率以及質量,就須劃分出有效的數據集,準確縮小查找范圍。所以本文提出以用戶信賴度為基礎對數據文本劃分,進行有效的內容查找提高執行效率。在測算好友信任度時,可分為直接好友與間接好友分別進行測算。Yang等提出一種基于朋友信賴圈的社會化標簽推薦算法,與Ma、Wang等人都是通過給不同的好友賦予不同的權重來計算用戶之間的信賴值;潘一騰等人則是提出了信任隱含相似度為基礎進一步對信任度的評分進行改進。馮宇等人則是以社會學六度分割理論為基礎,計算對用戶的信任度。這些對信賴強度進行探索的工作,很好的挖掘了社交關系中的隱含信息,但不能很好的處理評分和信賴數據稀疏的情況。本文主要針對這些工作的以下兩個不足之處進行改進,在信賴數據稀疏的情況下,也能得到有效的結果,并對每組用戶間的信賴強度綜合進行考量。
首先根據社交聊天收集到的實驗數據,本文以對失信被執行人的社交好友進行信賴度進行估計。以聊天的頻率、內容及社交時間等進行數據采集估計,得出的信賴值為(0,1)。其中,好友分為直接好友與間接好友,分別對其進行用戶信賴度的計算,對間接好友的不同路徑產生的信賴度進行加和。在選取的樣本量較大的前提下,我們可以發現用戶的信賴度總評分隨好友量的增加呈半曲線性遞減。選取信賴度有效并評分較高的前n個,作為有效的篩選結果。
三、基于語義的地理特征詞以及情感詞的提取
在傳統的本地詞語提取方式中,主要有LDA模型、TF-IDF算法和基于共現詞的關鍵詞提取算法等。劉江華提出了一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗證,但是缺乏情感詞的提取,無法反映出對不同地理詞態度。和志強則對基于詞共現的關鍵詞提取算法研究與改進,提出了一種優于TF-IDF的算法,不過也沒有對情感類詞的提取進行優化。本文利用一種以DBSCAN聚類算法為基礎結合LDA主題模型的DDA模型來對文本檢索來進行本地詞語R的提取以及得到相關的情感詞Z來顯示相關的態度,來得到情感偏好的主要地理位置。首先從文本數據集中得到相關的文本數據,然后利用通過設置鄰域半徑與密度閾值 DT, 將滿足領域半徑的點分類匯集成一個中心群,能有效得將密度距離外的點進行除噪工作,其中與DT如下所示:
由于計算每份文檔中每個字詞的詞頻(Term Freqiency,TF)與計算字詞的特殊性所用的文檔頻率(Dociment Freqiency,DF)都會導致字詞的權重計算結果不同,為了解決文檔的篇幅對詞語權重計算的影響,以及在文檔內容中被遺漏而導致缺失的詞語內容,利用公式:
Wij是修正過后字詞fj在文章中的權重,tfij為詞于聊天內容中出現的次數,N為集合聊天文本數,nj為的字母數。maxT為文件集合中擁有最大詞頻的字詞總數之詞頻數,用來解決較高詞頻的問題
四、基于模糊綜合分析法的權重模型
經過上述實驗流程之后,我們可以根據篩選出的信任用戶,即本文稱為的好友及與其之間的聊天內容計算得到失信被執行人常出現并情感偏好的幾個主要地理位置,這將成為實驗預測居住地范圍的重要位置。同時,我們還需要查找失信被執行人的歷史居住地資料,包括身份證地址、房產證地址、租賃信息地址以及淘寶收貨地等,對其躲藏前的常駐地的居住地信息進行居住地用戶畫像刻畫。
本文將失信被執行人的居住地的歷史用戶畫像維度定義為U,l為維度數, ? ? ? ? ? ? ? ? ? ? ? ? ? 。杜德斌、張小玉等人大致都將影響因素分為房價、交通、環境、就業可達性、工作地、家庭生命周期、居民社會屬性和收入。本文結合眾多學者從年齡段、是否為外來人口等不同角度對影響居住區選擇的因素研究,采用模糊綜合分析法可以避免憑經驗進行目標選擇所固有的主觀性,使并購決策更加科學合理等。對U進行服務設施、交通條施件、環境狀況、房價和歸屬感五個維度的權重計算。同樣的,我們將得到的情感詞語Z按照相同的分類準則進行以上五個維度的劃分,通過各自維度的詞數 ? ? ? ? ? 與總維度詞數af的比值分別得到不同維度的詞頻率,即得
其中 代表在聊天內容中展示出的對不同維度的敏感程度,敏感程度越高,其代表的WZn可靠性越高,再結合其歷史居住地得到的維度權重評分Wbn,可以利用附近或類似的居住地評估報告得到相關權重評分,進行加權得到最終的權重Wn。按照我們得到的維度打分表,對已得到的幾個關鍵地理位置進行打分,從而得到評分最高的地理位置,即最終居住地預測點。
五、結果分析
本文利用法院以往的歷史案例存檔數據進行了相應的實驗檢測。其中,用到的相關案例中的中帶有位置的聊天內容共有708920條數據,占全部數據的33%。利用本文提出的PLRU模型,進行大數據實驗,并將實驗結果與Flap模型,UGC-LI模型進行實驗效果對比,發現結果的準確率得到了提高,運行時間也相比各縮減了20%與13%,有效驗證了本模型對居住地預測的有效性。對比結果如下所示:
在實驗結果中選取其中部分實驗結果進行準確度的對比,發現本模型下的實驗準確度較高。同時,以Flap模型和UGC-LI模型為基準進行PLRU模型執行效率的對比,發現本實驗模型的執行效率也都有顯著的提升。
針對居住地不明的失信被執行人,本文利用網絡社交聊天,提出了一種基于用戶社交網絡信賴度的居住地位置推測PLRU模型。該模型有效的融合了社交網絡中的用戶信賴度與地理位置頻率,在失信被執行人的居住地位置推斷預測過程中,不僅考慮了用戶之間的信賴度與聊天情感詞,同時引進了居住地用戶畫像,更具有針對性的對可能的居住地進行位置點篩選,有效得提高了結果準確性。在追蹤失信被執行人的過程中,失信被執行人的用戶好友會發布實時動態,這些動態能幫助我們及時更新本地詞語庫,更具時效性。
參考文獻:
[1]潘一騰,何發智,于海平.一種基于信任關系隱含相似度的社會化推薦算法[J].計算機學報,2018,41(01):65-81.
[2]馮宇,李愛萍,段利國.融合社交關系和位置影響的地點推薦算法[J].計算機工程與設計,2018,39(09):2934-2940.
[3]劉江華.一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗證[J].情報科學,2017,35(02):16-21+26.
[4]和志強,王麗鵬,張鵬云.基于詞共現的關鍵詞提取算法研究與改進[J].電子技術與軟件工程,2018(01):144-146.
[5]杜德斌,崔裴,劉小玲.論住宅需求、居住選址與居住分異[J].經濟地理,1996,16(1):82-90.
[6]張小玉,張志斌.蘭州市居民居住區位偏好研究[J].干旱區資源與環境,2015,29(05):36-41.
作者簡介:
傅揚嵐,1996年6出生,女,漢族,浙江金華人,研究生在讀,浙江財經大學會計學院。
(浙江財經大學 浙江 杭州 ?310018)