999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合空間偏好和語義的個體活動識別方法

2022-06-08 09:10:54郭茂祖陳加棟趙玲玲
國防科技大學學報 2022年3期
關鍵詞:語義特征文本

郭茂祖,陳加棟,張 彬,趙玲玲,李 陽

(1. 北京建筑大學 電氣與信息工程學院, 北京 100044; 2. 哈爾濱工業大學 計算機科學與技術學院, 黑龍江 哈爾濱 150001)

移動網絡的普及與移動終端設備的性能提升促進了基于位置的社交網絡(location-based social-networks , LBSNs)快速發展[1]。社交網絡用戶通過文字、圖片、評分等形式分享日常動態,而社交關系、時空軌跡、活動出行等信息隱含在用戶上傳信息中。因此,基于社交網絡中用戶信息的挖掘能夠獲取用戶的出行和活動的模式與偏好等特征,為用戶畫像、目的地推薦及出行規劃[2-5]、個性化產品廣告投放等實際應用提供支持。同時,其也有助于進一步了解城市范圍內的群體行為模式,對城市規劃[6-8]、資源配置優化、異常檢測等領域具有重要價值。

在地理信息系統中,興趣點(point of interest, POI)的地標用于標示某一地點所代表的設施、景點、地標等場所,包含地點對應的名稱、類別、經緯度、海拔等信息。在用戶通過社交媒體記錄分享自身活動時,其上傳的地點名稱及興趣信息能夠使對應位置構成POI。由于社交簽到數據包含了簽到時間、POI等信息,其隱含的信息能夠描述用戶在簽到時進行的目的性活動所屬類別,即活動語義信息。社交媒體包含的大量簽到與活動數據,為挖掘用戶活動偏好、識別活動語義提供了基礎。

在活動語義識別任務中,當前研究聚焦于挖掘時間信息中的活動行為的周期性和趨勢性特征,對空間經緯度信息的使用主要在于計算簽到點與周圍POI之間的距離,作為POI推薦依據[3,9],或利用用戶對訪問點的歷史信息進行統計獲得訪問頻率,用于個體活動行為偏好分析[10]。數據中所包含的簽到地點的名稱文本信息對于活動語義的識別同樣具有重要意義,并且其在一定程度上可以直接反映活動語義。許多現有研究采用潛在狄利克雷分配(latent Dirichlet allocation, LDA)主題模型來對POI名稱進行提取,通過生成的主題分布對個體進行活動行為識別,或進行旅游景點推薦[3-4]等;另有研究采用聚類[2]的方法對POI進行分析,從而為用戶推薦興趣點。

活動語義識別的難點不僅體現在不同個體在同一地點的活動語義差別,同時也體現在不同場所經緯度、高度信息相似所造成的識別困難。現有活動語義識別研究對時間信息中的周期性和趨勢性特征考慮較為充分,但并未結合用戶的活動空間偏好特點和POI語義信息。

針對上述問題,本文提出了一種基于空間偏好和POI語義的個體活動語義識別方法,通過簽到數據中的時間信息、空間信息和POI文本信息對個體活動語義進行識別。將活動語義識別視為多分類問題,通過特征工程挖掘時間、空間、文本信息中的關鍵特征,構建反映群體和個體偏好的時空聯合特征向量,并采用極限梯度提升(extreme gradient boosting,XGBoost)算法建立分類器,對特征進行編碼并構建活動語義識別模型。

1 相關工作

個體的活動行為在時間和空間中通常具有較強的規律性,分析時空數據能夠實現用戶的活動類別識別,對于城市規劃、交通規劃、針對個體興趣偏好的推薦系統有著重要的價值。

用戶的時空軌跡或簽到數據在個體的活動偏好和推薦領域存在許多研究應用。Zhu等[2]設計了一種個性化的旅游景點推薦算法,向用戶推薦旅游景點。通過基于密度的聚類算法(density-based spatial clustering of applications with noise,DBSCAN)對空間地理數據進行聚類,獲得旅游景點POI對應簽到數據,再通過主題提取模型LDA分別為用戶及區域生成潛在主題分布,并與用戶的社交關系數據相結合,構建模型獲取個體用戶對應不同活動語義的得分。之后將模型與旅游景點的位置、評分相結合,對旅游景點進行排名,實現對用戶的景點推薦。Qiao等[3]通過學習用戶與POI的潛在表示形式,將地理位置信息、用戶關系信息和時間信息進行綜合,提出聯合表示學習框架,將上述因素納入計算得出各個POI間的轉移概率,完成POI的推薦和社交鏈接的預測。Cao等[4]采用了基于社交網絡的矩陣分解框架,根據用戶與地區POI的交互數據分析其活動偏好,采用頻譜聚類對POI進行聚類,結合地理信息為用戶推薦POI。在用戶活動行為的建模中,挖掘相似用戶的活動行為,對建模用戶個體的活動偏好和移動模式有重要作用。Rizwan等[10]通過核密度估計(kernel density estimation,KDE)方法幫助觀察分析活動行為和目的地的稀疏分布,以及識別活動事件的精細密度,并使用標準偏差橢圓(standard deviational ellipse,SDE)方法分析簽到行為的空間分布區域。研究結果表明男性和女性在活動行為偏好上有很大區別,活動時間選擇上也有不同。Araújo等[11]將隨機森林模型和馬爾可夫模型結合構建一個集成學習器,用于預測用戶的下一活動位置。

基于社交位置的社交網絡數據存在很多問題,比如數據稀疏、數據量低、可信度差、缺乏權威認可、隱私問題等。Martí等[12]分析了LBSN數據的主要問題,并提供了相關使用方法。Kim等[13]采用模擬用戶數據解決上述問題,方法以大量社交網絡數據為基礎構建框架,結合人類實際生活行為模式生成模擬用戶數據,提取模擬用戶的時間、空間、社交關系信息。文獻[14]通過類似方法構建了地理模擬系統,生成人群需求模擬數據進行研究。

Zhong等[15]挖掘用戶移動位置和時間的上下文相關性,分析用戶移動模式,獲取興趣偏好。通過位置信息對用戶活動相似性進行建模,將用戶頻繁活動的區域視為興趣中心,提出多中心聚類算法衡量用戶的相似性。Wang等[16]提出基于圖嵌入的半監督學習框架為位置場所注釋,挖掘場所位置相關性和訪問相同地點的用戶相似性。Zhang等[17]將時空特征和活動軌跡的額外活動信息相融合,用以解決在軌跡補全問題中的不足。Shi等[18]在人流流動性研究中,關注人類在移動中的時空特性和移動動機,探討活動軌跡研究中活動目的對移動的影響。

社交媒體數據能夠輔助決策城市規劃和城市資源配置,以數據來驅動規劃和發展。González等[5]挖掘個體時空活動軌跡,不完全重合的活動軌跡遵循簡單的可復制模式。出行方式的固有相似性影響到城市規劃、城市資源配置以及流行病的預防和響應。Van Weerdenburg等[6]基于休閑活動和旅游類數據,對比三種有監督多標簽機器學習方法,探究這些理論在城市休閑和旅游業研究以及相關城市政策和規劃中的潛力,為城市休閑和旅游研究提供了新視角。Cai等[7]通過人類活動的時空模式,提取城市空間動態語義,并揭示了北京城市動態的五個小時模式、四個每日模式和六個空間模式。Huang等[8]通過市民與交通系統的互動解決交通擁堵,利用社交媒體數據分析城市交通和城市動態,探索人類活動對日常交通擁堵影響。

個體社會活動行為與個體社會關系網絡有重要關系。基于此,Pan等[19]提出發現社交關系中有影響力的朋友算法,通過簽到數據中的用戶語義信息計算不同用戶之間的影響。Papangelis等[20]將地理區域中的地域性概念用于理解個體的空間活動和社交行為。這種地域性特點會影響到個體與個體間的交互以及他們所處的環境。本文受個體活動語義識別研究[2-4,10,15]啟發,針對個體數據中隱含的興趣偏好對識別準確率的影響進行了探究。為獲取用戶空間訪問偏好,文獻[2,4,15]采用聚類方法由地理信息提取熱點訪問區域,但基于聚類方法獲取的空間偏好區域[2]可能將不屬于熱點區域的邊緣點包含到聚類簇中,對識別效果造成不利影響。本文基于用戶對各區域的訪問頻數進行統計,提出了更加直觀的個體空間訪問偏好表征方法。

為了利用簽到點名稱來挖掘文本信息,文獻[2]采用LDA聚類對熱點區域內的旅游景點進行主題生成,從而獲取用戶的潛在訪問主題偏好以及各區域的潛在主題分布。在個體活動語義識別任務中,不同個體在同一地點可以擁有不同的活動語義,而聚類所得的空間區域潛在主題分布固定,不利于活動語義識別。本文通過詞向量嵌入模型BERT(bidirectional encoder representations from transformers)將簽到地點名稱轉換為帶有語義的向量,由于包含語義的特征向量和活動語義間不存在固定對應關系,在活動語義識別準確性上能夠獲得更好的表現。

2 個體活動的時空聯合特征表示

本文在進行個體活動語義識別過程中同時考慮了時間、空間以及POI名稱文本中潛在的語義信息,將活動語義識別作為一個多分類問題處理。在訪問時間特征方面,提取簽到時間特征,以表示活動行為的時間周期性和趨勢性。

空間特征方面,由于用戶在不同訪問位置的訪問頻率差異反映了一定的偏好,因此,本文提出基于訪問熱度的群體和個體的空間偏好特征。空間偏好帶有群體性和個體性兩個層面:群體偏好的產生表現為簽到數據空間中存在若干熱點訪問區域,這些熱點訪問區域往往關聯典型的活動類型,如旅游勝地、熱門餐廳等;個體偏好則是針對個體簽到數據而言,由于用戶的出行習慣或工作要求,也可能出現熱點訪問區域,且個體在這些區域傾向于進行相同的活動。

POI語義方面,采用BERT模型提取POI名稱隱含的語義信息。綜合上述三個維度提取的特征構建聯合特征向量,使用XGBoost算法建立分類器。整體的活動語義識別模型框架如圖1所示。

2.1 空間偏好特征表示

不同個體具有不同的出行和活動習慣偏好,在簽到行為數據的空間分布上也有所反映,具體表現為個體或群體對不同子區域的訪問頻率差異,并隨簽到行為進行逐漸形成用戶個體和群體的熱點訪問區域。由于個體在特定空間區域的活動類別與其日常習慣偏好存在緊密聯系,相關空間特征的挖掘對個體活動識別具有重要的意義。本文基于用戶簽到數據對不同子空間的訪問頻率提出空間偏好的估計方法,分別對個體、群體的空間偏好進行了度量,并獲取相應的空間熱點訪問區域,作為簽到行為的空間特征表示個體的潛在活動模式。

2.2 用戶空間偏好的度量方法

本文采用基于子空間訪問頻率統計的度量方法,分別提取用戶個體、群體的熱點訪問區域及相應訪問量作為空間偏好特征,具體提取方法描述如下。

圖1 基于空間偏好和POI語義的活動語義識別框架Fig.1 Activity semantic recognition framework based on spatial preference and POI semantic

1)首先定義子空間區域的經緯度閾值ε,將簽到數據集空間范圍S劃分為網格子區域Si,子空間起始經度a0、緯度b0分別取簽到點分布范圍的經緯坐標下界:

(1)

將用戶簽到空間位置坐標集合表示為L,第i條數據的簽到點經緯度位置表示為li。

L={l1,l2, …,ln}

(2)

li=(ai,bi)

(3)

2)采用如下方法估計某個區域的空間偏好:首先統計L中所有簽到點坐標,獲取落在子區域Si內的簽到位置坐標及個數ni,構成子區域簽到點數量集合N。然后分別計算子區域內任意點li作為質心Ci時的均方誤差E,選取計算所得均方誤差最小的簽到點作為該子區域質心:

(4)

(5)

3)考慮到簽到點有可能落在劃分子區域邊緣上,兩類邊緣點分別類似于圖2的A、B兩點,對兩類點分別計算坐標與鄰近各子區域質心的歐式距離di,即對A點類型,計算di(i= 1, 3);對B點類型,計算di(i= 1, 2, 3, 4)。取最小di對應的子區域作為邊緣點所屬:

(6)

圖2展示了簽到數據在空間中的分布,每條橫線表示緯度,豎線表示經度。通過上述方法將整個簽到空間劃分為一個個的簽到子區域,各個子區域中的一個點就表示有一次簽到行為發生于此空間內,模擬了簽到點在簽到空間內的分布情況。

圖2 簽到點空間分布示意Fig.2 Schematic diagram of check-in points

圖3和圖4分別展示了Foursquare紐約市公開數據集的群體、個體簽到記錄空間分布,并顯示了通過本文空間偏好度量方法獲取的特征值。特征值越大,表示個體或群體對該子區域的訪問偏好程度越高。

圖3 群體空間訪問分布及偏好特征Fig.3 Group spatial preference and numerical feature

圖4 1號用戶的空間訪問分布及偏好特征Fig.4 Spatial preference feature of the No.1 user

2.3 POI語義信息提取

用戶在簽到時刻進行的活動往往與其所在位置的類別、功能具有緊密的聯系,簽到地點信息對個體活動的識別具有重要意義。因此,本文通過提取簽到點POI名稱中的文本信息特征,獲取其隱含的活動語義信息。

詞嵌入方法在自然語言處理領域得到了廣泛的應用,通過將詞語映射到一個數學空間里,能夠獲取文本對應的反映其特點的向量表征。本文使用自然語言處理中的BERT模型將簽到地點名稱轉換為帶有語義的詞向量。

BERT模型以Transformer模型架構為基礎,能夠在左右兩側上下文的聯合條件下,從無標注的文本中預訓練出詞的深層雙向表征。

本文方法使用谷歌公司提供的Uncased BERT-Base模型對簽到地點名稱進行詞嵌入,將文本信息映射至特征空間,以獲取對應的詞向量特征。變換流程如圖5所示,具體詳細如下:

1)基于個體用戶簽到數據,獲取簽到POI名稱文本序列{P1,P2,…,Pn},分別對位置名稱Pi進行詞嵌入、位置編碼、片段編碼得到對應的向量表示X。

2)將X輸入自注意力層,計算其對應的Query矩陣、Key矩陣、Value矩陣:

Qi=X·WQ

(7)

Ki=X·WK

(8)

Vi=X·WV

(9)

其中,WQ、WK、WV分別代表對應權重矩陣。

3)計算得分,即Qi與Ki的點積,通過softmax函數對結果進行歸一化處理,并乘以Vi矩陣得到注意力矩陣Zi:

(10)

4)由于多頭注意力機制,需要將多個Zi矩陣相連,并與權重矩陣WO進行點乘,Z即為對應文本的向量表征:

Z=Concat(Z1,Z2,…,Zm)·WO

(11)

5)將結果Z保存為對應的嵌入結果,并循環執行完成所有文本到向量的轉換,對序列中其他POI名稱文本循環此過程,獲取全部POI文本對應的向量表征。

圖5 BERT模型流程Fig.5 Flow chart of BERT model

3 活動語義識別算法

本文將活動語義識別作為一個多分類任務進行處理,提取了時間、空間、文本三個維度的特征,組合成特征向量,采用XGBoost模型作為分類器,構建一種融合多特征的活動識別(multi-feature activities recognition,MFAR)算法模型。模型的輸入包括簽到數據的用戶ID、簽到地點空間經緯度坐標、簽到時間戳、簽到地點POI名稱。算法從時間信息中提取月、日、星期、工作日、簽到時刻,并計算簽到點的空間訪問偏好程度;文本上對于簽到地點名稱,利用BERT模型對其進行編碼,將字符信息轉換為具有文本語義的向量。組合三個維度中的所有特征構成特征向量,利用XGBoost模型完成活動語義識別,MFAR算法具體流程如算法1所示。

算法1 MFAR算法

4 實驗與結果

MFAR的主要任務是識別LBSN用戶在簽到位置的活動語義,實驗采用Foursquare社交平臺公開簽到數據集來驗證本文方法的有效性,選用的數據集中包括來自紐約的227 428條及東京的573 703條用戶簽到數據。每條簽到記錄主要包含匿名的用戶ID、簽到位置ID、位置所屬類別ID、簽到位置名稱、經緯度坐標、UTC時差、世界標準時間。

具體活動語義的標簽類別及描述如表1所示,數據集包含12種活動語義標簽,描述了用戶在簽到地點的活動語義,例如:對于一條記錄了某用戶在健身房鍛煉的簽到數據,其POI名稱為“Gym/Fitness Center”,對應活動語義標簽為“Sports”。

表1 活動語義類別及描述

XGBoost算法中決策樹數量d與最大深度k的超參數對模型性能影響較大。經參數調優,本文將模型學習率設置為0.3,決策樹數量為1 000,樹的深度為6。

此外,本文采用控制變量思想分別調整不同參數值,計算不同實驗設置下模型多分類結果的準確率Sacc、精確率Spre、召回率Srec、F1值SF1。為避免實驗結果偶然性的影響,在對比實驗中采用十折交叉驗證,取評價指標平均值進行對比。同時,采用混淆矩陣進一步獲取模型對不同活動類別的識別情況,并對主要誤識別原因進行分析。四種主要評價標準計算公式如下:

(12)

(13)

(14)

(15)

根據模型對樣本的分類結果與其實際類別的匹配情況,TP、TN分別代表模型分類正確的正例與反例樣本,即真正例與真反例;FP、FN分別代表分類錯誤的正例與反例樣本,即假正例與假反例。

本文圍繞空間偏好特征、POI文本特征和分類器進行了一系列對比實驗,并對模型性能進行對比分析,以證明MFAR提取特征的有效性與分類器的性能。

圖6 關于空間偏好特征的模型性能對比Fig.6 Comparison of the model performance in view of spatial preference features

圖6展示了引入空間偏好特征對模型性能產生的影響,對比了僅采用時間特征以及同時采用時間與空間偏好特征訓練所得分類器的性能指標。對比實驗結果,相比較于單一的時間特征,空間特征的引入為模型的活動語義識別性能帶來了明顯提升。空間訪問頻率反映了群體和個體的空間訪問偏好,由于在群體訪問所形成的熱點區域(如知名餐廳、名勝古跡等)中大多數個體所進行的活動行為相同,多數個體用戶在相應位置進行的活動行為具有較高相重合度。個體訪問數據形成的熱點訪問區域同樣會反映個體活動的空間訪問習慣偏好,在簽到數據中常體現為個體在進行特定活動時多次重復訪問某一地點。實驗結果證明,空間訪問偏好特征對活動語義識別有重要作用。

圖7 關于文本特征提取的模型性能對比Fig.7 Comparison of model performance in view oftext feature extraction

圖7展示了文本特征對模型性能的影響,對比了僅采用時空特征、分別采用LDA主題模型與BERT模型進行詞向量嵌入的模型性能,三種特征選取方式分別對應三種不同顏色柱狀圖。對比時間空間相結合的特征,在加入了文本作為識別特征后,識別準確率又有了較高的提升。在活動語義識別中文本特征是一個重要的特征,活動點的名稱與個體在活動點進行的活動行為有重要聯系。對于文本特征,本文通過兩種不同的思路來挖掘:①LDA主題模型,從詞到主題的分布來對文本進行向量的表征;②BERT模型,從詞的語義來進行向量表征。在通過LDA模型進行詞向量的轉換時,首先以所有簽到點的名稱進行訓練生成主題,之后對所有簽到地點名稱進行主題歸屬預測,得到主題歸屬預測向量,完成詞到向量的編碼。BERT模型將簽到地點經過一個12層的編碼器結構來完成語義表征。圖7的實驗驗證了基于BERT的語義表征優于基于LDA的主題表征。在活動語義識別中,同一地點的活動行為不盡相同,LDA主題模型對文本以主題語義的形式進行詞向量表征,但主題語義并不等同于活動語義。BERT模型對文本以自然語言語義的形式進行詞向量表征,相同字符在不同語境中存在不同含義,而主題則更加確定,所以對于相同地點的不同活動行為經由BERT模型轉化來的向量有著更好的表達效果,因此該模型更有利于活動語義識別。

將MFAR算法與只采用時間、空間、文本單一特征進行訓練得到的識別準確率進行對比。其中,單一采用時間特征所得準確率為0.38,空間特征準確率為0.48,文本特征準確率為0.78,MFAR算法準確率為0.87,結果顯示MFAR算法表現優于其中任一種特征。此外,為探究算法中各特征的作用,基于單一特征的識別準確率定義了特征重要性度量,計算方法如式(16)~(17)所示。

(16)

Stotal=Sspa+Stem+Stex

(17)

其中,Ii代表不同特征類別的重要度分值,Stem、Sspa、Stex分別表示基于時間、空間、文本特征單獨訓練所得模型的準確率,SMFAR表示同時采用三種特征的MFAR算法模型準確率。

根據式(16)進行計算,時間特征重要度為0.20,在三種特征中最低;空間特征重要度為0.26,略高于時間特征;文本特征重要度最高,為0.41。根據上述結果,簽到位置文本信息在活動識別中發揮了更重要的作用。進行打卡簽到時用戶更傾向于記錄新穎活動,對日常生活頻繁活動記錄較少,整個打卡簽到行為隨機性大,導致時間信息中周期性和序列性行為較難挖掘,因此單一時間維度特征識別效果較差。空間偏好信息相比較于時間信息識別較好的原因是,對于空間中的熱點訪問區域,多數個體在這些地區都進行相同的活動行為。簽到地點名稱文本反映了簽到地點的固有屬性,這些固有屬性決定了當前地點能夠提供何種活動行為,因此識別效果最好。

如圖8所示,實驗對比了XGBoost分類器、基于隨機森林的分類器、K近鄰分類算法以及支持向量機在采用相同特征前提下的模型性能,結果表明MFAR采用的XGBoost分類器的各項性能指標均顯著優于其他分類器。

圖8 采用不同分類器的模型性能對比Fig.8 Comparison of model performance with different classifiers

圖9為活動語義識別模型的混淆矩陣,混淆矩陣展示了算法對不同活動語義的預測情況,其中橫軸代表MFAR算法根據簽到數據特征所得的活動語義預測值,縱軸代表該簽到數據包含的活動語義真實值,位于矩陣對角線上的數字代表活動語義預測值與真實值相符的簽到數據樣本數量。例如:在活動語義真實值為Shopping的樣本中,有7 972條簽到數據預測正確,其余預測值與真實值不符,其中273條被預測為Entertainment;在對活動語義真實值為Entertainment樣本的預測結果中,有250條被預測為Shopping。

觀察混淆矩陣不難發現,模型對Education、Medical、Service等活動類別識別較為準確,此類標簽在數據集中通常對應具有特殊性的簽到地點,例如教學樓、診所、藥店、政府大樓、銀行等。由于活動語義、簽到地點間的關聯性及地點本身的特殊性,通過POI名稱文本隱含的語義信息即可實現一定程度的活動判斷,并結合簽到時空特征進一步提升識別準確性。同時,模型在Entertainment類、Restaurant類和Shopping類活動樣本間出現了較多誤識別情況。通過觀察數據集相關樣本,能夠發現出現誤識別的活動類別間存在時空重疊,即用戶進行幾種活動的時間、空間信息相似度較高。另外,Entertainment類活動語義范圍廣泛且模糊,部分樣本的時空特征與Restaurant類、Shopping類活動并不存在明顯界線,相關活動類別的區分主要根據簽到地點名稱文本進行,在文本信息不足以體現區別時易造成混淆。

為了進一步驗證模型性能,將MFAR算法與位置感知Dirichlet分配(location-aware latent Dirichlet allocation, LLDA)算法[2]、相似用戶模式 (similar user pattern, SUP)算法[21]和多層感知機(multi-layer perception, MLP)基線模型進行對比,通過評價指標及十折交叉驗證標準差衡量算法的個體活動識別性能。其中SUP算法對相似位置進行分類,獲取用戶偏好相似度及用戶間簽到活動的關聯,引入了名為相似用戶模式的位置特征,通過多個分類器對位置語義標簽進行識別。實驗采用SUP算法提取用戶特征,并結合其他特征識別個體活動。LLDA算法采用DBSCAN算法對空間位置進行聚類,并結合LDA主題生成模型獲取區域及潛在活動的主題分布,建立用戶興趣評分模型,將最高分值對應活動類別作為用戶活動語義。此外,作為基線對比實驗,本文采用MLP構建分類器模型,各隱藏層之間全連接并在各神經元添加ReLU激活函數,將聯合特征向量輸入模型,最終由softmax層輸出屬于不同類別的概率,取概率最大類別作為分類結果。

圖9 MFAR算法識別混淆矩陣Fig.9 Identify confusion matrix of MFAR

對比實驗結果如表2所示,MFAR算法在識別準確率上相比較于SUP算法提高了42個百分點,相較于LLDA算法提高了11個百分點,在和MLP基線模型的對比中準確率也提升了4個百分點。

基于Foursquare東京數據集的活動語義識別算法對比實驗結果如表3所示,在該數據集上,本文MFAR算法的識別準確率相較于SUP算法提高了43個百分點,相較于LLDA算法提高了10個百分點,與MLP基線算法實驗結果相比,準確率提升了26個百分點。

表2 紐約市數據集的活動語義識別算法對比結果Tab.2 Comparison of several activity semantics recognition algorithms on New York City dataset

表3 東京數據集的活動語義識別算法對比結果

對比兩數據集實驗結果能夠發現,本文算法及LLDA的準確率在表3所示實驗中有明顯提升,推測為東京數據集數據量較紐約市數據集更大,使得本文模型的訓練更為充分。而SUP算法性能不佳的可能原因在于稀疏簽到數據集不易獲取活動及用戶的相似性。此外,對比結果也表明在個體活動語義表達上,MFAR提取的文本及空間特征優于LLDA挖掘的空間信息與潛在活動主體分布。

綜合上述實驗結果,本文提出的MFAR算法在基于Foursquare數據集的個體用戶活動識別任務中具有更好的表現。

5 結論

本文提出了一種結合空間偏好和POI語義信息的個體活動語義識別算法。重點研究了空間訪問偏好和POI語義對個體活動語義識別的影響,并且通過實驗對比驗證了這兩個特征在活動語義識別中的作用,與其他算法的對比也證明了本文算法的性能優勢。本文在特征挖掘中還存在一些不足,對空間信息的挖掘中主要通過區域訪問頻率來反映個體對空間區域的偏好,缺少對群體空間訪問偏好與個體空間訪問偏好之間的聯系的挖掘,因此,未來工作中將就社交網絡關系等群體與個體活動的潛在關聯進一步融合到特征表示中進行研究,提高模型的活動識別能力。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 91黄色在线观看| 免费精品一区二区h| 日韩最新中文字幕| 亚洲色婷婷一区二区| 91香蕉视频下载网站| 午夜精品福利影院| 国产免费黄| 福利小视频在线播放| 国产成人福利在线视老湿机| 91久久夜色精品国产网站| 亚洲国产欧洲精品路线久久| 99爱视频精品免视看| 日韩视频福利| 色婷婷成人| 天堂成人在线| 国产精品极品美女自在线看免费一区二区| 99精品免费在线| 99re在线免费视频| 老司机午夜精品网站在线观看| 四虎AV麻豆| 99久久精品国产自免费| 二级特黄绝大片免费视频大片| 国产亚洲精| 91免费精品国偷自产在线在线| 欧美三级视频在线播放| 天堂成人av| 91在线精品麻豆欧美在线| 欧美国产成人在线| 亚洲精品国偷自产在线91正片| 97综合久久| 久久国产av麻豆| 国产精品开放后亚洲| 亚洲v日韩v欧美在线观看| m男亚洲一区中文字幕| a级毛片免费网站| 久久a毛片| 国产激爽大片在线播放| 国产日韩AV高潮在线| 国产高清国内精品福利| 亚洲日本韩在线观看| 狠狠色婷婷丁香综合久久韩国| 中文字幕无线码一区| 在线视频亚洲色图| 中文字幕 91| 国产成人无码Av在线播放无广告| 国产va免费精品观看| 国产国模一区二区三区四区| 久草性视频| 久久毛片网| 国产麻豆另类AV| 乱系列中文字幕在线视频| 最新精品久久精品| 精品国产免费人成在线观看| 青草精品视频| 美女被操黄色视频网站| 精品视频一区二区三区在线播| 自偷自拍三级全三级视频| 美女一级免费毛片| 国产凹凸视频在线观看| 99热这里只有精品5| 91精品免费久久久| 毛片基地视频| 成人午夜福利视频| 欧美日本二区| 毛片基地视频| 在线免费观看a视频| 国产熟睡乱子伦视频网站| 亚洲天堂久久| 波多野结衣无码AV在线| 女人天堂av免费| 国产精品片在线观看手机版| 四虎永久免费地址| 夜夜拍夜夜爽| 国产理论精品| 色欲不卡无码一区二区| 国产激情影院| 国产理论精品| 丰满人妻久久中文字幕| 欧美成人综合在线| 亚洲成人网在线观看| 国产探花在线视频| 欧美成人综合在线|