胥曉莎,潘理,楊勃
(湖南理工學院信息與通信工程學院,岳陽 414006)
法律咨詢網站用戶行為分析與服務優化
胥曉莎,潘理,楊勃
(湖南理工學院信息與通信工程學院,岳陽 414006)
針對某法律咨詢網站交互能力不足、查詢效率不高等問題,通過用戶行為分析,提出網站服務優化方案。首先對網站訪問數據進行數值化預處理,然后進行用戶行為特征分析,找到影響服務效率的因素;然后,提出網站服務性能評價模型,從訪問成功率和訪問效率兩方面評估網站服務性能;最后,通過優化常用關鍵字列表、組合條件查詢、內容頁面鏈接等方案,使網站訪問成功率和訪問效率得到較大提高。所提網站服務性能評估模型具有較強的普適性,可為其他專業網站性能評估和優化設計提供參考。
法律咨詢網站;用戶行為分析;訪問成功率;訪問效率
隨著我國社會經濟發展,法律服務需求不斷增長,但法律資源總體稀缺,且地區分布不均衡。法律咨詢網站應運而生。但由于法律事務的復雜性、多樣性、專業性,與當面咨詢相比,現有法律網站交互存在功能不足,無法與用戶形成有效互動。并且絕大多數用戶缺乏專業法律知識,難以通過網站導航、關鍵詞搜索等傳統方式準確搜索,影響用戶體驗,限制網站發揮作用。因此,為了提高服務效率,高效、快捷地找到針對性的法律知識、相關案例或專業律師至關重要。
隨著移動互聯網的快速發展,網絡搜索的用戶規模不斷增多,理解用戶行為模式和對網絡用戶行為分析對系統優化至關重要。萬飛、趙溪等通過對查詢詞分析,會話分析和用戶點擊分析并與互聯網搜索引擎指標進行對比,分析得出移動搜索引擎算法改進與系統優化具有一定的參考意義[1]。岑榮偉,劉奕群等基于7.56億條真實網絡用戶行為日志,對用戶行為進行分析和研究。主要考察了用戶搜索行為中的查詢長度,修改率,相關搜索點擊率,并考察了用戶在不同查詢需求下的行為差異[2]。榮國婷、王建冬等基于日志挖掘對圖書館主頁網站用戶行為[3]和用戶期刊數據庫檢索行為進行分析[4]。上述研究對網站服務性能評估具有一定參考意義,但未對訪問成功率和訪問效率等服務性能指標進行深入探討,而這兩個指標對于法律咨詢網站服務效率評估非常重要。
本文某法律網站提供的用戶訪問日志數據的基礎上,通過分析用戶行為特征,找到影響網站訪問效率的主要因素,然后從訪問成功率和訪問效率兩個方面,提出網站服務性能模型,評估網站目前的服務性能。最后,從關鍵詞、組合查詢、頁面鏈接等方面提出服務優化改進方案,通過實驗數據對比發現,新提出的改進方案在訪問成功率和訪問效率方面均有明顯提高。
由于原始數據存在多源性、多樣性特點,不利于數據的統一運算和處理,需要通過對網站訪問數據進行規整和預處理,找出反映網站服務效率和用戶體驗的特征和規律,形成一種計算網站服務效率的評估方法,從而分析得到影響訪問成功率等性能指標的主要因素。
1.1 數據預處理
本文分析的數據對象來源于某法律快車網站的用戶訪問數據記錄,時間范圍從2015年3月1日~2015年3月25日。提供的主要數據文件包括:經過整理的網站訪問記錄文件:包含所有類別的網站訪問記錄文件4個,共189938條訪問記錄,每條記錄包含13項屬性。另外,還提供離婚類別的記錄文件5個,共293999條訪問記錄,列屬性項與所有類別的記錄文件相同。原始訪問日志文件:包含65535條原始訪問日志記錄,每條記錄包含20項屬性。常見關鍵詞列表文件:包含4850項常見法律專業關鍵詞。頁面分類信息文件:包含30條頁面分類信息,每條信息包括3項內容:頁面分類編號、網址、頁面標題。此外,還提供了部分律師信息文件和部分網站頁面文件。
數據預處理過程包含對網站提供的數據進行合并、轉換等預處理操作。綜合主體數據文件中的各項數據采用數值類型。通過對各個不同來源的原始數據進行轉換和重塑,統一規整為數值類型,以方便數據的統計和分析。
1.2 用戶行為特征分析
主要從用戶關注領域,訪問時段分布,用戶會話次數,前導鏈接使用,用戶地域分布,用戶訪問來源等幾個方面對用戶行為特征進行分析。
通過數據,可得用戶行為特征如下:(1)訪問量靠前的18類關注領域(占領域總數的23%)的訪問記錄數達到143994次,占用戶總訪問量的76%,而訪問量排名靠后的61類關注領域占總訪問量的24%。(2)工作日上升,休息日回落,周期性分布明顯。(3)對用戶會話次數統計分析發現:該網站用戶更偏向于使用1次會話,說明網站并沒有引導好用戶進行多次會話,反映該網站的交互功能不足。(4)對用戶前導鏈接使用統計分析發現:絕大多數用戶沒有在日志中留下無前導鏈接,說明并沒有在網站中進行多次路徑跳轉,反映網站頁面導航或交互功能還有待進一步改進。(5)對用戶地域分布統計分析發現:用戶地區分布明顯不均衡。(6)通過對用戶訪問來源可知:搜索引擎是用戶訪問該法律網站最常用的方式。
法律咨詢網站是為用戶提供法律信息服務的,用戶能否成功訪問到感興趣的頁面,用戶經過多少次跳轉才訪問到感興趣的頁面是衡量網站服務質量的兩個重要指標。所以我們采取訪問成功率和訪問效率對網站服務進行評價。

圖1 網站用戶行為特征分析
2.1訪問成功率
(1)內容頁面訪問率
我們定義以下三類方式為成功訪問條件:①通過直接訪問到內容頁面。②通過有關鍵詞記錄的搜索引擎訪問到內容頁面并且內容頁面與用戶的提問匹配。③通過無關鍵詞記錄的搜索引擎訪問到內容頁面,我們假設匹配性符合隨機分布。
根據網頁分類信息文件,可以將該法律網站的頁面分為以下三種類型:法律咨詢相關頁面Nq,律師查詢相關頁面;其他法律知識頁面。類似地,該法律網站的內容頁面也分為以下三種類型:咨詢內容頁面;律師內容頁面;其他知識內容頁面。
特定頁面訪問率:

N為網站頁面訪問總量,NX為特定頁面訪問量,x∈{q,l,k},Nq為咨詢頁面訪問量,Nl為律師頁面訪問量,Nk為其他知識頁面訪問量。Rx為特定頁面訪問率。
內容頁面訪問率:

特定內容頁面訪問率:

Nc為內容頁面訪問總量,Ncx為特定內容頁面訪問量,Rcx為特定內容頁面訪問率。
(2)搜索提問與內容頁面的匹配率
該法律網站提供了常見法律專業關鍵詞。根據關鍵詞列表,定義問題和頁面的專業關聯性。我們將頁面與問題的匹配率定義為頁面與問題有匹配的訪問數與該頁面的訪問量的比值。
搜索提問與內容頁面的關鍵詞匹配數:

Mq表示搜索提問包含的關鍵詞的集合,Kq=|Mq|表示提問包含關鍵詞的數目,Mp和Kp表示頁面包含的關鍵詞的集合和關鍵詞的個數。Kq(或Kp)越大,表示該提問(或頁面)與法律專業的關聯程度越高。Kq(或Kp)大于0,表示提問(或頁面)與法律專業的關聯。Mqp表示提問與頁面共同包含的關鍵詞集合,用Kqp表示提問與頁面共同包含的關鍵詞個數。Kqp大于0,表示提問與頁面的有匹配。Kqp越大,表示提問與頁面的專業匹配度越高。
訪問特定內容頁面條件下的匹配率:

Ncx為特定內容頁面訪問數,NX|cx是訪問特定內容頁面條件下包含搜索提問的訪問記錄數,則RN|cx是訪問特定內容頁面條件下搜索提問與頁面內容的匹配率。
(3)內容頁面訪問成功率
特定內容頁面的訪問成功率:

用SX|cx特定內容頁面的成功率。特定內容頁面訪問成功率SX|cx等于特定內容頁面的訪問率Rcx和訪問特定內容頁面條件下的匹配率RX|qx的乘積。

內容頁面的平均訪問成功率:由式(7)計算可得:該網站內容頁面平均訪問成功率Sc=36.97%。

表1 內容頁面的訪問成功率
由此我們可推斷出:由于用戶缺乏專業法律知識,不能準確使用恰當的關鍵詞進行搜索,導致搜索效率降低,無法有針對性地高效找到相關頁面,影響用戶體驗。
2.2訪問效率
用戶進入一個網站瀏覽網頁時,也會有一個“參觀順序”,這個順序就是用戶瀏覽網頁的路徑。訪客先瀏覽哪個頁面,后瀏覽哪個頁面,這些都包括在訪問路徑里。定義訪問路徑長度Lu為用戶u在網站中跳轉的頁面數。用戶u訪問路徑長度越大,說明用戶需要經過更多次跳轉才能到達最終頁面,用戶訪問效率就越低。因此我們使用路徑長度的倒數定義為用戶這次訪問的效率。即訪問效率=1/路徑長度。
用Eave表示網站的平均訪問效率,則:
網站的平均訪問效率:

拓撲結構,我們進一步改善了網站訪問效率。根據式(8)計算可得:改進后用戶成功時的平均路徑長度為1.5035,改進后失敗訪問時的平均路徑長度為2.0894,改進前平均訪問效率55.17%,改進后平均訪問效率65.06%,優化了約10個百分點。

表2 網站訪問效率

表3 訪問成功率改進對比
根據(式8)計算可得:網站的平均訪問效率為55.17%。由于網站內容頁面缺乏相關性鏈接,導致一些訪問需要經過多次跳轉才能找到目標頁面,增大了平均路徑長度,減低了訪問效率。

表4 改進前后訪問效率對比
通過分析用戶在關注領域、用戶體驗等方面的特征和規律,發現該網站在查找相關頁面或專業律師的成功率和效率等方面還存在問題。
訪問成功率的改進方案包括:(1)增加常用非法律關鍵詞列表,提升問題與頁面的匹配率。(2)增加關鍵詞的領域關聯,提高關鍵詞之間的關聯性。
訪問效率的優化方案為:(1)增設組合條件查詢功能,減少用戶查找的頁面跳轉數,提高查詢效率,改善用戶體驗。(2)優化網頁鏈接結構,減少用戶回退次數。
通過增加非專業關鍵詞和增加關鍵詞的領域關聯,明顯提高了對通過關鍵詞搜索進入頁面的匹配度,從而改進內容頁面的訪問成功率。根據式(7)計算可得改進前的內容頁面平均訪問成功率Sc=36.97%,改進后內容頁面平均訪問成功率Sc=49.15%,提高了約12個百分點。通過增加組合條件查詢功能和優化網頁鏈接
本文針對法律咨詢網站服務效率偏低的問題,提出網站服務性能評估模型,通過用戶行為分析和性能評估,給出相應優化改進方案,使網站服務效率得到明顯提高。論文從訪問成功率和訪問效率兩個方面定義網站服務性能。訪問成功率反映用戶成功訪問到感興趣的內容頁面的概率;訪問效率反映用戶需要經過多少次跳轉才訪問到感興趣的頁面。通過對訪問數據進行評估計算,找到現有網站服務效率偏低的主要原因,并通過增加常用關鍵詞列表、增設組合條件查詢等方式提高網站服務質量。實驗對比發現,改進后網站服務性能得到較大提升。
[1]萬飛,趙溪,梁循,等.基于移動互聯網日志的搜索引擎用戶行為研究[J].中文信息學報,2014,28(2):144-150.
[2]岑榮偉,劉奕群,張敏,等.基于日志挖掘的搜索引擎用戶行為分析[J].中文信息學報,2010,24(3):49-54.
[3]榮國婷,羅勇,孫建軍.基于日志分析的圖書館主頁網站用戶行為研究[J].圖書館雜志,2015(7):59-63.
[4]王建冬,王繼民.基于日志挖掘的高校用戶期刊數據庫檢索行為研究[J].北京大學學報:自然科學版,2012,48(1):29-36.
User Behavior Analysis and Service Optimization for Legal Advice Website
XU Xiao-sha,PAN Li,YANG Bo
(Department of Information and Communication Engineering,Hunan Institute of Science and Technology,Yueyang 414006)
Puts forward a service optimization solution for legal advice websites to make up the lack of interaction capacity and low query efficiency by the analysis of user behaviors.At first,makes the preprocessing of numerical normalization for the raw website data.Then,analyzes the user behaviors to find the factors influencing the efficiency of services,and defines the performance model of the website.Service performances include the success rate of accessing content page and the access efficiency.Finally,proposes an optimization solution to improve the two performance indexes by adding the common non-professional keywords and providing combination query.The proposed performance model has good suitability,and is applied to performance evaluation for other professional websites.
Legal Advice Website;User Behavior Analysis;Success Rate of Access;Access Efficiency
0 引言
1007-1423(2016)33-0018-05
10.3969/j.issn.1007-1423.2016.33.004
胥曉莎(1991-),女,湖南汨羅人,碩士研究生,研究方向為復雜系統建模與分析
潘理(1975-),男,湖南平江人,博士,副教授,研究方向為系統建模與優化、Petri網
楊勃(1974-),男,湖南岳陽人,博士,副教授,研究方向為模式識別
2016-10-14
2016-11-20