蘇 飛,冉 萌,蔡子龍,陸 鈞
(中國聯通網絡技術研究院 北京100048)
網絡質量是用戶選擇移動通信運營商的最重要因素,傳統網絡質量考核體系已經不能夠客觀地反映出用戶感知,往往出現網絡KPI(key performance indicator,關鍵績效指標)很好,用戶感知卻很差的情況。結合目前網絡現狀,一方面,存在很多高端用戶對網絡滿意度持續下降的情況,需要采取措施重點針對高端客戶的感知進行基于多維度的分析和衡量;另一方面,3G用戶熱衷于參與性強、互動性好、有吸引力的各類應用,特別重視體驗的效果,3G 成功的關鍵是看用戶感知的好壞。因此,運營商必須建立以用戶感知為導向的網絡質量評價考核體系,有效地開展網絡優化工作。但從實際應用來看,運營商大多僅實現了從KPI向用戶感知的KQI(key quality indicator,關鍵質量指標)的聚合,評估方法單一,實現力度不夠[1],因此,如何保障用戶對網絡的體驗、提升用戶對網絡的滿意度,是運營商面臨的重要課題。
在提升用戶感知方面,目前存在著多種方法,主要有基于自動路測的采集評估,基于手機植入的終端質量監測,基于多維指標的業務質量分析和基于信令數據的挖掘分析。這些分析技術在網絡質量評估和網絡優化過程中發揮著重要作用,下面對這些方法進行簡單論述。
(1)基于自動路測的采集評估
基于自動路測的采集評估系統是利用車載系統模擬用戶做撥打測試,然后通過無線調制解調器把數據傳到系統主服務器上。系統服務器主要包括收集海量測試數據的數據庫管理系統、LOG 文件系統及預處理系統。客戶端部分可以從系統服務器中讀取數據,集成后臺分析處理功能(展示、分析、報表、撥打控制等)。
(2)基于手機植入的終端質量監測
UE 預先安裝相應客戶端,在后臺運行,自動采集網絡參數,回傳到服務器;UE 能夠進行軟件自動升級;通信服務器用于連接客戶端與數據庫,保證穩定的數據傳輸;數據庫服務器用于UE 遠程升級,存儲測試數據,并進行數據分析和報表管理;BS 客戶端用于進行網絡性能分析,可以進行用戶行為分析和話務模型分析。
(3)基于多維指標的業務質量分析
該方法需要建立“基于QoE的KQI 分類方法”,建立KPI-KQI-QoE的映射模式,針對業務或應用進行業務質量分析,體現用戶感知QoE。
(4)基于信令數據的挖掘分析[2]
基于信令數據的挖掘分析主要包括數據采集、信令關聯、智能挖掘和問題定位。數據采集通過高性能信令采集設備對網絡中各接口信令和測量報告、性能數據進行采集和存儲;信令關聯通過信令數據關聯進行數據清洗,保證數據的準確性;智能挖掘對網絡性能進行多維度評估,如對切換失敗、掉話、位置更新異常、指派失敗、干擾、弱信號、載頻隱性故障等問題進行評估;問題定位是對分析結果反映的問題進行定位和優化。
每種方法各有優劣,根據不同需求和不同場景,可以采用不同的評估方法。基于自動路測的采集評估,無法做到對整個網絡的測試,成本高加重了網絡負荷;基于手機植入的終端質量監測涉及用戶隱私,每類終端需單獨開發AGENT,無法推廣到所有在網用戶;基于多維指標的業務質量分析的問題在于難以建立QoE 與KQI的一一對應關系,用戶的移動性與業務多樣性導致業務視圖建立困難;基于信令數據的挖掘分析存在信令硬件投資巨大,系統建設維護工作較大,用戶隱私與安全等問題。
基于用戶感知的網絡質量評估方法依托于基于信令數據的挖掘分析方法,利用核心網CDR(call detail record)數據,結合用戶行為和用戶體驗,進行網絡質量的評估。
3.1 多數據源
各類數據源是用戶體驗網絡質量評估方法的基礎,數據源的準確采集、導出和導入是優化工作的重要前提。現網運維數據中存在多種數據源,如信令消息的CDR、MR(measurement report,測量報告)、設備內部的CHR(call history record,呼叫歷史記錄)以及話統數據等,各種數據源可以利用關鍵字進行關聯分析,從而實現對優化工作的有力支撐。
本文主要利用核心網信令消息CDR 進行異常用戶行為模型分析,如通話CDR、切換CDR 等,加以其他數據源的支撐,最終完成優化。
3.2 方法流程
基于用戶感知的網絡質量評估方法主要包括6個過程[3],即數據理解整合提出需求、建立用戶行為模型、數據清洗、數據分析實施、多維度分析和參數調整,如圖1 所示。
流程中各部分具體內容如下。
(1)數據理解整合提出需求
充分理解各類數據源(如CDR 數據、話統數據)的深層次含義及數據源之間的關聯性,結合現網實際情況,提出數據分析需求。
(2)建立用戶行為模型
通過用戶應對不同話音業務問題時所表現出的異常行為,利用其行為特征,如通話時長、通話間隔等,建立基于異常用戶行為的話音業務問題挖掘模型,用于后續分析。需要注意的是,在模型建立的過程中,涉及個別模型參數的選擇,參數的選擇是影響模型準確與否的關鍵,因此,需要通過現網的數據分析或利用相關專家的經驗進行設定。
(3)數據清洗
對于一些疑似事件,可能是由于用戶撥測或個體行為導致,需要對這部分數據進行數據清洗,從而提高數據的準確性,減少其對結果的影響。如某個用戶在一段時間內的通話時長均很短,而且通話間隔較短,這可能是由于手機賣場撥測等情況導致,需要將這部分數據從數據分析工作中清洗掉,以避免對結果產生影響。針對不同的業務場景,需要設置不同的數據清洗規則。

圖1 基于用戶感知的網絡質量評估方法流程
(4)數據分析實施
利用相關數據分析工具(SQL、Modeler、SAS),對建立的數據分析模型進行實現,并對數據進行實施。
(5)多維度分析
針對檢測到的疑似事件,進行多維度場景細化分析,基于多維度信息,尋找疑似性較高的疑似事件及可能的多種維度,如時間維度、地理維度、網絡維度、網元維度、呼叫類型等。如果分析結果發現事件在某個維度上表現出明顯異常,則需要重點關注,并列為重點疑似對象。
(6)參數修正
通過優化實施后的經驗,對問題檢測模型的參數進行修正,以使模型對問題的檢測更加準確,為后續優化提供強有力的支持。
3.3 關鍵問題分析
在整個方法的實施過程中,關鍵環節的處理至關重要,可能存在以下問題。
(1)多數據源采集
由于需要多數據源支撐,多數據的采集、關聯和準確性需要一定的保證,增加了數據采集和分析的難度。
(2)分析模型誤差
方法中使用的用戶行為可能是一些用戶的正常行為,需要從模型中將這類用戶去除,從而完善模型,提高準確率。
(3)問題精確定位
篩選出的問題實體(如小區、鏈路等)可能較多,需要將其中最具疑似性的實體挑選出進行高效的優化。
(4)檢測模型修正
問題檢測模型中的參數選取盡管有數據支撐,難免與各省實際情況有出入,需要對參數進行有效修正。
3.4 典型模型
基于用戶感知的網絡質量評估方法重點研究用戶行為,通過用戶行為特征,反映出用戶對網絡的體驗感受,從而發現網絡存在的問題。
用戶行業是指用戶在使用網絡開展話音或數據業務時,行為在某一維度上表現出了較高的集中度,如用戶第一次通話失敗,而再次撥打成功;或用戶在某段時間內,在某小區的通話時長總是很短。這些異常的用戶行為模型背后往往隱藏著豐富的網絡質量信息,如有用戶在某小區內的通話時長總是很短,可以初步判定該小區存在問題,然后進一步分析是無線網問題,還是核心網問題,最終達到對問題進行精確定位的目的。本文關注話音和數據業務的用戶行為模式,并研究不同模型映射出的網絡問題。
3.4.1 話音業務的模型分析
(1)通話時長
通話時長是指用戶在通話過程中的時間長短,用戶的通話時長,往往能夠反映出當時網絡的狀況。
如一個小區的用戶平均通話時長很短,可能是這個小區的網絡環境相對較差,造成話音質量不好,影響用戶感知,用戶無法完成通話,在較短的時間內結束了通話,因此,通話時長很短。
通話時間超長的用戶,也是運營商需要重點關注的用戶。這類用戶對運營商來說非常重要,可以重點分析其通話局向、對方用戶類型等信息,對市場推廣有著重要的參考意義。
此類用戶模型折射出的網絡問題如超長通話、超短通話等。
(2)通話間隔
通話間隔是指用戶通話的時間間隔,通話間隔可以輔助其他因素進行網絡問題的挖掘。
如果用戶的通話時間間隔總是較短,則可能是用戶所在小區的無線質量很差,導致用戶多次短時間間隔通話。
如果用戶的通話間隔短,且較為頻繁,則可以重點分析用戶行為,如分析是否為惡意通話等。
此類用戶模型折射出的網絡問題如超頻通話、單通等。
(3)切換頻繁
切換頻繁是指用戶在較短的時間內,頻繁發生切換,且具有較高的集中度。
切換是由于用戶位置移動所導致的正常行為,但如果切換過于頻繁,且具有較高的集中度,則將成為一種網絡問題,可能會發生掉話等。
此類用戶模型折射出的網絡問題如頻繁切換等。
(4)2G/3G 重選
2G/3G 重選是指用戶在空閑狀態下,進行2G 和3G 間的異系統重選,從某種重選規律出發,可以挖掘出隱藏的現網問題。
如在3G 中的用戶,重選到2G,但在很短的時間間隔后,又回到了3G,可能是當時的3G 信號很差,重選到2G,但很快3G 信號又好轉,再次回到2G。可以利用這樣的用戶行為挖掘3G 覆蓋差的小區。
此類用戶模型折射出的網絡問題如3G 深度覆蓋問題等。
(5)2G/3G 切換
用戶發生2G 和3G 之間的切換,根據用戶的某種切換類型,可以發現現網中存在的問題。
在3G 環境下起呼的用戶,在通話時間很短的情況下,由3G 回落到2G,如起呼3G 切2G 事件。
此類用戶模型折射出的網絡問題如起呼3G 切2G 等。
(6)標志性用戶事件
標志性用戶事件是指通過統計用戶在某些失敗事件前后,其他正常事件的相關信息,可以進行相關問題的定位。
用戶在某一次失敗事件后,進行了其他成功的事件,則將那次失敗事件記為標志性事件。
此類用戶模型折射出的網絡問題如尋呼黑洞等。
3.4.2 數據業務的模型分析
(1)PDP 激活頻繁
用戶在某一段時間內頻繁發生PDP 激活事件,且有較高的集中度。
PDP 激活是WCDMA 系統用戶上網的重要流程,如果用戶在一段時間內頻繁進行PDP 激活,且失敗事件較多,則反映出網絡存在明顯異常。
此類模型折射出類似參數不合理等問題。
(2)開關機
用戶在某一段時間內,進行頻繁開關機操作。
在很多情況下,出現用戶只能進行關機—開機操作,才能上網,因此,對用戶頻繁開關機行為進行分析,能反映出存在問題的地理維度。
此類模型折射出數據業務的隱性問題。
(3)話音數據業務并發分析
用戶在話音業務過程中進行數據業務或用戶在數據業務過程中進行話音業務分析。
并發業務情況在現網中越來越多,其質量的好壞,嚴重影響用戶對網絡的體驗。
折射出并發業務存在的信令流程問題。
話音業務單通問題[4]是比較嚴重的話音質量問題,對用戶感知影響較大,目前在現網上普遍存在,各地客服經常接到此方面的投訴。單通問題可能由無線環境、鏈路接口或配置、無線/核心網設備內部機制等多種原因引起,在信令流程上與正常通話一樣,理論上只有通過對比話音業務源端和接收端的用戶面數據源才能判定,不易直接從設備內部話統或信令流程上判定,因此,在該類事件的問題定位和優化上一直缺乏系統性、成熟的方法和手段。
因此,需要針對單通問題發生原因和場景進行系統性地梳理和細分,充分利用網優支撐系統,通過用戶行為特征、單通容易發生場景等經驗知識,提出行之有效的問題定位方法和手段,開展針對性的優化,提高話音業務質量,改善用戶感知。
4.1 主要場景
單通問題考慮的主要場景包括無線環境問題、無線設備問題、核心網鏈路問題和核心網設備問題。單通問題細分場景及呈現特征見表1 所列。
針對以上各類細分場景導致的單通問題,只有核心網鏈路級問題幾乎為100%觸發,其他問題都是以一定的概率呈現,因此,只有當某個網元維度該類事件發生比率明顯大于同類網元維度時,該問題才能發現并進行處理。

表1 單通問題細分場景及呈現特征
考慮到單通事件難以直接通過信令流程、設備話統進行判定的特點,結合網優支撐系統的數據源,提出的總體思路是:
· 結合單通事件中的用戶行為特征、網元維度集中度特點對現網數據進行分析,獲取疑似單通事件評估指標;
· 針對核心網鏈路級單通事件、無線小區級單通事件等2 類現網上極易發生的典型場景,分別進行優化研究。
4.2 鏈路級單通
(1)核心思路
鏈路級單通的用戶行為判定原則:以PCM/CIC為研究對象,利用用戶行為分析指標進行疑似鏈路級單通的判斷,鏈路級單通的判斷思路如圖2 所示。

圖2 鏈路級單通的判斷思路
鏈路級單通的判定原則:當PCM 或者CIC的平均通話時長小于指定值(暫定為30 s),且通話時長分布與正常的時長分布差異較大時,判斷為疑似鏈路級單通。
以某省數據為例,對參數進行詳細說明,E口鏈路平均通話時長(全天通話次數100 次以上)鏈路數分布如圖3 所示。
從圖3 可以看出,大部分鏈路平均通話時長集中在72~125 s。需要重點關注的對象是通話時長在30 s以下的鏈路分布情況,對圖3 局部區域放大后可以得到圖4,圖4 方框中的異常突起即為需要重點分析的單通鏈路。
E口時隙、A口鏈路、A口時隙的分析思路同E口鏈路,下面分析內容中不再特殊說明。

圖3 E口鏈路平均通話時長(全天通話次數100 次以上)鏈路數分布

圖4 E口鏈路平均通話時長(55 s 以下)鏈路數分布
(2)優化流程
鏈路級單通的優化流程為:采集A口/E口CDR 數據和T 局話單數據,利用疑似鏈路級單通檢測指標進行檢測,對檢測的鏈路級單通進行撥測驗證和定位,然后進行有針對性的優化,最后進行優化的評估和模型參數修正。鏈路級單通的優化流程如圖5 所示。
(3)現網實施
針對鏈路級單通,分別在省一和省二進行了現網驗證實施。
在省一,采用全網一天的A口/E口CDR 數據,其中:
· E口鏈路46 466條,疑似單通鏈路37條;
· E口時隙約10 000個,疑似單通時隙21個;
· A口鏈路29 553條,疑似單通鏈路0條;
· A口時隙913 290個,疑似單通時隙49個。
單通鏈路中,7條為省內鏈路,經撥測驗證,全部為單通,已臨時閉塞;19條省際鏈路,需要集團協助定位;11條平臺鏈路確認為語音信箱/秘書臺等業務,通話時長由業務特性決定較短。
單通時隙中,28個A 類時隙,2個網元間的時隙配置有誤,導致這2個網元間所有鏈路的16 時隙都為單通時隙;42個B 類時隙,特定鏈路的特定時隙存在問題,與網元沒有強相關性。
在省二,采用全網一天的A口/E口CDR 數據,其中:
· E口鏈路19 069條,疑似單通鏈路17條;
· E口時隙約282 790個,疑似單通時隙36個;
· A口鏈路2 542條,疑似單通鏈路0條;
· A口時隙76 269個,疑似單通時隙49個。
除此之外,還對疑似單通鏈路對局向通話占比的影響進行了分析,如圖6 所示。從圖中的第一個柱狀條可以看到,鏈路1(即省二TMSC1-1 到省二MSS4之間)中有9.2%的單通比例,即幾乎每10 次通話中就有1 次是單通,嚴重影響用戶感知。
4.3 小區級單通
(1)優化流程
小區級單通的用戶行為判定原則:雙方第一次通話后,在很短時間內發起第二次通話。具體條件為:第一次通話時長≥T1(暫定5 s)、≤T2(暫定20 s),時間間隔≥T3(暫定0 s)、≤T4(暫定20 s)(主被叫可互換;時間T1、T2、T3、T4 可調)。

圖5 鏈路級單通的優化流程

圖6 疑似單通鏈路對局向通話占比的影響
小區級單通優化流程主要分為5個階段:單通模型構建、單通模型實現、多數據源聯合判定、指標生成和目標小區判斷以及現網優化實施,具體如圖7 所示。
(2)現網實施
針對小區級單通,在省三、省四和省五進行了現網驗證實施。
在省三,采用全網一周的綜合話單CDR 數據,利用小區級單通判斷原則進行小區級單通檢測,共得到疑似小區級單通個數為39 704個,小區級單通占比分布如圖8 所示。
針對這些疑似單通小區,對其進行了數據清洗,首先對現網采集過程中的異常數據進行了清洗;然后進行了城市維度、網絡類型維度、站點維度分析,討論了不同維度下疑似單通小區在單通占比上的分布。
為了有針對性地對單通小區進行優化,定義了TOPN 小區,即疑似性較高的N個小區。TOPN 小區的篩選原則為:
· 計算小區7天總的疑似單通占比;
· 選擇總通話次數大于100 次(統計意義上)的小區,對總的疑似單通占比進行降序排序,挑選出TOPN 小區;
· 結合小區的每天疑似單通占比輔助判定;
· 結合每個小區不重復的疑似單通號碼個數和單通次數輔助判定;

圖7 小區級單通的優化流程

圖8 小區級單通占比分布

表2 多數據源聯合判斷結果

表3 BSC 疑似單通占比分布
· 結合小區掉話率進行輔助判定;
· 結合主叫號碼平均單通次數和被叫號碼平均單通次數輔助判定。
在省四,重點對連續7天發生疑似的1 723個單通小區進行單通次數占比分析,其中,占比大于1%的小區達214個,占比大于1.5%的小區18個。對占比大于1.5%的疑似單通小區進行地理維度分析,給出了相應的GIS 圖,如圖9 所示。

圖9 7天疑似單通占比高小區分布
在省五,采集了一周的綜合話單CDR,挖掘出疑似單通小區,并將這些小區和多數據源進行聯合分析,聯合的數據源有設備告警信息、指標數據和用戶投訴信息。重點分析了單通比例在2%以上且單通發生4天(含4天)以上的小區,共337個,映射到其他數據源反映出的問題見表2 所列。
337個小區中存在明顯問題的小區個數為142個,占比43.1%,其余小區為存在疑似隱性問題的小區,后續可重點進行單通撥測。
除了對TOPN 小區進行分析之外,還對基站/RNC/BSC 疑似單通占比進行了分析,篩選出疑似基站、RNC和BSC。BSC 疑似單通占比分布見表3 所列。
從圖中可以看出,67152 和68832 兩個BSC的疑似單通占比大于2%的小區分別達到了38%和50%,基本確定其有問題。
此外,在現網的驗證過程中發現,有些小區的異常信息淹沒在一天的數據信息中,還需要將時間粒度縮小,分析每個時段小區的疑似單通占比情況,從而能夠更加有針對性地對單通進行分析。
本文研究了目前針對用戶體驗評估的主要方法,對每類方法的優缺點進行了分析,在基于信令數據挖掘分析的基礎上,結合用戶行為,提出了基于用戶感知的網絡質量評估方法,利用此方法,確立了現網鏈路級單通和小區級單通的思路,利用核心網CDR,分析了現網中的單通問題,并進行了多維度分析,給優化提供了更多渠道。
1 韓振東,蔡子龍,程曉軍.基于用戶行為數據挖掘的網絡質量優化.數據通信,2012(1)
2 郭喆.基于用戶行為的無線通信網絡綜合優化研究.華中科技大學博士學位論文,2011
3 王睿,蘇飛,韓振東等.基于用戶行為的語音業務隱性問題挖掘及優化研究.郵電設計技術,2013(6)
4 丁賽平,黃燕華.GSM用戶單通問題的分析及解決方案.中國聯通佛山分公司,2011