李 洪 ,周文紅 ,渠 凱 ,伍思源 ,陳思中 ,李 青
(1.中國電信集團公司網絡運行維護事業部 北京 100032;2.中國電信股份有限公司上海研究院 上海 200122)
目前,短消息業務已深入普通民眾的日常生活,但因短信時延大、成功率不令人滿意等問題給用戶帶來困擾而引發投訴,為此,國家出臺了相關的短消息業務服務質量標準。各短消息系統設備商提供的短消息業務評估功能往往因作為設備的一種輔助功能而偏弱,而且同一指標不同設備商的定義也有所差別,因此有必要在短消息系統的基礎上建立一套全網內指標定義明確的短消息業務質量的量化指標體系,用于統一評估各省、各地區的消息業務服務水平和促進短消息業務服務質量的提升。
短消息業務為非實時的信息業務,分為提交和發送兩個階段,故從主叫用戶發送短消息到被叫用戶收到短消息總有一定的時延,短消息系統所配置的最大時延即為短消息的有效期。短消息系統既可對實時提交或下發的短消息業務的各項指標進行實時計數統計,也可以在對每一條短消息的過程記錄存儲后再進行統計。實時計數統計通常反映短消息系統當前的業務負荷和影響短消息業務安全穩定的系統資源占用情況。短消息記錄的統計通常可以按短消息提交時間、短消息處理完成時間、短消息主被叫號碼、短消息發送次數、短消息最終發送結果 (成功或失敗原因)、短消息業務屬性等成分進行統計分析。
本文從短消息業務、業務質量、系統實時運行狀態、短消息用戶4個維度入手,對短消息業務質量的相關指標參數進行分析研究,提出了一套短消息業務評估指標體系。
短消息評估體系的數據來源于短消息系統產生的實時計數統計數據和短消息處理結束時的短消息記錄,涵蓋短消息的提交階段、下發階段和記錄生成階段。在下發階段,短消息業務的一個重要特征就是首發失敗后的重發;短消息的主被叫號碼可用來分析短消息的來源地和目的地;短消息的下發結果可進行短消息失敗原因分析、成功率統計分析,因而評估體系的設計會覆蓋時間維度、空間維度的各種細分業務。本質上評估體系就是對短消息系統產生的原始數據進行數據挖掘的行為,因此本評估體系在設計上就具有一定的開放性,具備自定義的分析手段,以應對運營維護在不同時期的不同需求。因此本文涉及的指標僅供參考,分析的是該指標的應用目的。
短消息系統短消息業務的統計分析有3種方式。第 1種統計是基于短消息系統存儲的短消息記錄,考慮到短消息是非實時的業務,通常按提交時間進行相關統計項目的分析。例如,統計特定時間段內的短消息成功率,是指該時間段內提交的短消息中成功發送的比率。而在該時間段內提交的短消息通常不會都在該時間段內發送成功,往往需要一定的時延進行發送或重發。從提交時間來看,該統計實際就是對短消息系統中的短消息記錄按提交時間進行過濾。第2種統計是基于短消息記錄的處理完成時間,即可以按處理完成時間對短消息系統的短消息記錄進行相關統計項目的統計分析,此外也可以獨立地對短消息系統的提交和發送進行實時統計。特定時間段內,提交短消息的情況和短消息發送的情況,相互有重疊部分,也有互不相關的部分,該時間發送的短消息不一定是該時間段提交的,該時間段內提交的短消息不一定在該時間段內完成發送。第3種統計是系統實時記錄短消息提交和下發的情況,對提交和下發不做關聯,是并行的而且是獨立統計的,這種統計方式會帶來一個問題,即統計時間段內提交的短消息數量和下發的短消息數量不相關,利用這種統計方式得到的短消息成功率有可能超過100%,但是這種統計方式在實時反映系統業務量情況以及處理能力方面是前兩種方式所不具備的。
本文著重引入基于短消息記錄的提交時間和基于實際時間的統計方式進行各指標的分析。
短消息系統業務評估從短消息提交和下發以及不同短消息業務種類等方面評估短消息的規模和成功率等。主要指標如下所述。
(1)本系統的短消息提交業務
通過統計時間段內本短消息系統終端用戶提交或成功提交的短消息條數,可以獲得短消息系統終端用戶的短消息提交成功率指標,該指標是以短消息提交時間作為統計時間段,提交失敗的原因主要為短消息系統接收到的本系統終端用戶提交的短消息無法通過用戶鑒權、路由、誤碼校驗等。目前短消息業務中出現的終端群發器對連續號段進行群發的行為導致被叫大量空號,是導致提交成功率下降的重要因素。
(2)非本系統的短消息提交業務
通過統計時間段內非本短消息系統提交或成功提交短消息系統的短消息條數,可以獲得其他短消息系統或短消息服務系統(SP)等非本短消息系統用戶提交短消息的成功率。該指標涵蓋了運營商網內異地、網間、SP等提交的短消息,短消息量一般要大于本短消息系統終端用戶提交的短消息量。
(3)本系統的短消息下發業務
通過統計時間段內提交到短消息系統中的下發和成功下發給本地SP的短消息條數,可以獲得短消息系統的短消息下發成功率,參與下發的短消息來自于本系統和非本系統的用戶提交并成功通過鑒權和路由的短消息。統計是基于短消息的提交時間而非下發時間的,為保證統計的準確性,需要使統計時間段內提交的短消息均通過提交、鑒權、路由、下發、重發最終完成處理并生成短消息記錄,這段時間允許的最大時長即為短消息的有效期。通常在提交時間段和相應短消息有效期結束后的統計是有效和準確的。
(4)系統間的短消息業務
本指標統計短消息系統間的短消息轉發成功率和短消息發送業務成功率,前者一般是指短消息在系統間轉發成功,而后者則是以被叫用戶收到短消息且在短消息系統間返回的短消息回執報告為準進行統計的。
(5)系統內終端間的短消息業務
系統內終端間的短消息通常稱為本地點對點短消息。本指標是統計本系統所屬的終端用戶間互發的短消息以及成功發送的短消息量。系統內終端間的短消息流轉的環節少,影響短消息成功率的因素集中,且一套短消息系統可覆蓋一個或幾個本地接入網絡,所以本指標可較好地用于評估進而優化本地網絡。
短消息業務是非實時的業務,但作為使用該業務的用戶,希望發送的消息盡可能快地被被叫用戶收到,即短消息時延盡可能短。而整個短消息發送的過程需要經過若干個環節,最終通過接入網絡到達被叫用戶。其中任何一個環節失敗,都會導致短消息發送失敗,但是發送失敗的短消息只要在有效期內就可以根據其失敗原因設計下一次發送的方式。例如,若被叫用戶忙(被叫用戶正在通話),可以在2~3 min后進行重發,這樣會有效地提高發送成功率,但發送時延就會進一步增長。用戶可以承受的時延往往在一定范圍內,因而要從重發次數、特定時延下的成功率、首次發送成功率、多次重發成功率等指標來分析評估用戶的業務感知。
(1)失敗原因統計
通過對統計時間段內提交到短消息系統下發給本系統終端用戶的短消息中的各失敗短消息進行統計,并按失敗原因分類,獲得各類失敗原因的占比以及其他未知原因的占比。這類統計通常基于短消息記錄,因而統計的是最終失敗原因。失敗原因通常可以分為用戶側原因、網絡側原因和無線側原因。用戶側原因通常是指用戶終端所處的特定狀態,如關機或鑒權失敗、不支持短消息業務等;網絡側原因是指在有線網絡中的某個環節失敗;無線側原因是指移動類終端到基站之間的信號覆蓋區域內的覆蓋信號弱、其他信號干擾等。
(2)短消息重發機制評估
通過對統計時段內提交到短消息系統的、下發給本系統終端用戶的各條短消息生成的記錄中短消息的發送結果和發送次數進行分類統計,可以得到按提交時間段統計的短消息發送次數以及短消息成功發送次數,從而分析出平均每條短消息重發的次數以及短消息成功發送的平均次數,該指標可以評估短消息系統的重發機制的優化程度。重發次數的增加一般會增加短消息系統的負荷,而重發的目的是提高短消息發送成功率,重發成倍地增加了短消息的時延,通過對以上指標的分析進行短消息系統的參數重配置,在成功率、時延上達到平衡和兼顧。
(3)短消息時延評估
本指標側重用戶短消息業務時延感受,對于用戶定時下發的短消息其首發時延定義為用戶定義的定時下發時間至完成首次下發時間的時間間隔,其他情況以短消息提交時間至完成(首次)下發時間的間隔為準。也可以通過統計時間段內提交到短消息系統的短消息中自提交時間到處理完成時間的時間間隔在1 min內 (含1 min)、1 h內(含1 h)、超過1 h成功下發的短消息條數,從而獲得短消息1 min成功率、1 h成功率等指標。
系統實時運行狀態涉及短消息系統的設備處理能力以及短消息系統實際處理短消息的情況。每秒處理短消息條數是系統擴容依據之一,它隨著業務量及用戶量增長而增長;忙時緩存的短消息條數峰值綜合反映了無線側承載能力、重發機制設置合理性和業務流量等因素。本部分指標評估特定時間段內短消息系統正在下發和提交的短消息業務狀態,對短消息系統提交和下發的各項短消息指標進行實時計數統計。
(1)短消息實時下發情況
本指標是指統計時間段內短消息系統下發給終端用戶的短消息(成功)次數,反映短消息系統在統計時間段內實際的短消息發送次數和成功次數,成功次數數值上等于短消息(成功)條數。這樣,就可以獲取系統在不同時段的按次下發成功率。通常閑時的成功率會高于忙時的成功率,因為在忙時,終端用戶使用短消息業務的頻次大大增加,而無線側的信道資源以及信號覆蓋區域有限,都會影響短消息系統的短消息下發按次成功率。
(2)失敗原因實時統計
本指標是統計時間段內短消息系統下發失敗的短消息的各類失敗原因的統計,實時記錄統計時間段內各次下發失敗的原因。短消息記錄中的失敗原因,是最后一次下發的失敗原因,而此處是統計每次下發失敗的原因。
(3)短消息系統資源占用情況
短消息系統CPU/內存占用率峰值為統計時間段內的CPU占用率最大值,短消息系統中如存在多臺服務器的情況,可以通過網管在統計時間段內對各服務器按要求頻次統計CPU/內存占用率,取其中最大值,反映了短消息系統硬件資源的實時占用情況。
(4)短消息處理能力
本指標是指短消息系統設計的每秒最大處理短消息條數以及統計時間段內實際處理的各個方向短消息條數,用以評估系統當前的業務負荷是否正常。
(5)短消息的緩存
本指標是指短消息系統能存放的尚未處理完成的短消息條數峰值或統計時間段內實際存放的尚未處理完成的短消息條數峰值。需緩存的短消息是指短消息系統首發待發的短消息、重發待發的短消息、等待回執報告的短消息,在節假日高峰時短消息緩存會超警戒而需人工干預。
短消息系統用戶評估反映短消息系統用戶規模和用戶使用短消息業務的量化數據,評估短消息系統的注冊用戶規模及一定時期內注冊用戶中使用短消息業務的用戶量及頻次,主要指標包括短消息系統的注冊用戶數(注冊短消息業務的用戶)、活動用戶數(統計時間段內使用過短消息業務的用戶數量)、人均發送短消息次數。
基于短消息業務質量評估體系,筆者進行了評估系統的設計,系統的組網架構如圖1所示,短消息系統將實時計數統計和短消息記錄兩類原始數據周期性地通過FTP方式上傳至短消息業務質量評估系統。短消息業務質量評估系統對兩種類型數據文件進行分析處理,采用前文建立的評估指標體系對數據進行處理,從“時間維度”、“用戶維度”、“地理緯度”、“業務維度”、“系統維度”和“用戶感知維度”等多維度展現分析數據。
短消息業務質量評估系統的結構自下而上設計為數據接入、數據預處理、數據存儲、數據分析和數據展現5層,如圖2所示。數據接入層通過FTP服務接口接收來自各短消息系統的數據文件,對實時計數統計數據文件和短消息記錄數據文件進行分揀,并完成對數據文件及時性、完整性的驗證,實時監控數據文件質量。經過驗證的數據文件,被傳送至預處理層進行處理。預處理層將實時計數統計數據文件分析傳送至數據存儲層中的可配置的數據模型中。短消息記錄數據是大量的原始業務信息,預處理層需要對這些數據進行快速號段匹配和維度預處理,從原始業務信息中分析轉換有價值的信息。例如,從主被叫號碼分析得出主被叫歸屬的運營商、省份、地市信息。預處理層對該層的所有操作進行監控,以保證數據質量。存儲層采用高可用性架構和高可擴展性架構的數據庫作為基礎數據存儲引擎,以滿足海量短消息記錄數據的存儲需要和短消息系統的靈活擴容需要。分析層以短消息業務模型為基礎,采用業界先進的大數據處理方法,結合關聯分析和維度分析,以實現對短消息業務質量評估的全面數據支撐。
經過分析后的數據,在展現層通過多維分析報表的方式展現給用戶,提供以專題方式呈現的短消息業務質量評估數據,主要包括運行質量專題、用戶感知專題、業務發展專題、關聯業務專題和場景監控專題等,并能夠根據用戶實際需要靈活定制特殊場景專題。
該評估體系在中國電信集團公司現網運行以來,由于采用統一的標準,解決了不同廠商短消息系統指標定義的差異問題,評估被各地區運維人員所認同,積極查找發現本地區短消息業務開展中存在的質量問題,大力提升本地區的短消息業務質量指標排名,使得全網短消息業務指標在短時間內有了顯著的提升,促進了各地區的無線網絡優化工作,同時也提升了移動通信業務中語音和數據的業務質量。
圖1 短消息業務質量評估系統
圖2 短消息業務質量評估系統的結構
建立短消息評估體系并應用于現網,便于從宏觀上把握全網的短消息業務運行狀態,及時獲悉各地區的業務發展的差異,并反饋到相關的短消息系統以便進行短消息網絡和設備的優化,對提升移動通信業務尤其是短消息和互聯網數據的業務質量有著積極的意義。
1 中國電信集團公司.CDMA短消息中心技術要求補充規范,2011
2 中國電信集團公司.中國電信業務平臺集中監控系統北向接口規范——CDMA短消息中心數據采集分冊,2011