

摘要:隨著寬帶中國、三千兆改造、提速降費等戰略部署,河南聯通家寬用戶上行帶寬不斷提高,部分投機商戶利用業務漏洞采用匯聚捆綁等技術手段,通過路由器、智能網絡盒子等帶有PCDN功能的設備,為抖音、嗶哩嗶哩、京東等廠家提供邊緣計算加速服務,賺取帶寬租賃的收益。文章基于大數據賦能實現PCDN業務識別技術研發,實現對大規模匯聚捆綁帶寬干擾網絡良性發展行為的管控。
關鍵詞:PCDN;DNS;數據建模;匯聚捆綁;寬帶速率稽查
Research and Development of PCDN Business Identification Technology Based on Big Data Empowerment
XIANG Chaojun, DUAN Junna, LIU Qian, LUO Wangdong, BAI Jie, WEI Lipeng
(China Unicom Henan Branch, Zhengzhou 450045, China)
Abstract: With the national strategic deployment of \"broadband China\", \"three gigabit transformation\", \"speed increase and fee reduction\", Henan Unicom's broadband users' uplink bandwidth has been continuously improved. Some speculative merchants use business loopholes to provide edge computing acceleration services for manufacturers such as Tiktok, bilibili, JD, etc. through routers, intelligent network boxes and other devices with PCDN functions by means of convergence bundling and other technical means, so as to earn profits from bandwidth leasing. This article is based on the empowerment of big data to develop PCDN business identification technology, and to control the benign development behavior of large-scale aggregation and bundling bandwidth interference networks.
Key words: PCDN; DNS; data modeling; gathering and bundling; broadband speed inspection
0" 引言
河南聯通存在大量的PCDN違規運營業務,嚴重拉低了運營商IDC資費水平,消耗大量的網絡上行流量。由于PCDN承載的業務內容不受監管,網絡和信息安全方面風險極大[1]。本項目基于大數據賦能實現運營商對PCDN賬戶的發現、承載業務的標簽、違規捆綁小區的識別、寬帶業務的稽核,提升了信息安全事件的回溯監管能力,為前臺市場部門提供數字化支撐手段。
1" "家寬PCDN業務識別思路
河南聯通建設了統一的PCDN業務識別分析系統,具備分權分域功能通過大數據技術對全省寬帶用戶的違規行為進行識別、分析。
1.1 PCDN用戶的識別
河南聯通寬帶用戶規模超1 000萬,每日產生海量的域名解析數據、寬帶認證日志、BSS信息。系統通過算法設計和數據建模,構造了PCDN賬戶識別模型,通過設定合理閾值,識別全省家寬用戶中有PCDN行為的賬戶。
1.2 PCDN業務的標記
系統分析市場上多種終端用戶盒子的DNS域名特征,建立PCDN業務標簽庫[1],結合寬帶認證信息關聯用戶賬戶,通過對用戶的標簽能力增強了系統識別的準確性。
1.3 匯聚小區的識別
根據已識別的PCDN用戶,結合BSS信息數據,建立多個寬帶帳戶匯聚算法模型,對全省PCDN賬戶進行捆綁匯聚分析,重點識別小區級多線路匯聚的違規運營行為,增強了對各市寬帶帳戶行為的核查、管控能力。
1.4 寬帶賬戶的稽核
建立用戶帶寬利用率違規統計算法模型,實現對全省寬帶用戶的多撥行為、管理人員私改寬帶接入速率等行為的稽查能力。系統從寬帶資源安全角度出發,對寬帶賬戶的歷史流量數據進行分析,形成了賬戶帶寬利用率的智能畫像,在出現寬帶實際使用速率超簽約速率的情況時,方便主動支撐前臺市場部門開展稽核,對違規用戶及時關停和追責。
1.5 數據可視化
系統通過表格和多種圖形化方式展現PCDN用戶、PCDN業務標簽、匯聚PCDN小區、寬帶利用率違規分布的情況,展示維度包括違規賬戶數據詳情、地市分布情況、數量變化情況、PCDN業務標簽情況等。
2" "PCDN行為識別算法模型設計
基于大數據分析技術的PCDN識別系統是根據用戶的DNS請求數量、上行流量用量、特征域名解析IP匹配(PCDN業務標簽)、小區信息綜合匹配的(寬帶賬號捆綁匯聚分析),通過多維度的數據建模,準確地對用戶行為進行畫像,滿足河南全省聯通家寬的PCDN行為識別需求。另外,系統根據帶寬利用率信息,綜合匯總出帶寬利用率超100%用戶,此類用戶可能存在多撥或其他違規情況。
2.1 PCDN賬戶識別算法模型
根據PCDN賬戶業務特性,此類賬戶會先緩存PCDN業務資源至“路由器”或“盒子”,在本地區其他正常用戶有訪問PCDN業務資源需求時,PCDN管理端調度本地緩存資源提供服務,此類PCDN賬戶的重要特征為日上傳流量特別大、DNS解析量少。通過對河南聯通活躍寬帶賬戶實際使用行為特征進行統計分析,選定兩個維度數據:日DNS解析量、日上行流量總量,設定相應閾值,作為識別PCDN賬戶判斷依據[2]。
2.2 PCDN業務標簽識別模型
在通常情況下,域名解析結果IP會落到IDC業務IP段、阿里云、騰訊云等云廠商服務地址段,而承載PCDN業務時,某些域名解析結果IP會是家寬IP地址段。例如,抖音xxxx.idouyinvod.com,該域名解析結果IP為河南聯通某家寬公網IP地址,可以確定此家寬公網IP背后某賬戶承載抖音PCDN業務,結合具體的時間、公網IP的端口號,可以找出具體承載某項PCDN業務的寬帶賬戶,并給該賬戶打上對應業務標簽。
2.3 帶賬號捆綁匯聚分析
同一小區用戶通過終端接入設備OLT,統一接入河南聯通家庭寬帶網絡,在BSS日志中nas ip、slot、port、svlan字段相同的寬帶賬戶,可認定為在同一小區,根據此信息建立算法模型,可對有PCDN行為的賬戶分析處理,找出在同一小區匯聚捆綁的PCDN賬戶列表。
2.4 寬帶利用率違規識別模型
根據PCDN業務標簽識別模型中“周期內流量使用量算法”,可參考得出日、周(特定時間段內)流量使用總量,對周期內帶寬使用速率超簽約值行為進行監控,統計出周級別賬戶違規天數詳單,每日實際上行帶寬使用率等情況[2]。
3" "系統的設計和實現
基于大數據分析技術的PCDN識別系統,通過寬帶用戶DNS訪問日志信息、AAA日志信息、BSS日志信息對用戶行為進行深度挖掘分析,建立PCDN行為特征識別庫。現已識別并學習到約30種PCDN特征域名信息,已內置進分析系統,后期可通過繼續自動學習和手工設置PCDN域名及標簽,來分析更多PCDN承載業務。
系統通過有機地融合自行研發的查詢引擎和分布式系統架構,提供對PCDN用戶的快速定位能力和寬帶用戶上網行為的詳細統計分析匯總報表展示。
基礎數據模塊通過探針采集的方式從DNS服務節點上采集DNS日志,SFTP方式接收聯創廠家傳送的AAA日志、BSS日志,并將采集到的數據傳送給數據存儲模塊。
數據存儲模塊將采集到的信息通過數據處理按照統一格式保存在分布式文件系統內。在數據保存前,需要進行重復數據的清理、增量數據保存、垃圾數據清理、備份策略制定等步驟,保證數據的更新和準確。
云資源管理及協作平臺從DNS端采集數據,結合AAA日志信息、BSS日志信息,通過分布式計算平臺的任務調度和分析系統查詢引擎對核心數據進行檢索、分析、數據挖掘和定位等處理,按照不同的分析模式對相關數據進行統計分析,并將分析結果保存到雙活的CLICKHOUSE數據庫,同時負責分布式環境中各服務器的資源調度及管理。
自學習云計算框架將系統預置的定期分析任務或用戶界面下發的分析要求,根據分析原語翻譯為機器語言及代碼,并將執行代碼下發到分布式計算環境中進行處理,以便獲取最終的分析結果。
擴展接口模塊提供多種協議的開放接口,最大限度地提升與第三方系統的聯動能力,其他系統可方便地通過這些接口獲取所需的分析數據、及時得到缺陷通知等。
4" "系統的應用
基于大數據分析技術的PCDN識別系統目前已推廣至全省18個市分公司使用,成為河南聯通寬帶網絡維護、資源管理、運維稽查工作中的重要支撐手段,取得了良好的效果。
系統通過算法設計和數據建模,對河南聯通1 000多萬活躍寬帶賬戶進行分析,日均交叉處理分析約4 000億條DNS日志、AAA日志和BSS日志信息。經過算法模型匹配,每周匹配閾值的異常PCDN賬戶約13 000多個,匯聚的PCDN賬戶約9 000多個,全省匯聚捆綁的小區約600個,匹配業務標簽的PCDN賬戶數約4 000個。寬帶利用率超限的違規賬戶每周提取1 400多個。
4.1 PCDN賬戶分析
系統對全省寬帶用戶PCDN行為進行深度分析,通過設置篩選條件查詢選定范圍內的所有寬帶用戶詳單信息,詳單信息中包括的數據有賬號、地市、解析量(DNS)、上行流量、上行帶寬、上行帶寬利用率、下行流量、下行帶寬、下行帶寬利用率、是否為PCDN賬戶、是否為捆綁行為用戶、匹配到的業務標簽、日期、匹配到的捆綁小區,可導出有PCDN行為的賬戶詳單至本地。
4.2 PCDN小區分析
系統通過設置篩選條件查詢選定范圍內的所有PCDN小區詳單信息,根據匯聚分析算法可以分析出具體的PCDN小區詳單,詳單信息中包括的數據有小區IP、槽位(slot)、端口(port)、svlan、地市、小區內PCDN賬號數量(點擊可跳轉賬號詳單)、捆綁的寬帶賬號數(點擊可跳轉賬號詳單)、小區內匹配到承載業務標簽的PCDN賬號數(點擊可跳轉賬號詳單)、該小區的PCDN業務標簽匯總集合、日期,可導出有PCDN行為的小區詳單至本地。
4.3 寬帶速率稽核
從河南聯通寬帶賬戶帶寬資源使用率角度出發,對全量寬帶賬戶的上行速率進行監控,統計一周時間段內出現上行帶寬利用率超100%的違規記錄。通過設置篩選條件,查詢選定范圍內的所有上行帶寬使用率違規用戶,詳單信息中包括的數據有賬號、地市、一周時間段內違規天數、查詢時間段內每日的上行帶寬利用率詳細數值,可導出寬帶速率稽查詳單至本地。
4.4 違規業務識別
根據對市面常規的PCDN運營盒子和全省寬帶用戶的域名解析分析,系統已識別發現30多種承載PCDN業務運營的標簽,內置系統違規識別數據庫。各市運維人員也可以根據在實際稽核檢查中發現的新特征域名,手工添加至違規監測識別數據庫,實現對新PCDN業務的迭代更新,監測域名支持模糊查詢手動錄入、同時支持Excel表格導入監測域名,滿足批量添加的需求。
5" "結束語
通過家寬PCDN業務識別系統的研發和使用,從大數據分析維度建立了河南聯通家寬業務違規行為的數字化發現能力,解決了河南聯通寬帶市場亟待識別和分析PCDN違規業務運營的問題。本系統實現了全省PCDN用戶的自動識別,匯聚捆綁小區的自動發現,按全省、地市、小區維度分權分域實現PCDN用戶的帶寬、利用率的統計分析和寬帶業務速率超限的稽核能力。系統提高了河南聯通對全省寬帶用戶違規運營行為的發現和監管能力,為前臺政企、IDC等部門提供市場發展決策參考依據,提升了維護人員的工作效率和企業效益,系統可復制性、可推廣性良好。
參考文獻
[1] 陳杲,王彬,張沛,等.基于專用盒子的P2P CDN系統[J].郵電設計技術,2019(7):15-18.
[2] 陳永鑫.基于P2P+CDN技術利用家庭寬帶上行帶寬構建低成本的邊緣加速節點[J].通訊世界,2020, 27(11):57-58, 145.
作者簡介:項朝君(1979-),男,漢族,青海西寧人,高級工程師,碩士,研究方向為IP網、智能城域網、承載網、網絡安全、域名及認證等支撐系統。
段俊娜(1980-),女,漢族,河南開封人,高級工程師,碩士,研究方向為IP網、承載網、多云承載等。
劉" "倩(1987-),女,漢族,河南鄭州人,高級工程師,碩士,研究方向為IP網、智能城域網、承載網。
羅望東(1976-),男,漢族,河南新縣人,高級工程師,學士,研究方向為IP網、網絡安全、DNS。
白" "潔(1982-),女,漢族,新疆烏魯木齊人,高級工程師,學士,研究方向為政企業務、網絡信息及數據安全、網絡及科技創新、數字化系統等。
魏利朋(1981-),女,漢族,河南宜陽人,高級工程師,碩士,研究方向為IP網、智能城域網、承載網。