基于云平臺的批量話單快速解碼方法

2023-06-08 08:10:08武小波李建林

現(xiàn)代計(jì)算機(jī) 2023年8期

武小波，李建林

（1.中國電信山西分公司，太原 030006；2.山西應(yīng)用科技學(xué)院，太原 030006）

0 引言

漫游話單是用戶離開本省使用移動終端通話產(chǎn)生的使用記錄，因記錄落在漫游省，需要通過編碼處理后，利用特殊途徑回傳給用戶歸屬省進(jìn)行處理。隨著用戶數(shù)量和出省使用量的增加，漫游話單量持續(xù)增加，對本地處理系統(tǒng)的性能考驗(yàn)越來越高，目前的漫游話單處理系統(tǒng)以集中物理數(shù)據(jù)庫為基礎(chǔ)，對漫游話單數(shù)據(jù)進(jìn)行統(tǒng)一解碼處理，需要將配置文件預(yù)先設(shè)置在數(shù)據(jù)庫，處理話單時批量讀取配置到緩存進(jìn)行讀取，整體處理時效在分鐘級，其性能會隨著數(shù)據(jù)量的增加而逐漸降低，且系統(tǒng)擴(kuò)充涉及到的修改量和擴(kuò)容費(fèi)用龐大，影響了系統(tǒng)對漫游話單的解碼處理速度［1］。

本文提供了一種基于云平臺的快速處理批量編碼話單的方法，利用分布式計(jì)算技術(shù)和文件存儲技術(shù)，取消傳統(tǒng)物理庫加緩存機(jī)制，達(dá)到快速處理編碼話單的能力。

1 技術(shù)應(yīng)用

1.1 云平臺

云平臺是應(yīng)用廉價的服務(wù)器，在不同機(jī)房搭建的分布式處理集群，云平臺搭建時采用分層架構(gòu)，即Iaas、Paas、Saas 三層。Iaas 層屬于硬件資源層，使用統(tǒng)一的管控平臺進(jìn)行資源管理；Paas 層是組件層，統(tǒng)一搭建數(shù)據(jù)庫、緩存、中間件等，進(jìn)行組件資源的統(tǒng)一分配；Saas 層部署應(yīng)用，采用主備方式進(jìn)行應(yīng)用的搭建，確保應(yīng)用使用的安全［2］。

本文討論的云平臺是使用內(nèi)網(wǎng)方式組網(wǎng)，通過內(nèi)部交換機(jī)安全、可靠地傳輸數(shù)據(jù)［3］。云平臺分為三層四個部分，最下面的一層為Iaas的硬件資源層，包括基礎(chǔ)硬件資源層和資源調(diào)度層，基礎(chǔ)硬件資源層提供服務(wù)器資源、網(wǎng)絡(luò)資料、存儲資源等系統(tǒng)運(yùn)行的基礎(chǔ)硬件環(huán)境，資源調(diào)度層實(shí)現(xiàn)對基礎(chǔ)硬件的管理和控制，可以實(shí)現(xiàn)對硬件資源使用率的彈性計(jì)算，能根據(jù)應(yīng)用的需求實(shí)現(xiàn)資源的靈活分配，可以對資源進(jìn)行動態(tài)的擴(kuò)縮容管理；第二層為組件運(yùn)行的Paas 層，有進(jìn)行數(shù)據(jù)存儲的分布式數(shù)據(jù)庫，文件存儲的分布式文件系統(tǒng)，用于處理消息的分布式消息中間件，實(shí)現(xiàn)數(shù)據(jù)臨時訪問的分布式緩存，進(jìn)行任務(wù)調(diào)度的組件，還有用于平衡應(yīng)用處理的負(fù)載均衡組件；第三層為應(yīng)用部署的Saas 層，應(yīng)用有采集中心、預(yù)處理中心、剔重中心、批價中心四個，其構(gòu)成了系統(tǒng)對外的統(tǒng)一應(yīng)用能力；除了三層功能外，系統(tǒng)架構(gòu)還設(shè)計(jì)了運(yùn)維管理部分，用于對各層的監(jiān)控，建立規(guī)范約束，進(jìn)行日常的安全管理，實(shí)現(xiàn)運(yùn)維操作。其結(jié)構(gòu)如圖1所示。

圖1 云平臺總體結(jié)構(gòu)

1.2 分布式云計(jì)算

傳統(tǒng)運(yùn)營商的話單存放在集中搭建的物理數(shù)據(jù)庫上，數(shù)據(jù)統(tǒng)一存放在磁盤上，集中部署的資源以共享為主，包括CPU 處理器、內(nèi)存資源、存儲設(shè)備等，資源依賴于一個商用的操作系統(tǒng)進(jìn)行管理。雖然已經(jīng)出現(xiàn)的固態(tài)硬盤、閃存硬盤等高性能硬件，帶來了數(shù)據(jù)存儲、讀取的速度提升，但是依然存在海量數(shù)據(jù)讀寫性能瓶頸、數(shù)據(jù)災(zāi)備恢復(fù)時間長等問題［4］。隨著對外服務(wù)質(zhì)量要求的提升，利用云資源實(shí)現(xiàn)從集中式到分布式的變革成為新的要求，云資源可以部署在集中或分布式的數(shù)據(jù)中心上面，由物理集群或虛擬計(jì)算資源組成，實(shí)現(xiàn)集中式的磁陣計(jì)算向分布式云計(jì)算發(fā)展成為趨勢［5］。在分布式計(jì)算中，處理器資源和內(nèi)存資源，可以相互緊耦合，也可以虛擬化實(shí)現(xiàn)松耦合，資源通過管理工具實(shí)現(xiàn)共享，分布式計(jì)算由一個分布式管理系統(tǒng)和眾多獨(dú)立自治的服務(wù)器組成，各自擁有獨(dú)立運(yùn)行的內(nèi)存，相互通過計(jì)算機(jī)網(wǎng)絡(luò)實(shí)現(xiàn)信息交互［6］。

分布式的云計(jì)算系統(tǒng)建立在大量自治的服務(wù)器節(jié)點(diǎn)上，節(jié)點(diǎn)之間通過SAN、LAN 或WAN 網(wǎng)絡(luò)，實(shí)現(xiàn)跨網(wǎng)絡(luò)層級方式的互連。本系統(tǒng)采用內(nèi)存存取的分布式云計(jì)算系統(tǒng)，基于物理內(nèi)存存儲和讀取數(shù)據(jù)，訪問性能高，將數(shù)據(jù)統(tǒng)一存放在物理內(nèi)存中，可以充分利用內(nèi)存訪問的超強(qiáng)速度優(yōu)勢，實(shí)現(xiàn)快速的I/O 交互。分布式部署，可以承載的數(shù)據(jù)量大，應(yīng)用部署在互通網(wǎng)絡(luò)的多個節(jié)點(diǎn)上，對外可以提供統(tǒng)一的訪問入口［7］。采用文件形式組織數(shù)據(jù)結(jié)構(gòu)，文件存儲是將話單依據(jù)業(yè)務(wù)類型，直接解析放到文件中，不再放到傳統(tǒng)物理數(shù)據(jù)庫中，數(shù)據(jù)會以單條信息的形式存儲在文件夾中，正如將幾張紙放入一個文件袋中一樣。當(dāng)需要訪問該數(shù)據(jù)時，計(jì)算機(jī)通過相應(yīng)的路徑查找［8］。存儲在文件中的數(shù)據(jù)會根據(jù)數(shù)量有限的元數(shù)據(jù)來進(jìn)行整理和檢索，這些元數(shù)據(jù)會告訴計(jì)算機(jī)文件所在的確切位置，它就像是數(shù)據(jù)文件的庫卡目錄［9］。

依據(jù)摩爾定律的發(fā)展，服務(wù)器的硬件費(fèi)用逐年降低，其運(yùn)算速度逐年提高，應(yīng)用系統(tǒng)充分利用分布式云計(jì)算的快速部署、高速計(jì)算、動態(tài)擴(kuò)展能力，加上文件存儲的豐富多樣性，將極大提升對漫游話單的處理效率［10］。

1.3 話單編碼技術(shù)

為了確保話單的安全傳輸，運(yùn)營商的話單普遍采用ASN.1 編碼技術(shù)，ASN.1（abstract syn?tax notation one）是一種抽象語法標(biāo)記，它定義了抽象數(shù)據(jù)類型形式標(biāo)準(zhǔn)，是一種通用的用于表示數(shù)據(jù)層次的數(shù)據(jù)結(jié)構(gòu)。抽象語法讓使用者可以根據(jù)實(shí)際需要定義數(shù)據(jù)類型，并指明這些數(shù)據(jù)類型的值。ASN.1使用一整套正規(guī)的格式來描述對象的結(jié)構(gòu)，實(shí)際使用過程中不管語法上的指代，也不管如何執(zhí)行，這種語法標(biāo)記不關(guān)心執(zhí)行的應(yīng)用程序。

2 快速解碼設(shè)計(jì)

漫游話單處理需要經(jīng)過采集、預(yù)處理、剔重等環(huán)節(jié)，各個環(huán)節(jié)需要讀取配置信息，才能正確對話單進(jìn)行解析。本文采用內(nèi)存分層多單元并行處理方法，改變傳統(tǒng)漫游話單采集、預(yù)處理、剔重信息置于物理庫的方式，直接將采集、預(yù)處理、剔重的解析信息部署在云平臺，利用分布式計(jì)算速度快的優(yōu)勢并行計(jì)算解碼程序，將各個環(huán)節(jié)的操作時間壓縮至秒內(nèi)。

2.1 設(shè)計(jì)思想

將服務(wù)器的內(nèi)存塊邏輯分層，一層存放內(nèi)存文件數(shù)據(jù)，將解碼信息存放此單元，用于批量話單的解碼檢索、解碼信息存放。一層存管理網(wǎng)絡(luò)文件數(shù)據(jù)，用于記錄通過網(wǎng)絡(luò)傳輸?shù)奈募畔ⅲＵ衔募幚聿恢貜?fù)。一層進(jìn)行數(shù)據(jù)處理，用于根據(jù)上兩層信息快速進(jìn)行文件中的話單解碼。處理過程中充分利用分布式計(jì)算的快速、安全特性，對話單文件實(shí)現(xiàn)類似流水操作。

2.2 整體架構(gòu)

本方法快速解碼話單原理圖，如圖2 所示，該系統(tǒng)包括20 個處理模塊M1，M2，…，M20，每個模塊中都包括內(nèi)存文件數(shù)據(jù)庫單元A，網(wǎng)絡(luò)文件管理單元B以及相連的數(shù)據(jù)處理單元C，其中A1表示第一內(nèi)存文件數(shù)據(jù)檢索單元，B1表示第二網(wǎng)絡(luò)文件數(shù)據(jù)管理單元，C1 表示第三數(shù)據(jù)處理單元。處理主機(jī)分為1主2備模式，一臺主機(jī)進(jìn)行處理操作時，另外兩臺主機(jī)進(jìn)行同時備份操作，出現(xiàn)主機(jī)宕機(jī)問題影響話單的解碼流程時，兩臺備份主機(jī)沒有主次備份區(qū)別，直接接管進(jìn)行操作。

圖2 整體架構(gòu)

處理流程為，通過兩級查詢處理生成當(dāng)前索引記錄的查詢結(jié)果，將所有查詢結(jié)果發(fā)送查詢請求的網(wǎng)絡(luò)文件數(shù)據(jù)管理單元B。網(wǎng)絡(luò)文件數(shù)據(jù)管理單元B，用于存儲話單文件，以及為各數(shù)據(jù)處理單元C 分配目錄文件。數(shù)據(jù)處理單元C，用于進(jìn)行解碼程序的操作和運(yùn)行，以及執(zhí)行分配給自身的任務(wù)，收集自身及本系統(tǒng)其他正常工作的數(shù)據(jù)處理單元C的執(zhí)行結(jié)果。

具體處理步驟如下：

步驟1：將漫游話單文件中的通話記錄的索引存儲到云平臺的內(nèi)存文件單元A中。

步驟2：將需要處理的話單文件存儲到網(wǎng)絡(luò)文件管理單元B中。

步驟3：數(shù)據(jù)處理單元收到查詢請求后，轉(zhuǎn)發(fā)給內(nèi)存文件數(shù)據(jù)庫單元A。

步驟4：內(nèi)存文件數(shù)據(jù)庫單元查找符合條件的索引記錄，返回查詢結(jié)果。

步驟5：數(shù)據(jù)處理單元C 將查詢結(jié)果作為一批次任務(wù)，分配給自身及系統(tǒng)中其他正常工作的數(shù)據(jù)處理單元。

最后將上述執(zhí)行結(jié)果進(jìn)行匯總處理后返回，結(jié)果落地為文件，之后進(jìn)行剔重等環(huán)節(jié)操作。

2.3 集群部署

本系統(tǒng)部署在高可用的集群上，采用間隔5公里的雙中心雙機(jī)房搭建集群。集群搭建需要利用一組服務(wù)器，服務(wù)器作為一個整體向用戶提供所需資源，這些單獨(dú)的服務(wù)器系統(tǒng)就是集群的節(jié)點(diǎn)。集群的部署需要具備高可用，高可用集群的部署是為了使集群的整體服務(wù)的質(zhì)量高，能保障應(yīng)用的連續(xù)運(yùn)行，以便減少因服務(wù)器硬件和軟件的運(yùn)行故障所帶來的損失。如果應(yīng)用運(yùn)行的某個節(jié)點(diǎn)故障，它的備用節(jié)點(diǎn)將在幾秒鐘的時間內(nèi)接管業(yè)務(wù)。高可用集群通過智能調(diào)度機(jī)制，保障業(yè)務(wù)程序?qū)ν馓峁┓?wù)的不間斷，把因?yàn)檐浖⒂布纫蛩爻霈F(xiàn)的故障對業(yè)務(wù)的影響降低到最小程度。集群部署架構(gòu)如圖3所示。

圖3 集群部署架構(gòu)

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)搭建集群測試框架整體效果，實(shí)驗(yàn)基于Python3.6.8，應(yīng)用Zookeeper 進(jìn)行集群資源調(diào)度，話單解碼使用C++完成撰寫，使用Python作為測試編程語言。配置參數(shù)見表1。

表1 集群配置

表2 實(shí)驗(yàn)結(jié)果

3.2 實(shí)驗(yàn)數(shù)據(jù)

在實(shí)驗(yàn)中，為規(guī)避數(shù)據(jù)異常丟失的風(fēng)險，提高數(shù)據(jù)的安全性，服務(wù)器集群采用一主兩從部署，主服務(wù)器存儲磁盤中的文件X，另外兩個文件副本將同時存儲在備服務(wù)器。當(dāng)主服務(wù)器所在物理設(shè)備發(fā)生故障，文件X 在主服務(wù)器上不能被訪問，但是存儲在另外兩個服務(wù)器上的文件副本可以被正常訪問，文件系統(tǒng)仍能正常對外提供文件X 的數(shù)據(jù)。由此可以增加系統(tǒng)的可靠性，數(shù)據(jù)的安全性。

內(nèi)存文件數(shù)據(jù)檢索單元A 用于存儲話單文件中的通話記錄的索引，用于查找符合查詢條件的索引記錄，并逐條讀取符合查詢條件的索引記錄中的特征字段和文件名字段，使用地市ID 和用戶ID 組成的兩層查詢條件，精確分配給各個正常工作的網(wǎng)絡(luò)文件數(shù)據(jù)管理單元，以及執(zhí)行分配給自身的任務(wù)，收集自身及上述其他正常工作的網(wǎng)絡(luò)文件數(shù)據(jù)管理單元B的執(zhí)行結(jié)果。

根據(jù)當(dāng)前任務(wù)，網(wǎng)絡(luò)文件數(shù)據(jù)管理單元中查找相應(yīng)的話單文件，并在找到的話單文件中查找對應(yīng)的通話記錄，即當(dāng)前網(wǎng)絡(luò)文件數(shù)據(jù)管理單元根據(jù)收到的位置信息，讀取其中的漫游話單記錄內(nèi)容并匯總，將匯總結(jié)果返回給數(shù)據(jù)處理單元C。上述漫游話單記錄的索引包括主被叫號碼、通話起止時間、通話記錄在話單文件中的偏移量以及上述話單文件在上述網(wǎng)絡(luò)文件管理單元中的文件名等。

數(shù)據(jù)處理單元C 通過解碼文件在本地索引記錄中查找符合查詢條件的索引記錄，逐條讀取符合查詢條件的索引記錄中的偏移量字段和文件名字段，生成解碼結(jié)果。最后判斷本次收到的任務(wù)是否執(zhí)行完畢，若是，則匯總上述目錄文件的位置信息。

分布式系統(tǒng)運(yùn)行的性能有多個衡量的指標(biāo)，常用的系統(tǒng)吞吐量用TPS（transactions per sec?ond，每秒事務(wù)數(shù)）測量，其它度量指標(biāo)還包括網(wǎng)絡(luò)延遲、任務(wù)響應(yīng)時間等。系統(tǒng)自身運(yùn)行的消耗通常包括指令編譯的時間、操作系統(tǒng)的啟動時間、I/O 讀取數(shù)據(jù)速率和程序運(yùn)行時指令交互系統(tǒng)消耗，業(yè)務(wù)運(yùn)行時還需要考慮服務(wù)的QoS、可靠性和系統(tǒng)可用性，以及系統(tǒng)安全運(yùn)行的能力，這些指標(biāo)都需要綜合分析。

3.3 實(shí)驗(yàn)結(jié)果和分析

以10 萬漫游話單處理進(jìn)行對比，分布式計(jì)算采用雙節(jié)點(diǎn)部署，每個節(jié)點(diǎn)5臺服務(wù)器組成集群。對比現(xiàn)有整體程序單節(jié)點(diǎn)10臺服務(wù)器處理，新架構(gòu)因?yàn)椴捎梅植际秸{(diào)度，直接讀取內(nèi)存庫數(shù)據(jù)，利用內(nèi)存分層進(jìn)行漫游話單解碼，10萬條話單的處理效率從之前的5分鐘縮短到了30秒。

4 結(jié)語

本文探索了利用云平臺的分布式計(jì)算，解決運(yùn)營商支撐系統(tǒng)處理批量漫游話單解碼效率低的問題。本方法通過分層并行的處理模式，快速將漫游數(shù)據(jù)進(jìn)行分層處理解碼，各個處理單元并行處理其各自獨(dú)立信息，優(yōu)化加速整體處理流程和速度。實(shí)驗(yàn)表明：利用云計(jì)算快速部署、快速計(jì)算的特性，將話單全程存放在文件中，批量處理話單的效率從分鐘級提升到秒級，提升了運(yùn)營商對外服務(wù)的感知。

現(xiàn)代計(jì)算機(jī)2023年8期

現(xiàn)代計(jì)算機(jī)的其它文章: 基于HLS的MobileNet加速器實(shí)現(xiàn); 基于RBF函數(shù)的茶飲數(shù)據(jù)分析與預(yù)測; 高校智能化實(shí)訓(xùn)管理系統(tǒng)的研究與設(shè)計(jì); 基于區(qū)塊鏈與星際文件系統(tǒng)的電子證據(jù)存證研究; 基于數(shù)字孿生的空軍機(jī)場消防保障需求分析; 高精度三維視覺技術(shù)在智能制造上的應(yīng)用研究