焦旭
談及通信行業類的國有巨頭時,人們往往第一印象都是一個“穩”字,甚至說其“保守”都不為過。
2018年,三大運營商都在圍繞如何實現高質量通信發展而布局。所謂高質量通信,就是要做到網絡設施更智能、業務生態更豐富、資源配置更科學、運營管理更高效、用戶質態更好、收入質量更高、客戶體驗更優。這一切都離不開IT系統和硬件的升級改造。
記者有幸走訪了中國電信四川分公司(以下簡稱:四川電信),探尋其是如何對傳統IT系統進行升級改造,又是如何實現高質量通信發展。
面對挑戰,創新勢在必行
高速增長的業務對中國電信的各項支撐系統,特別是位于核心的計費系統,提出了嚴峻考驗,在人口密集、業務繁忙的四川省尤為明顯。
而隨著電信業務日趨多元,以及信息通信技術加速融合,四川電信為能夠實時響應市場需求,持續推出“抖音無線流量卡”、“9元隨心卡”等創新產品和業務,在為用戶帶來更多優惠和豐富多樣的消費選擇時,這些新業務往往具有跨網絡、多產品捆綁以及組合營銷的特點,并涉及了大量賬務優惠產生的流量贈送、話費分攤、定向減免等數據。這些數據對實時性和準確性有著非常嚴苛的要求,給四川電信的基礎運營設施,尤其是計費系統帶來了巨大挑戰。
四川電信企業信息化部基礎平臺技術經理李華向記者介紹時表示:“我們現有的IT系統主要集中在計費和CRM上。近年來,IT數據快速膨脹,計費是占比最大的。在極端情況下,有時需要一天處理7千萬用戶、千億級別的話單。其次, 隨著電信從2G到3G到4G,未來實現5G,每次跨代處理數據量都有5~10倍的增加。2019年,我們還要做到計費在每月1號出賬,這對計費要求的時延變低了,而數據量變高了,怎么解決這個問題是目前最大的挑戰。可以說,I/O情況是最大的瓶頸,亟待解決。”
四年歷程,效果立竿見影
發現問題,就立刻解決。記者了解到,從2014年開始四川電信就著手對傳統IT系統進行升級改造,并“大膽”嘗試新技術新硬件。
早在2014年,四川電信就同英特爾展開技術合作,開始引入分布式存儲和SSD改造原有硬件架構。直到目前,雖然業務數據量年年快速增長,但四川電信的IT系統已連續4年未采購集中存儲。這在以前是難以想象的,數據顯示,在2014年以前四川電信IT系統每年集中存儲的采購量在500TB到1PB之間。
從2016年開始,四川電信對核心數據庫進行分布式存儲改造,用以解決集中式存儲始終存在的一些瓶頸,釋放現代SSD存儲的優異性能。2017年完成了整個CRM核心數據庫的分布式存儲改造。到2018年上半年,實現計費賬務核心數據庫的分布式存儲改造,并再次引入英特爾傲騰產品和技術,用來彌補傳統NAND SSD存在的一些短板,從而避免極端情況下的系統故障。目前,四川電信在PAAS平臺上已經大規模使用了NAND SSD+傲騰的產品組合。
四川電信資深技術專家胡杰指出:“擁有7000萬用戶,每個月各種話單處理量在900到1000億之間,數據的快速膨脹和業務時效要求越來越高。從目前運行的情況來看,I/O是我們遇到的最大瓶頸,也是我們要引入NAND SSD+傲騰的原因。”
胡杰坦言:” 傳統運營商是比較保守的,他們對SSD的部分性能抱有一些疑議,對可靠性也比較擔憂,還是傾向于使用傳統陣列。相對而言,我們在這方面走得比較激進一些,我個人來說比較傾向用最簡單、最有效的技術,來解決我們目前面臨的I/O性能瓶頸。從實際應用來看,在極端性情況和高要求的場景下使用NAND SSD+傲騰是非常適合的。“
回顧幾年來對IT系統的升級改造,胡杰感觸良多。“作為四川電信的IT部門,我們叫做企業信息化部。IT系統的升級改造過程中,很多小系統在用滾動的方式推動升級改造。而針對比較核心的系統、有I/O壓力的系統,我們都大膽地使用分布式存儲和SSD的方式改造。下一步,因為有些系統隨著技術和市場進步會自動消亡,如果使用新系統的話,我們就會采用新技術,盡量去掉Oracle DB,采用分布式架構數據庫,像PG或者是MySQL集群這種方式來盡量避免不再使用集中存儲。對于SSD我們會繼續大規模使用,因為現在看I/O的吞吐需求每年都在以幾何級數增長。不管是傳統系統還是大數據系統都增長很快。”胡杰表示。
一定要以實際數據說話
在被問及為什么多年來一直堅持與英特爾合作,并始終選擇最新的產品和技術時,胡杰說:”我們就是以具體生產系統的實際數據來說話,經過大量的在線測試,選擇性能更好、穩定性更高、投入產出比更優的技術和硬件。“
從四川電信目前的計費數據庫來看,每天都要進行海量的寫入,最極端的情況下,一塊SSD一天會被擦寫十遍。胡杰表示:” 如果還使用傳統NAND SSD,可能一年左右就會被報銷(DWPD數據比較好的情況是3左右),但是用傲騰(DWPD可以達到60)以后,在整個生命周期當中不用再擔心這個壽命問題。其次,我覺得傲騰最大的優點,就是高I/O情況下,長期進行大數據量的寫入,依然能保持極其穩定的時延。“
如圖所示,胡杰向記者展示了當天截取的數據分析,因為大量的寫入,在普通NAND SSD上可以看到,一段時間內NAND回收機制被觸發時讀寫時延會顯著變長,有些情況下,甚至出現了秒級時延,系統進程處于等待I/O完成的狀態。而在使用傲騰時,表示延遲的紅線非常平緩,其余NAND SSD則出現了巨大峰值(普通SSD時延)。而且在采集時延對比數據時,傲騰上面承載的IOPS比傳統SSD高很多。對于企業級用戶來說,傲騰的這些優勢十分重要。
胡杰還指出,目前絕大部分運營商的數據庫還是基于傳統的集中式存儲架構。根據參考OracleDB一體機架構,使用RDMA+NVMe SSD,在沒有完成整個系統的分布式架構改造之前,已可以解決數據庫極高I/O的問題,是目前比較理想的架構。
此外,記者還了解到,四川電信正在對NVMe over Fabrics進行性能評測,從測試數據看,性能將有40%到60%的提升。胡杰表示,隨著NVMe over Fabrics的不斷成熟,這樣不但在存儲側采用傲騰等新技術來提升存儲處理能力,還在網絡側優化存儲傳輸的效率,未來將大規模使用這種技術,并與英特爾一起對其潛力進一步深挖。