《“十四五”數字經濟發展規劃》指出數據要素是數字經濟深化發展的核心動力.數據系統負責了數據采集、清洗、標注、脫敏、分享等環節的全生命周期管理,已經成為數字經濟時代的關鍵基礎設施.隨著各行各業數字化轉型的深入,企業或組織數據采集的規模越來越大,數據系統需要進一步降低存儲和計算成本,實現降本增效.面對開放環境,數據系統需要同時支持大規模關鍵業務處理和實時分析.數據分享能夠打破數據孤島,實現價值分享,數據系統需要從底層提供原生的隱私計算能力.為了快速發掘和充分利用數據價值,數據系統還需要為上層人工智能應用提供全面支持.面對上述需求,亟需研究和推出數據系統的新技術.
《華東師范大學學報(自然科學版)》2023 年第5 期推出的“數據系統”專輯,呈現了國內外數據管理和分析系統的前沿研究成果,探討如何更好地利用新型硬件提升數據系統的存儲和計算能力、如何實現數據系統對多模態數據的有效存儲和管理等問題.本刊選登的工作還包括支持實時業務處理和實時數據分析的新型數據系統架構、數據驅動的機器學習系統的構建方法、數據分析的行業應用案例等內容.專輯采用邀稿和征稿相結合的方式組織稿件,所有稿件均通過了通信評審,最終確定錄用稿件16 篇,并將其分為數據庫系統、數據學習系統以及數據分析3個專欄.以下分別對3 個專欄做簡要介紹.
數據要素的高質量供給離不開高性能、易擴展數據基礎設施的支撐.數據庫系統專欄共錄用5 篇論文.《基于持久化內存和共享緩存架構的高性能數據庫》探討了云原生場景下的高性能數據庫,設計并實現了基于持久化內存和共享緩存架構的數據庫系統,解決了云原生數據庫持久化速度慢,緩存目錄高延遲以及時間戳性能瓶頸問題.《數據同步機制自適應優化的HTAP 數據庫原型系統》分析了HTAP 應用對數據一致性的多樣化需求,構建了新鮮度與性能權衡的代價模型,實現了一個順序一致性同步與線性一致性同步自適應切換的HTAP 數據庫原型系統.《面向存算分離架構的混合粒度緩存策略》探討了基于存算分離架構的分析型數據庫中的緩存機制,通過對象和塊構成的混合緩沖區解決計算層和存儲層數據存取粒度不匹配的問題,進一步提升緩存利用率.《存算分離架構下Part 元數據的單獨管理策略》分析了大型分析型數據庫中的Part 元數據管理問題,通過分布式鍵值數據庫高效管理大規模Part 元數據,提升了存算分離架構下大規模數據庫的彈性能力.《基于模糊測試生成多樣化的數據庫隔離級別測試案例》針對數據庫系統的隔離級別測試問題,設計結構化的測試輸入結構,將測試空間拆分成并發事務組合和并發事務執行交互模式兩個子空間進行搜索,能夠生成更加多樣化的案例,提升了隔離級別測試的覆蓋率.
通過機器學習,企業可以快速挖掘數據的價值,提升自身的智能化水平.數據學習系統專欄共錄用6 篇論文.《FeaDB:基于內存的多版本在線特征存儲》探討了數據驅動的人工智能應用的特征管理環節,聚焦低延遲特征檢索問題,開發了基于內存的多版本在線特征存儲FeaDB,提升了特征集版本檢索效率.《支持隱私保護的端云協同訓練》針對數據學習中的數據安全與隱私保護問題,利用端側設備和云側服務器的優勢,設計了一個基于FederatedMachineLearning 與MobileNeuralNetwork 的端云協同訓練方法FedMNN,并通過實驗驗證了端云協同訓練的有效性.《基于openGauss 的異構算子加速技術》探索如何使用GPU 加速openGauss 的OLAP 處理過程,實現了基于分塊讀取和按鍵分發的CPU-GPU 協同并行方案,兼容向量化引擎的異構算子加速技術,原型系統顯著減少了GPUScan算子的I/O 時間,提升了分析型查詢的性能.《基于UI 圖像的Web 前端代碼自動生成》針對現有代碼生成工作對于UI 圖像特征捕捉能力弱,生成代碼的準確性較低的問題,提出了基于SwinTransformer的Encoder-Decoder 模型image2code,使得從UI 圖像生成Web 前端代碼具有更好的表現.《異構編碼聯邦學習》針對異構聯邦學習中掉隊設備導致的訓練低效問題,提出了異構編碼聯邦學習系統,提高了系統的訓練效率,加快了多掉隊者場景下的異構聯邦學習訓練速度,并且提供一定級別的數據隱私保護.《基于并行深度森林的配用電通信網絡異常流量檢測》針對配用電通信網絡異常流量檢測效率低,檢測精度不足的問題,通過針對性的特征提取方法和分類算法考慮配用電網絡通信特點,顯著提升網絡異常流量檢測性能.
近年來人工智能和硬件技術的快速發展為各行各業的數據價值釋放帶來了新機會.數據分析專欄共錄用5 篇論文.《基于Autoformer 的電力負荷預測與分析研究》探討了智能電網中的電力負荷精準預測問題,論文基于自相關機制的預測模型Autoformer,對負荷數據集進行了領域相關的特性分析,通過針對性優化網絡結構和訓練參數實現了周期靈活的負荷預測.《基于空間域和頻率域方法的煙霧檢測》針對工業應用中煙霧檢測既要保證低誤檢率,同時也要盡可能降低漏檢率的問題,論文提出了一種新的煙霧檢測方法,分別在空間域和頻率域進行煙霧檢測,實現了誤檢率和漏檢率的良好平衡.《基于DataFabric 的多模數據管理方法》探討了政府和企業數字化演進過程中產生的多模數據管理面臨的挑戰,分析了DataFabric 數據管理技術和方法針對該挑戰的解決方案,論文提出了基于時序指標的多模多源數據的異常監測方法,通過聯合使用DataFabric 的技術提升異常檢測性能.《新型電力系統中基于人工免疫和隱馬爾可夫的網絡安全態勢評估》首先分析了高級量測系統對網絡信息基礎設備的依賴.針對存在的網絡安全問題,論文提出了基于隱馬爾可夫模型結合人工免疫算法去評估高級量測系統的網絡安全態勢,能夠更加準確地捕獲和發現系統中存在的安全缺陷.《基于殘差網絡和深度可分離卷積增強自注意力機制的竊電識別》在ResNet 殘差網絡結構的基礎上,將2D 卷積神經網絡與DSCAttention 深度可分離卷積增強的自注意力機制相結合,用于促進竊電用戶的正確分類,與其他竊電分類模型相比,論文設計的模型具有更好的性能表現.
本專輯的出版正值華東師范大學數據科學與工程學院成立七周年之時,也是學院前身“數據科學與工程研究院”成立10 周年紀念之日,謹以此專輯為數據科學與工程學院賀歲,并對長期關心與支持數據科學與工程學院發展的各位同仁表示最衷心的感謝.最后在專輯出版之際,謹在此誠摯感謝提供優質稿件的各位作者和參與稿件評審的各位專家學者,特別感謝《華東師范大學學報(自然科學版)》編輯部各位老師的辛勤工作與大力支持.希望本專輯為數據系統新技術的研發提供一個窗口,助力數字基礎設施優化升級,推進高質量數據要素供給和產業數字化、智能化轉型.