陳 雷,王宏志,童詠昕,高 宏
1(香港科技大學 計算機科學與工程學系,香港 999077)
2(哈爾濱工業大學計算學部,黑龍江 哈爾濱 150001)
3(北京航空航天大學 計算機學院,北京 100191)
近年來,支撐人工智能的數據管理與分析技術正成為大數據和人工智能領域研究的熱點問題之一.利用和發展數據管理與分析理論技術,為提升人工智能系統全生命周期的效率和有效性提供基礎性支撐,必將進一步促進基于大數據的人工智能技術發展與其在更大范圍的推廣應用.本專刊聚焦在數據管理與人工智能融合發展的過程中,數據庫技術對人工智能的優化支撐作用,包括兩方面:(1)傳統數據管理分析的理論技術對人工智能的數據和計算過程的優化;(2)傳統數據管理系統設計理念對開發通用且易用型人工智能平臺的促進作用.因此,需要利用和發展現有數據庫理論,構建形成新的技術和系統經驗.專刊重點立足于數據庫核心技術,探討數據管理與分析技術對人工智能研究發展推動作用,特別是數據管理分析的理論技術對人工智能在數據和計算密集環節的優化,以及數據管理系統設計理念與開發經驗對構建通用型人工智能平臺的促進作用,重點關注數據管理與分析技術對人工智能在數據存儲、算法優化、模型管理、模型服務、系統構建等方面的支撐作用.
本專刊公開征文,共收到投稿36 篇.論文均通過了形式審查,內容涉及支撐人工智能的數據管理、分析、系統與應用.特約編輯先后邀請了 60 多位專家參與審稿工作,每篇投稿至少邀請2 位專家進行評審.稿件經初審、復審、NDBC 2020 會議宣讀和終審共4 個階段,歷時6 個月,最終有17 篇論文入選本專刊.根據主題,這些論文可以分為5 組.
《支撐機器學習的數據管理技術綜述》從數據管理的視角對機器學習訓練過程進行解構和建模,從數據選擇、數據存儲、數據存取、自動優化和系統實現等方面,綜述并提出支持機器學習數據管理的若干關鍵技術挑戰.
《數據庫內AI 模型優化》提出一種“預篩選+驗證”對AI 模型推理進行優化的框架,分析探討了決策樹等多個機器學習模型的優化技術,并通過擴展SQL 支持了決策樹訓練與推理,所提出的方法能夠對“借助決策樹模型推理結果對數據進行篩選”的應用場景起到較好的加速效果.
《圖嵌入算法的分布式優化與實現》提出一種通用的分布式圖嵌入框架,將圖嵌入算法中的采樣流程和訓練流程進行解耦,并設計了一種基于參數服務器的模型切分嵌入策略,從而大幅減少分布式計算中的通信開銷.
《時序圖節點嵌入策略的研究》提出了一種對時序圖節點進行自適應嵌入表達的方法ATGEB.結合信息在時序圖中的傳播特征,提出一種自適應方式對其活躍時刻進行聚類,并設計了雙向多叉樹索引結構和節點采樣策略,在時序圖中節點間時序可達性檢測以及節點分類等問題上取得很好的實驗效果.
《面向企業數據孤島的聯邦排序學習》提出了一種面向企業數據孤島的聯邦排序學習框架,并設計了交叉分割的聯邦學習策略、基于略圖的隱私保護技術和聯邦半監督學習方法,進而驗證了所提方法的有效性.
《多區間速度約束下的時序數據清洗方法》提出了多區間速度約束下的時間序列數據修復方法,并采用動態規劃方法來求解最優修復路徑,進而驗證所提出方法的可行性和有效性,特別是其可提升人工智能結果質量.
《基于Motif 聚集系數與時序劃分的高階鏈接預測方法》提出了一種基于Motif 聚集系數與時序劃分的高階鏈接預測模型,通過同時結合網絡中高階結構的聚集特征與網絡結構演變信息,提升預測效果與性能.
《面向時空圖建模的圖小波卷積神經網絡模型》提出了一種新的時空圖建模圖小波卷積神經網絡模型,通過結合圖小波卷積層和擴展因果卷積層捕獲時空圖節點間屬性特征的相關性,并設計了利用自適應鄰接矩陣從數據中動態學習隱層空間依賴關系的有效方法.
《捕獲局部語義結構和實例辨別的無監督哈希》提出了一種基于語義結構保持和實例分辨力的深度無監督哈希學習框架.其對語義結構進行學習的同時也指導哈希編碼學習,并被驗證可有效提升哈希編碼的辨識力.
《用于表格事實檢測的圖神經網絡模型》提出用于表格事實檢測的圖神經網絡模型,利用表格的結構特征結合圖注意力網絡和圖卷積神經網絡,設計了以表格的行為單位的Row-GVM 和以表格的單元格為單位的Cell-GVM,進而證明所提方法的高效性.
《PandaDB:一種異構數據智能融合管理系統》提出了基于智能屬性圖模型的分布式數據融合管理系統PandaDB,該系統實現了結構化/非結構化數據的高效存儲管理,并提供了靈活的AI 算子擴展機制,具備對多元異構數據內在信息的即席查詢能力.
《KGDB:統一模型和語言的知識圖譜數據庫管理系統》研發了統一模型和語言的知識圖譜數據庫管理系統KGDB,提出統一的存儲方案,解決了無類型三元組的存儲問題,并實現了兩種不同知識圖譜查詢語言的互操作,進而驗證該系統比gStore 和Neo4j 節省30%的存儲空間,查詢速度最高可提高2 個數量級.
《基于Seq2Seq 模型的SparQL 查詢預測》 研究如何利用已有的信息進行知識圖譜的查詢預測,從而進行數據的預加載與緩存,提高系統的響應效率,提出了將SparQL 查詢提取為序列形式的方法,使用Seq2Seq 模型對其進行數據分析和預測,并使用真實的數據集對方法進行測試,實驗表明所提出的方案具有良好的效果.
《LFKT:學習與遺忘融合的深度知識追蹤模型》針對學生遺忘行為對其知識掌握程度的影響,提出了融合學習與遺忘的深度知識追蹤模型LFKT.通過結合4 個影響知識遺忘因素,采用深度神經網絡可實時追蹤由學生遺忘造成的知識水平變化過程.
《多尺度時序依賴的校園公共區域人流量預測》提出了一種基于深度學習的多尺度時序卷積網絡MSCNN 以對校園公共區域人流量進行預測.通過在真實校園環境測試,所提出模型的預測效果優于其他已有的校園區域人流量數據預測方法,特別在捕獲多尺度時序模式方面更具優勢.
《基于人工智能方法的數據庫智能診斷》研究了OLTP 數據庫在實際運行時可能遇到的異常,分析了這些異常和一系列監控指標之間的影響關系,提出了一種智能的數據庫異常診斷框架AutoMonitor,包括數據庫異常監測、異常指標提取和根因分析這3 個模塊,并部署在PostgreSQL 數據庫,實驗結果表明該框架對于異常診斷具有較高的精確度,并且不會對系統性能造成太大的影響.
《GPU 數據庫核心技術綜述》綜述了以GPU 計算為核心的數據庫系統(GDBMS)發展歷程,深入剖析GDBMS 的四大核心組件:查詢編譯器、查詢處理器、查詢優化器和存儲管理器,并展望了其與人工智能、時空數據分析、數據可視化、商務智能等領域的交互應用.
本專刊主要面向數據庫、數據挖掘、大數據、機器學習、信息檢索等多領域的研究人員和工程人員,反映了我國學者在支撐人工智能的數據管理、分析、系統與應用領域最新的研究進展.感謝《軟件學報》編委會和數據庫專委會對專刊工作的指導和幫助,感謝專刊全體評審專家及時、耐心、細致的評審工作,感謝踴躍投稿的所有作者.希望本專刊能夠對支撐人工智能的數據管理、分析與系統相關領域的研究工作有所促進.