■ 文/過敏意
過敏意,上海交通大學電子信息與電氣工程學院計算機系主任,博士生導師,致遠講席教授,國家杰出青年基金獲得者。
對多源城市大數(shù)據(jù)進行高效地融合與集成,使大數(shù)據(jù)技術轉化落地,真正推動產(chǎn)業(yè)發(fā)展。
從多源城市大數(shù)據(jù)中挖掘有用的知識,以提供監(jiān)測預警、決策支持等服務,是智慧城市建設必不可少的技術支撐,已成為全球技術競爭的制高點和下一輪信息技術發(fā)展的焦點。如何讓海量數(shù)據(jù)真正為人所用,真正推動產(chǎn)業(yè)發(fā)展,是目前大數(shù)據(jù)技術轉化落地的瓶頸。多源城市大數(shù)據(jù)遭遇難以共享等諸多困難,在使用過程中常常面臨數(shù)據(jù)低質、冗余和繁雜等問題,因此,需要對多源城市大數(shù)據(jù)進行高效地融合與集成,從而為城市大數(shù)據(jù)的計算和分析提供必要的支持。
在信息化推進和發(fā)展的過程中,很多城市的政府與公共服務部門積累了大量的數(shù)據(jù)資源,為大數(shù)據(jù)融合與集成技術的研究與發(fā)展奠定了豐富的數(shù)據(jù)基礎。然而,城市大數(shù)據(jù)具有來源廣泛、類型眾多、結構復雜、動態(tài)實時且關聯(lián)復雜等特點,難以實現(xiàn)數(shù)據(jù)的“聚、通、用”,在使用過程中遇到以下的困境:
●多源異構數(shù)據(jù)使得數(shù)據(jù)聚而不通;
●數(shù)據(jù)關系復雜,數(shù)據(jù)價值難以體現(xiàn);
●海量動態(tài)數(shù)據(jù)持續(xù)到達,數(shù)據(jù)集成壓力加劇;
●對數(shù)據(jù)缺乏理解,不能形成以數(shù)據(jù)為核心的數(shù)據(jù)應用解決方案。
高質量、高效率地解決前三個有關“聚、通”的問題,將為最后的多源城市大數(shù)據(jù)的“用”提供必要的技術支持。

多源城市大數(shù)據(jù)的異構性導致數(shù)據(jù)聚而不通。例如,城市旅游大數(shù)據(jù)來自多個不同的行業(yè)和領域,包括大量游客吃、住、行、消費能力信息,以及景區(qū)地理數(shù)據(jù)、人流情況、交通狀況等信息。這些數(shù)據(jù)結構多樣,由于采用了不同的表達模型(包括關系模型、鍵值對模型、樹模型和圖模型等),使得數(shù)據(jù)之間無法互通。如果通過多粒度的統(tǒng)一表達和優(yōu)質萃取來研究多源城市大數(shù)據(jù)的融合方法,就可以打通多源大數(shù)據(jù)壁壘。
我們可以采用統(tǒng)一表達模型刻畫并融合多源異構城市大數(shù)據(jù),將行業(yè)數(shù)據(jù)與統(tǒng)一模型進行聯(lián)系和映射,分析不同行業(yè)數(shù)據(jù)的特征,通過降維、沖突消解等技術,在統(tǒng)一模型中為它們選擇合適的表達方式,從而形成可嵌套的多粒度統(tǒng)一表達模型。考慮到實際數(shù)據(jù)采集中的種種問題,比如可能存在大量冗余或者老舊數(shù)據(jù),我們對采集的數(shù)據(jù)進行優(yōu)質萃取,構建質量評估模型,建立低質數(shù)據(jù)的冗余清洗機制,從不斷增長的海量信息中動態(tài)地選擇出有用的數(shù)據(jù)源和數(shù)據(jù)段,制定動態(tài)選擇策略。
城市大數(shù)據(jù)中的關鍵知識描述呈現(xiàn)多元化、深度化、層次化、知識關聯(lián)復雜化、隨時間演化等特點,為城市數(shù)據(jù)向城市知識的轉化帶來巨大困難。例如,城市旅游大數(shù)據(jù)的旅游知識具有層次化,包含地理位置、歷史文化等多層次因素。針對上述問題,我們需要研究多源城市大數(shù)據(jù)的深度知識融合,比如針對城市大數(shù)據(jù)中常見的非結構化文本數(shù)據(jù),研究非結構化文本數(shù)據(jù)的主題融合分析模型,設計“(動態(tài))主題發(fā)現(xiàn)、主題代表提煉”算法,并結合深度學習等實現(xiàn)時序性多源異構城市大數(shù)據(jù)的融合預測。
為了有效利用多源城市大數(shù)據(jù)中的結構信息和語義信息,實現(xiàn)多層次交叉關聯(lián)的深度融合,我們需要構建多層次知識圖譜,將結構信息和語義信息無縫地融入多源數(shù)據(jù)的特征表示模型中,并研究知識和知識關聯(lián)的進化,深入分析多層次知識圖譜的演化性質,建立進化的多層次知識圖譜。此外,上述融合分析需要對海量跨空間數(shù)據(jù)進行分布式檢索,因此要針對應用需求研究出分布式索引技術,從而高效率、高質量地訪問和查詢數(shù)據(jù)對象。
城市大數(shù)據(jù)的海量動態(tài)特點,要求對數(shù)據(jù)進行協(xié)同處理,提供全方位的集成支持,從而從系統(tǒng)層面優(yōu)化大數(shù)據(jù)平臺,使其具有良好的時效性和擴展性。具體來說,需要研究基于數(shù)據(jù)流模型的多源大數(shù)據(jù)處理系統(tǒng),通過構建數(shù)據(jù)流圖,串聯(lián)各個領域的數(shù)據(jù)資源,實現(xiàn)多源數(shù)據(jù)協(xié)同處理。
為了利用現(xiàn)有的大量移動設備、智能終端、傳感設施產(chǎn)生的海量數(shù)據(jù),我們需要研究建立云霧混合系統(tǒng)處理多源大數(shù)據(jù),將智能手機、傳感器等小型分布式的霧計算設備與中央式的云計算系統(tǒng)進行整合,實現(xiàn)協(xié)同增效,服務旅游、交通等行業(yè)。不同類型的應用對計算資源有著不同的要求,如面向社會的查詢對延遲較為敏感,而知識發(fā)掘等應用對數(shù)據(jù)的吞吐量更為敏感,所以需要針對不同的應用特征進行異構大數(shù)據(jù)的計算優(yōu)化。城市交通等行業(yè)應用由于實時性需要,對計算響應時間有較高要求,這與不斷增長的龐大數(shù)據(jù)和復雜的網(wǎng)絡產(chǎn)生矛盾。為此,我們需要設計基于軟件定義的多目標網(wǎng)絡資源調度,實現(xiàn)網(wǎng)絡傳輸和數(shù)據(jù)計算的聯(lián)合優(yōu)化。
如何更高效地融合和集成多源異構、復雜高維的數(shù)據(jù)已經(jīng)引起了研究人員極大的興趣。通過跨行業(yè)、跨部門、跨應用的數(shù)據(jù)融合與分析,實現(xiàn)了深入挖掘公共數(shù)據(jù)的價值,從而形成數(shù)據(jù)驅動的商業(yè)模式創(chuàng)新的做法也屢見不鮮。利用實時文本、時空和多媒體等異構數(shù)據(jù)融合分析的結果推動公共服務的現(xiàn)代化已經(jīng)在多個國家得到了實踐。
總而言之,融合與集成是城市大數(shù)據(jù)發(fā)展的必由之路,對融合與集成技術的研究將推動我國在大數(shù)據(jù)應用基礎理論的發(fā)展,促進城市大數(shù)據(jù)科學的發(fā)展和技術進步。