李友煥,鄒磊
北京大學計算機科學技術研究所,北京 100080
圖數據流是最近幾年才受到廣泛關注的前沿科研領域,其興起主要是源于新時代下移動應用實時產生的大規模復雜數據。
過去十幾年,隨著智能手機的普及以及移動互聯網的發展,移動應用層出不窮。這些應用涉及即時通信、社交網絡以及網絡購物等各個方面,并實時地產生大量的數據。這些數據本質上是現實世界人、事、物及其交互的一種深入量化。對這些數據的及時分析與挖掘能夠產生高價值的信息,進而改進人們生活的多個方面。例如,微信、微博等社交網絡上有龐大的活躍用戶,這些用戶對社交網絡而言更像是分布在各地的“傳感器”,將各自的活動區域內的熱點見聞“報告”在社交網絡上。如在地震等自然災害發生時,人們可以通過社交網絡實時傳遞和獲取相關的災情[2]。因此,這些應用數據具有極大的分析研究價值。
盡管移動應用數據蘊含著高價值的信息,但這些數據卻具有結構復雜、規模龐大、高速增長等特點。人們對不同應用有不同的需求,這決定了移動應用數據是復雜多樣的,而針對同一應用產生的數據,不同的數據分析方也會有不同的數據需求。例如,針對社交網絡的數據,研究社交心理的人更關注用戶以及用戶間的好友關系與交互行為,而廣告媒體的從業人員則更關心平臺上發文內容中的產品或話題信息。……