寇靜行 王漢英 王玉琴 尤靜靜
(地理信息工程國家重點實驗室 北京 100088)
作為地理空間大數據的重要代表,POI(Point of Interest)數據隨著互聯網電子地圖服務與基于位置服務(Location Based Services,LBS)應用的普及,無論從概念內涵與信息縱深,還是應用的廣度與深度,都有著長足發展,已經成為信息空間的參天大樹。基于POI數據的各種研究與應用,不僅便利了人們日常生活衣食住行,也為城市規劃、鄉村振興、經濟分析、能源消耗等諸多領域提供分析輔助決策,發揮著巨大經濟和社會效益。國內學者對POI 數據的研究熱度持續高漲,從中國知網相關論文數量上看,一直呈上升趨勢。面對迅猛的發展態勢,有必要對近年來POI 領域研究進行階段性總結,摸清其研究熱點,挖掘其應用潛力與發展趨勢。基于此,該文應用Citespace工具,對中國知網上2020 年以來POI 領域研究的文獻進行知識圖譜分析,梳理當前研究熱點,分析該領域研究不足與洼地,探究發展趨勢,為進一步研究奠定基礎。
POI 數據在測繪行業特指導航圖中的興趣點數據,是Point of Interest 的縮寫,在其他應用領域也有解釋為信息點,是Point of Information的縮寫,所以POI數據可根據所在的應用場景不同,可以翻譯為興趣點或信息點,泛指互聯網電子地圖中點類地理實體數據,如學校、醫院、商場、加油站、公園以及政府機構等。一般由名稱、類別、地址、坐標這4個基本屬性組成,來表達地理實體的空間位置和屬性信息。
從GIS應用層面看,POI數據可以分為基礎框架類POI 和業務應用類POI。基礎框架類POI 用于表達真實世界的基本組成要素,如城市部件、地名數據等,主要來源于國家基礎測繪成果DLG 產品中點類地圖要素矢量數據集;業務應用類POI 是根據應用場景的需要,將一些事、物進行統一建模,抽象帶有屬性的地理位置點進行管理、分析和計算,如網約車平臺系統中的上車推薦點、O2O行業中的各類門店點、導航服務中的門牌地名點數據等,該類POI數據根據GIS應用系統特點進行設計、采集、更新維護,大多時間應用的POI 數據大多是兩者的融合。
POI 數據的獲取途徑有兩種,最可靠的獲取途徑是利用信息采集設備到實地進行空間位置采集和屬性信息的調查核對,獲取時效性最好、可靠性最高的POI數據;間接方法是從百度地圖、高德地圖、谷歌地圖、Open Street Map 等開放平臺中,通過API(Application Programming Interface)接口獲取數據源。基于API 接口,一些平臺、專業測繪公司及個人已經開發出獲取POI 數據的軟件,如位和智能、BigMap、Geosharp 等[1],因其便利性成為POI數據獲取的有效途徑。值得注意的是,不同來源POI 數據所包含的信息由于表達和應用側重點不同,數據存在一定差異性,需要通過清洗、去重、融合等技術處理,形成符合要求的POI數據。
該文用于構建POI 圖譜的數據來源于中國知網(CNKI)中文學術期刊,文獻采集時間范圍為2020 年1月1日至2022年5月28日。為確保檢索結果的高度相關性,選用“篇關摘”的檢索方式,檢索詞設為“POI or興趣點”,來源類別為“SCI 來源期刊”“EI 來源期刊”“北大核心”“CSSCI”“CSCD”。在檢索到的文章中,剔除明顯相關性不強的通信技術及圖像識別等方面文獻,最后篩選得到563 篇相關論文,以Refworks 格式導出,導出內容包括標題、摘要、關鍵詞、正文、發表年份和來源等。
該文以文獻計量學為理論依據,采用知識圖譜生成技術,使用CiteSpace軟件,對檢索得到的563篇文獻數據,進行關鍵詞知識圖譜構建,以可視化方式分析近年來POI數據的研究熱點和發展趨勢。
文獻計量學作為該文研究的理論依據,它是以文獻體系和文獻計量特征為研究對象,采用數學、統計學等計量研究方法,研究文獻情報的分布結構、數量關系、變化規律和定量管理,進而探討科學技術的某些結構、特征和規律[2]。
知識圖譜是以科學知識、新興學科發展過程和發展現狀、科學知識內外部結構建立的一種圖形,以可視化方式將科學知識更為直觀、系統地展現給研究人員,容易直觀理解,易于發現未來發展方向。在關鍵詞共現圖譜中,需用到社會網絡分析方法(Social network Analysis)又稱結構分析法(Structural Analysis)。該方法是一種考慮個體之間互相依賴性的定量分析方法。社會網絡由節點和線組成,它可以直觀地展示網絡的整體結構、個人在網絡中的位置以及與其他個人的關系。社會網絡分析法在關鍵詞共現網絡分析中已得到了很好的應用,其中介中心性BCD(Betweenness Centrality Degree)可以衡量節點在網絡中的重要性。
CiteSpace軟件則是目前最具特色和影響力的知識圖譜繪制工具之一,在國內又被翻譯為引文空間,是一款著眼于分析科學文獻中蘊含的潛在知識,并在科學計量學、數據和信息可視化背景下逐漸發展起來的一款多元、分時、動態的引文可視化分析軟件[3]。
關鍵詞是對研究內容和觀點的高度概括,可凝練一篇論文的主題[4]。利用關鍵詞進行論文研究主題分析,可以掌握文章的研究目標。對大量文獻進行關鍵詞分析,得到某領域在特定時間區間內關鍵詞出現的頻率,可直觀地得到該領域內的研究熱點與發展趨勢。
利用CiteSpace 軟件,對關鍵詞進行共現分析,排除檢索關鍵詞“POI”“興趣點”“大數據”“數據挖掘”“北京市”等不影響分析的無義關鍵詞,經整理生成關鍵詞知識圖譜,具體內容如圖1所示。圖1中節點代表關鍵詞,連接兩節點的路徑代表了這兩個關鍵詞同時出現在一篇文獻中,標簽字體大小代表關鍵詞出現的頻次高低,節點大小代表關鍵詞中介中心性的強弱[5]。

圖1 關鍵詞知識圖譜
如圖1 所示,出現頻次最高且中心性最強的關鍵詞為“多源數據”,體現出POI數據的融合屬性。POI數據作為多源異構數據中的基礎數據,往往需與其他數據進行融合,才能實現時空數據的深度挖掘與分析應用:如與遙感影像數據、數據高程模型、城市感知數據、土地利用數據等融合,實現城市功能區劃分、宜居性評價、土地利用分類以及鄉村發展類型識別等;與街景數據、圖像數據、人口熱力數據、手機信令數據、車輛軌跡實時數據等融合,分析街道活力,精細化研究城市功能區,為城市規劃和運行管理提供科學評估與決策;與夜間燈光數據、人口格網數據融合,分析夜間經濟時空分布,實現城市活力評價和空間關聯性分析。
關鍵詞“影響因素”體現出POI數據分析的價值屬性。基于POI 數據分析,找到制約或促進目標問題的關鍵影響因素。比如:以POI 數據結合實地調研等方法,分析出地鐵站外部空間特征、街道可達性和區域功能混合程度是地鐵出入口客流分布的影像因素[6];綜合遙感、調查、統計及POI 數據,分析出經濟發展條件和地形起伏是生活空間宜居性的主導因素;以POI 數據為基礎,運用最近鄰層次聚類分析等空間分析方法,得出距市中心距離、游客密度、街道活力、居民密度、資源稟賦、道路密度等是影響成都市休閑旅游資源空間分布的重要因素。
“空間分布”“空間格局”“空間布局”為同義詞,與“建成環境”“土地利用”“風景園林”“城市交通”等關鍵詞,代表POI 數據熱點應用領域。近年來,基于POI數據的應用研究多圍繞城市主題,從城市整體空間格局分布到精細化街區功能與活力研究,甚至細微至地鐵出入口流量分析等,無不滲透著POI 數據基礎支撐的作用。
“深度學習”“隨機森林”“機器學習”等關鍵詞,則代表POI 數據熱門研究方法。以深度學習、機器學習等為代表的人工智能技術,應用到POI 數據的處理清洗、計算分析、智能推薦等具體工作流程中。比如:以遙感影像、人口數據、POI數據為基礎,結合深度學習技術,構建基于多源數據和深度學習的城市邊緣區判定方法[7];從不同角度對深度學習技術在用戶興趣點推薦中的研究進行綜述,在POI 推薦中使用深度學習方法解決了POI 推薦中所面臨的時空序列特征提取、內容社交特征提取、多特征整合、數據稀疏性問題處理這4 個方面問題時存在的優勢以及不足,并提出了未來通過深度學習提高POI 推薦效果的研究方向;分析深度學習方式的POI數據推薦與傳統推薦方法的區別與影響因素,總結了4 個類型的深度學習推薦POI 方式(POI 的向量化學習、深度協同過濾、從輔助內容中提取特征、利用循環神經網絡進行序列推薦),闡述了深度學習技術在這些方式中的應用效果與優勢[8]。
綜上所述,對這些熱點關鍵詞的分析,可進一步總結歸納得出,近年來國內POI 數據領域研究主要集中在POI數據的應用技術方法和應用領域這兩大方面。
從上述分析可知,近年來關于POI 數據的研究主要集中在應用領域,而對POI 數據結構本身研究的不多。目前,POI 數據生產主要來源于百度、高德、谷歌這些大型互聯網圖商,由各互聯網平臺自行規劃設計、采集、更新維護。不同圖商來源的POI數據,雖然都包含名稱、類別、地址、坐標這4個基本屬性,但其內部數據模型、數據格式及標準各不相同,給數據的共享利用帶來諸多不便。在對同名異源POI數據之間相互融合應用時,需要逐項對照進行去重,清洗冗余,才能融合有用信息,造成大量的人力、物力、財力的消耗。顯然,多源POI 數據是一種國家戰略資源,研究建立統一模型和標準規范的POI 數據結構,使各圖商按照統一標準分區生產,融合公用,能大大節約人力、物力資源,對低碳發展具有重要的意義。而如何建立有效的統一POI 數據模型,關鍵在于解決兼容不同平臺個性化需求以及自主拓展性。從近年來文獻數據上,尚未看到相關研究。
POI 數據質量大體可從現勢性、準確性、完備性、豐富性等幾個維度進行綜合評價。定位準確,信息完備且豐富、現勢性好的POI數據對提高用戶體驗,準確支撐分析具有十分重要意義。比如:POI 數據的現勢性體現出提供的地理空間信息反映當前最新情況的程度,若POI數據的現勢性不高,新鮮度不好,過期的POI數據會有損用戶體驗,甚至造成決策失誤等引起嚴重后果。研究如何增強POI 數據的現勢性,盡可能快速發現并處理已停業、搬遷、更名、拆遷的過期冗余數據,對提高POI 數據質量至關重要。從近年來文獻數據中,也較少能看到POI 數據質量保證這方面的研究論文。
從該文檢索到的關于POI數據研究方面的論文篇數、期刊種類和學術層次上看,近年來國內關于POI數據研究熱度一直持續上升,發展前景廣闊。根據以上分析總結:(1)POI 數據的應用熱點多圍繞城市主題;(2)與遙感影像、人口數據、手機信令數據、夜間燈光數據等其他多源異構數據的融合利用,可進一步拓展應用范圍,并深度挖掘目標影響因素,支撐科學決策與實施優化調整;(3)POI數據與各類機器學習算法的結合更加緊密,對識別城市邊界、智能推薦等有著新的啟示,未來可通過集成化、智能化的地理信息管理服務平臺來指導城市群的協同發展;(4)針對POI數據本身的研究是目前該領域的研究洼地,如建立統一POI 數據結構模型實現數據互通使用、增強POI 數據質量保障能力提高數據利用效能等。
隨著數字城市、智慧城市和鄉村振興事業的建設和發展需要,以及人工智能技術的逐步成熟,POI 數據的智能化采集與處理、精細化分析與應用,將會得到飛速發展,應用領域將會越來越廣,相關研究也將更加注重處理多源空間數據融合、提高空間精度、揭示各項空間功能分布特征背后的生成機理。同時,也應著聚焦到POI 數據本身的全面研究中,著眼于實現POI 數據的同名同質和個性化共存,建立統一的具有可擴展性數據模型結構,形成全國統一標準,踐行低碳發展思路。