王強,丁恩俊,劉愿理
1.西南大學 圖書館, 重慶 400715 ; 2.重慶工商大學 工商管理學院, 重慶 400067
大數據、云時代的到來為地理科學研究提供了新的機遇和挑戰. 1999年中國科學院聯合19個部委主持召開國際數字地球會議, 2019年, 國際數字地球學會中國國家委員會在北京召開“首屆中國數字地球大會”, 中國科學院地理科學與資源研究所建立了多個國家級野外觀測研究網絡和科學數據中心[1]. GoodChild[2]于2012年發表論文“Next-generation Digital Earth”, 程昌秀等[3]指出大數據對地理學的研究方法、研究進展提供了新的挑戰和機遇, 王戈飛等[4]利用相關數據對大規劃、地理信息系統、地理信息產業發展等領域進行了分析研究. 綜上, 這些研究從某種程度上說明數據在地理科學研究領域扮演著不可或缺的角色.
數據已被廣泛應用于教學科研、管理、生產生活的方方面面, 科學合理地使用數據對提高科研水平、推進創新等具有重要作用. 如, 在教育研究領域, 張穎超[5]就大數據對高等教育發展影響進行了系統的分析; 任一明等[6]指出大數據對高等教育的研究、創新、發展發揮著巨大的影響. 在哲學研究領域, 黃欣榮[7]研究發現, 數據將成為科學研究的新對象, 大數據可能帶來科學研究范式的變革, 數據解釋將成為科學說明的新模式; 董艷麗[8]對大數據所涉及的哲學內涵進行挖掘. 在經濟學領域, 麥肯錫研究機構肯定了大數據對于提升各個商業領域價值創造力的巨大潛能, 世界經濟論壇甚至將大數據定義為類似于黃金或貨幣一樣的新經濟資產, 李國杰等[9]指出, 在未來科技及經濟社會發展進程中, 大數據將扮演重要角色. 在地理學科領域, 楊振山等[10]與甄峰等[11]指出, 大數據的發展對完善人文—經濟地理學學科思維和研究方法將起到積極的推動作用; 馬振剛等[12]研究了自然地理學的大數據源及相關變革; 裴韜等[13]揭示了地理大數據的本質特點, 對地理大數據挖掘方法進行了分類.
綜上研究大多是從如何利用數據以及如何應對大數據對學科發展帶來的機遇、挑戰等方面進行研究, 而基于文獻內容計量學分析視角, 系統梳理某一學科領域內數據來源的識別、歸類及應用特征的文獻較少. 基于此, 本文采用文獻分析計量與編碼相結合的方法對地理學研究領域中的數據名稱進行識別、分類, 探索這些數據獲取方式以及在地理學科領域中的應用特征, 以期為地理學學科發展及相關研究提供參考.
本文選取同時被中國社會科學引文索引(CSSCI)、中國科學引文數據庫(CSCD)收錄, 且具有較好代表性的《地理學報》《地理科學》《地理研究》《地理科學進展》和《經濟地理》5種期刊2000年以來發表的所有論文為樣本, 采用人工編碼與數據抽取相結合的方法對這些論文所使用的數據進行標識、分類, 探究地理學科領域數據獲取方式及應用特征.
在中國知網(CNKI)檢索獲取上文所述5種地理學核心期刊刊載的中文文獻的題錄信息, 包括題名、作者、關鍵詞、摘要、發表時間等, 采用高級檢索方式進行檢索, 檢索式為: 文獻來源= (地理學報 + 地理科學 + 地理研究 + 地理科學進展 + 經濟地理); 檢索時間跨度為2000年1月1日至2021年12月31日. 共獲取文獻24 974篇, 剔除圖書推介、刊物簡介、會議紀要、講話、通知、賀詞等文章, 共獲取可編碼文獻24 903篇.
第一步, 因文獻題錄信息總數據量較大, 由2名編碼人員在充分熟悉編碼方案后, 采用人工編碼和自動抽取相結合的方式對數據名稱進行編碼, 在參考地理科學研究常用數據相關文獻的基礎上[14-16], 對所獲取的題錄信息按照編碼方案進行識別、統計分析, 具體的編碼方案見表1至表3, 主要處理步驟如下.
由2名編碼人員對選取的《地理學報》所載的6 037篇論文進行人工編碼, 通過進一步討論形成數據名稱詞集合, 編碼完成后對編碼結果進行信度檢驗, 使用編碼交互判別信度K計算編碼的一致性[17].


第二步, 使用Visual Basic對數據名稱詞集合與題錄信息內容進行自動識別匹配, 若數據名稱集合中的詞與題名、關鍵詞及摘要等內容的詞實現完全匹配, 則對該文獻自動編碼, 形成自動編碼的數據名稱數據集.
第三步, 對于利用數據名稱集合無法自動識別編碼的文獻, 采用人工編碼的方式完成文獻的編碼. 最后, 對每類數據名稱的出現頻次進行統計分析.
3.1.1 人文地理學
人文地理類數據來源主要類別有經濟地理、人口地理、娛樂地理、城市地理、交通地理. 統計發現, 出現頻次前10的數據名稱有就業類數據、產業企業類數據、貿易數據、交易消費數據、人口統計類數據、旅游數據、房價地價類數據、快遞物流數據、客運貨運數據、經濟狀態類統計數據. 從以上統計數據及表1可知, 人文地理類數據品目種類多、來源豐富, 且與人類生產生活密切相關.
3.1.2 自然地理學
自然地理學數據來源類別主要有大氣候、地形地貌、水文、植物地理, 由于自然地理學本身更加注重自然地理環境的組成、形成發展及空間分異規律研究, 出現頻次較高的數據有溫度氣溫類數據、氣候氣象類數據、水汽溫度類數據、地表河流地形類數據、水土水沙類數據、水質水位數據、降水降雨類數據、森林植被類數據. 從以上統計數據及表2來看, 自然地理環境要素與人類活動的關系越密切, 就越容易受到關注, 相關的研究及數據也會越多, 如氣溫溫度、氣候氣象、水位水質等.

表1 人文地理學數據識別及歸類

表2 自然地理學數據識別及歸類
3.1.3 地理信息科學及其他
對識別出的地理信息科學數據名稱進行統計分析發現, 其數據來源主要類別有環境地理、農業地理、人地關系、能源、衛星遙感、位置定位等, 出現頻次靠前的數據名稱有空氣質量類數據、氣體排放類數據、農作物類數據、土地利用變更類數據、能源資源類數據、衛星遙感類數據、位置定位類數據. 從以上統計數據及表3來看, 地理信息科學數據品目種類多, 與人類生產、生活相關的數據出現頻次較高, 數據獲取的方式有衛星遙感、圖像攝像、數據庫、網絡平臺.

表3 地理信息科學及其他數據識別及歸類

續表3 地理信息科學及其他數據識別及歸類
3.2.1 高頻使用數據類型
對樣本期刊所刊載的789種數據類型名稱在論文中的分布情況進行統計發現, 約33.2%的數據類型僅被1篇論文使用, 30.1%數據類型被5篇或5篇以上的論文使用. 依據使用頻次統計, 地理學使用頻次靠前的數據名稱有面板數據、遙感影像、調查數據、TM數據、空間數據、遙感數據、Landsat數據、NDVI數據、人口普查數據、MODIS數據、觀測數據、土地利用數據、歷史文獻數據、POI數據、ETM數據、氣象數據、影像數據、降水數據、企業數據、DEM數據、人口數據、統計年鑒、實測數據、監測數據、氣溫資料、SPOT數據、百度數據、夜間燈光數據.
3.2.2 高頻使用數據聚焦主題
利用CiteSpace 軟件對地理學高頻使用數據的文獻研究主題進行聚類分析發現, 地理學高頻使用數據的文獻研究主題主要聚焦于土地利用、時空分異、青藏高原、長江經濟帶、房價、經濟貿易、社會經濟、旅游、交通出行、快遞物流、人口地理、能源資源、位置定位、氣候氣象、氣溫降水等.
3.3.1 WOS與CNKI等數據庫
地理科學研究常用的國內外商業數據庫有CNKI、萬方、維普、CSSCI、WOS、SSCI、JCR. 有學者根據研究需要, 自建某專題類數據庫/集, 如中國科學院張生瑞等[19]構建了全國跨省界自然地理實體地名數據庫, 中國旅游研究院蔣依依等[20]構建了2001-2015年中國出境游客與目的地入境游客規模數據庫.
3.3.2 政府職能部門官方網站
官方網站數據主要為政府各職能部門、各行業類官方統計數據, 常見的有住房和城鄉建設部、農業農村部、自然資源部、海關、氣象局、企業類官方數據. 例如, 選取國家氣象信息中心發布的數據分析中國常年氣候季節空間變化[21], 利用住房和城鄉建設部發布的數據分析中國小城鎮鎮區土地利用結構特征[22], 利用中國能源統計年鑒發布的數據構建能源消耗空間格局預測模型[23].
3.3.3 百度和騰訊等企業平臺
常見的企業平臺有百度、騰訊、美團、餓了么、中國移動、高德地圖、攜程. 劉海洋等[24]基于騰訊人口遷徙大數據研究了黃河流域城市聯系網絡格局; 彭詩堯等[25]利用百度地圖POI數據分析軌道交通客流的空間特征; 丁亮等[26]基于移動通信用戶的個體移動軌跡數據, 驗證多中心城市引力模型.
3.3.4 調研實測
調研實測是獲取地理學數據最重要的基本方法, 可直接收集第一手資料. 例如, 宋昊澤等[27]根據野外實測數據和小型無人機所攝地景影像, 采用地形數字化方法提取地貌原始數據, 分析描述羅布泊地區雅丹形態特征及演化過程; 李佳等[28]通過實地調查和訪談獲取數據分析了旅游社會—生態系統的內部運行機制; 王澤東等[29]基于山東省124個高校校區的調研數據, 對高等教育用地的時空演化特征進行了系統闡述.
3.3.5 衛星遙感
地域性、空間性是地理學科重要特征, 衛星遙感技術是獲取該類數據的重要方式. 例如, 劉紀遠等[30]基于遙感數據分析了中國城鄉建設用地擴張時空特征; 范科科等[31]基于衛星遙感數據對青藏高原土壤濕度數據進行了評估; 劉睿等[32]基于環境減災衛星CCD數據對呼倫貝爾地區植被分類進行了研究.
3.4.1 人文地理類數據更豐富
對識別出的數據名稱進行統計發現, 地理信息科學數據的種類較多, 尤以人文地理類數據種類最豐富、數量最多. 人文地理、地理信息科學類數據與其他學科的交叉性、融合性更強, 其所涉及的學科面更廣、更豐富.
3.4.2 數據獲取方式及載體形式趨向多樣化、現代化
數據信息的獲取方式及載體形式更加多樣化、現代化. 統計發現, 地理類數據主要獲取方式有調研實測、官方網站、商業數據庫、衛星遙感、手機APP、企業平臺等. 近年, 通過手機APP、衛星遙感、大數據等現代化手段獲取數據的方式越來越多. 數據的載體形式主要有圖書、期刊論文、學位論文、會議論文、圖片影像、地圖、古籍歷史資料、報紙報告、專利、統計年鑒、遙感軟件等, 近年來, 數據載體類型有由紙本化向電子化、數字化轉變的趨勢.
3.4.3 與人類社會活動密切相關
對識別出的數據統計分析發現, 數據內容與人類生產、生活密切相關, 如天氣預報(氣候氣象)、吃喝歡樂(糧食、旅游等)、衣食住行(房價、交通等)、醫療教育等, 這些事物的空間性、地域性都是地理學科研究領域涉及的范圍, 也是由地理學學科特性的綜合性、社會性所決定.
3.4.4 時代性特征明顯
時代性特征明顯. 無論是數據內容的研究主題, 還是數據獲取方式、載體形式都隨著時代的進步而發展, 體現出鮮明的時代性特征. 數據研究主題與時俱進, 如快遞物流、空氣質量、環境污染、城市房價、交通出行、POI等; 數據獲取方式、載體形式亦是如此, 數據獲取遠程化、現代化, 數據載體電子化、現代化, 如無人機、遙感衛星、GIS軟件、電子書刊等.
本文研究發現, 地理學研究高頻使用的數據有經濟人口數據、遙感影像、空間數據、調查數據、城市及旅游類數據等; 高頻數據文獻聚焦主題于時空分異、經濟貿易、青藏高原、長江經濟帶、旅游交通、位置定位、氣溫降水等; 數據獲取方式主要有數據庫、官方數據網站、企業、調研實測和衛星遙感; 數據特征為人文地理類數據更豐富, 數據獲取方式及載體形式現代化, 數據內容與人類社會活動密切相關, 時代性特征明顯.
對地理學研究領域數據的識別及應用特征的分析, 既有利于結合社會實踐, 解決實際問題, 也利于推動地理學理論與技術、方法的不斷創新, 對地理學研究具有重要的現實意義.