高澤文 解中洋 任俊達 馬寧
湖南師范大學 湖南 長沙 410000
ArcGIS Dashboard是以地理空間數據為核心,將各種地理信息以專題圖表等諸多面板展示的一套應用Web服務資源的終端展示平臺。系統可以通過諸多類型操作面板來表現,包括業務信息列表、專題統計圖表、指標監控儀表,外部內容等,同時支持副文本。基于空間位置資源應用的地圖面板是其核心內容,將以上諸多資源面板和地理空間信息結合應用,能夠最大限度地發揮業務信息價值。ArcGIS Dashboard數據源主要是以Web Map形式進行數據接入展示的,所以必須將表格等數據放入Web Map中,同時對要展示的分省級,市級,縣級以及確診小區等數據進行地圖配色等,最后保存Web Map。數據更新可以利用ArcGIS API For Python或其他ArcGIS API完成數據的實時更新。ArcGIS API For Python能夠通過Python靈活快速構建地理空間要素的Spatial Data Frame,從而更新源數據的Spatial Data Frame,完成Feature Service的實時更新。
為了更快地完成可視化系統軟件構建,軟件架構設計基于ArcGIS Dashboard技術。可視化系統架構包括:
1.2.1 數據層。將數據存儲在常使用的關系式sqlserver 或oracle 中的數據庫[]。部分文本文檔形式的數據可以使用csv或xls的方式存儲在excel表格中,簡單的室內空間數據可以存儲在幾個壓縮為zip包的shp格式文件中。
1.2.2 服務項圖層。通過ArcGISServer將數據圖層的數據發布為ArcGIS Rest服務項或其他通用OGC服務項。如果室內空間數據量較小或變化不大,可以不發布服務項目,可以立即發布服務項目。通過文檔與主要表示層進行交互通信。同時,將必須查看的檢驗數據作為矢量材料要素服務項目發布,方便查看。對于經常查看的功能,比如年月量指標等數據,可以根據前期設計方案的數據庫結構編寫相應的預統計分析服務項目,在后臺管理中完成預計算,并加快之前數據呈現的速度。
1.2.3 主表示層。以地圖為主,將信息可視化。服務項目層的地理信息服務項目用于顯示地圖,并配備相應的樣式,使地圖因素在網絡鏡像中具有唯一性。借助車內儀表盤的設計理念,加強了UI上各個因素之間的交互,通過目錄、儀表盤、指標等多種手段表達了關鍵指標值。據客服平臺介紹,主表現層配備響應式UI,使其更能兼容電腦瀏覽器的尺寸。
本文主要選取的是Pearson相關系數和speraman相關系數,這兩個指標分別描述了兩個數據組合的線性相關性和測量變量之間的相關性水平。
2.1.1 Pearson相關系數。皮爾森相關系數(Pearson Correlation Coefficient)用來考慮兩個數據的組合是否在一條線上,用來考慮間隔變量之間的線性相關。計算公式為:

皮爾森相關系數的值用上述公式來表示,COV是2個變量的協方差,真分是2個變量的標準差的乘積。μx是X的平均值,μY是Y的平均值,E為期望。
皮爾森相關系數是線性關系的一個指標,它反映了兩個量之間線性關系的高低。這個值常用小寫字母r來表示。r值范圍在-1到1之間,絕對值越接近于1,相關性越強(負相關/正相關)。
2.1.2 speraman相關系數。以查爾斯·愛德華·斯皮爾曼命名的斯皮爾曼等級相關系數,即斯皮爾曼相關系數[]。它是一個考慮兩個變量相關性的非主參數索引值。它使用簡單的方程來評估兩個統計分析變量的關聯[3]。如果數據中沒有重復值,并且當2個變量完全簡單相關時,Spearman相關系數為1或-1。對于有n個樣本的模板,將n個初始數據轉化為水平數據,相關系數ρ為:

speraman相關系數也可以稱為“秩相關”;換句話說,觀察數據的“排名”被“排名”所取代。在連續除法中,觀測數據的秩通常總是低于秩的一半。眾所周知,在這個例子中,秩和秩相關系數是相同的。更一般地,觀察數據的“等級”與可能的整體模板的比率低于給定的值,即觀察值的一半。也就是說,是對應等級指標的一種可能的解決方案。盡管不常見,但仍可能使用“級別相關”。
二者的區別在于:①分析范圍不同:Pearson用于計算連續數據的相關,而speraman相關是專門用于分析順序數據,二者分析范圍不同。②用途不同:Pearson相關是最常見的相關公式,用于計算連續數據的相關性。而spearman相關是專門用于分析順序數據的,就是那種只有順序關系,但并非等距的數據。
本文的所研究的數據源包括好搜指數和媒體網站頒布的信息。
無論是百度指數、好搜指數,還是淘寶指數等等,都是圍繞一個重點:關鍵詞。也可以統稱其為:關鍵詞搜索指數。指數越高,代表關鍵詞越熱門,搜索的人就越高。
好搜指數,它是一個基于大量網民個人行為數據的數據共享平臺。它是當今網絡乃至整個數據周期中最重要的數據分析服務平臺之一。好搜指數值主要包括:科研發展趨勢、對top的要求、輿情管家、人群特征。通過分析,本人確定的好搜指數關鍵詞包括:X1,“病毒”(X2),“預防”(X3),“癥狀”(X4),“核酸檢測”(X5)[],“傳染”(X 6),“季節”(X7)和“疫苗”(X8)。
定義式(2-1)中的X為好搜熱點指數,Y為某地區的患病人數(或死亡,治愈人數等),計算在一段時間之內的皮爾森相關系數,看好搜索指數的值與總數之間是否存在線性關系和依賴關系。
根據總數據與好搜指數值的相關性分析,當前數據與好搜指數值中部分關鍵詞的檢索頻率具有線性相關和依賴感[]。因此,分析和預測是在構建多元線性回歸線性模型的基礎上進行的。
假設患病人數(或死亡、治愈人數等)Y 與多個好搜指數X1,X2,..,Xn呈現強相關的關系,而此時我們認為,當這些X變量發生變化時,相應的Y也會隨之發生變化。通過歷史數據,我們可以得出Y與各變量X之間的某種關系,即:

這樣,就建立了Y與X之間的多元線性回歸模型。此時,當人數數據無法實時獲得,或者出現統計誤差時,我們就可以根據式(2-3)對Y進行預測,而此時我們需要建立的工作就是獲取各變量X的數值。
下面進行詳細的建模步驟說明。
在統計分析中,多元線性回歸優化算法是一種非常適合的優化算法,其應用非常普遍[]。多元線性回歸概念:關鍵是在因變量和幾個自變量之間建立線性相關性。這里的自變量一般是兩個或兩個以上。根據一系列計算得到的多元線性回歸方程為多元線性回歸實體模型。
多元線性回歸數學分析模型如下:
因變量設置為y,自變量設置為x1,x2,...,xn-1,共有m組觀測數據。存在如下所示的線性相關性:

獲得 m 個單獨觀察的 m 組數據樣本:

其中,所有誤差項都是相互獨立的,且服從均值為0的正態分布。
此時,令:

那么,公式計算(2-4)可表示為:

確定多元線性回歸模型后,主要參數必須可能未知。所選擇的方法通常是一般最小二乘法。設分別是參數的最小二乘估計,那么y的觀測值可以表示為:

其中,k=1,2,…,N0;ek是誤差的估計值。

根據最小二乘法,觀測值和回歸值之間的誤差的均值Q應該最小,并且指定的Q越低越好。Q 是偏差的總數。

讓公式計算(2-13)有一個最小值,根據極值點的基本原理可以計算得到滿足條件的最小值。最后,通過求解矩陣方程得到相關系數的最小二乘法可能為:

為了保證模型的質量和系統設計的適當結果,重要的是對收集的初始數據進行數據轉換和解析,以去除維度并使其具有可比性。
前文對回歸分析模型進行了建模流程的介紹,下面還需要對數據的處理進行說明。由于此次回歸模型中的變量,不僅涉及人數等簡單的數字變量,還涉及搜索指數、熱點等其他不易度量的變量,這些變量的量綱和取值方式也不同。因此,需要采取一定的數據變換技術。
為了保證建模的質量和系統分析的正確結果,必須對采集的原始數據進行數據信息轉換和解析,去除維度,使其具有可比性。