周 海,張 星
(貴州省水利水電勘測設計研究院有限公司,貴陽 550002)
水庫移民工作較為復雜,在移民中不僅涉及到土地問題,更多的是移民以及移民補償等問題。除此之外,還包含較多的數據,這些數據量非常大,并且數據格式不同,具有較大的差異性。這些因素導致水庫移民信息管控起來較難,針對這個問題,有較多學者開展了關于水庫移民信息管控方法的研究。王茂洋等[1]研究了水電工程移民全生命周期信息化管理云平臺,該平臺進行多方面的精準計算,并對結構化數據與非結構化數據可視化展示與管理。張玉炳等[2]研究了水庫群綜合管理市級平臺,平臺中集成了異構數據資源和離散業務功能,實現了對水庫移民信息的管理。
上述研究提出的平臺雖然能夠實現信息管理,但是仍然存在一定的不足。近些年,數據挖掘技術在各個領域中都得到較多的應用,這是一種處理數據的技術,在處理過程中能夠從不完全的、有噪聲的數據中提取到有價值的信息,并且數據提取過程是一個反復的過程,如果此次挖掘到所用信息則停止挖掘,如果沒有提取到有用信息則會自行返回前面的步驟,重新調整并繼續計算。基于大數據挖掘技術的這個優點,將其應用到水庫移民信息管控系統中,以期全方位地對數據進行監測,為水庫移民后信息管理提供參考。
基于水庫移民信息管控系統的需求,將處理器作為系統的核心部分,主要框架見圖1。

圖1 系統硬件框架
在系統硬件的結構圖中,系統的核心器件均為高速器件,所以采用高速PCB設計[3]方法,保證系統硬件設計的可靠性。
嵌入式處理器采用ARM720T,該處理器主要用來提供系統的處理速度。高速緩沖中包含一個4項的相連寄存器。該處理器中包含3個異步復位信號,包含外部時鐘輸入和片上PLL[4]。該處理器上還包含獨立邏輯部分,每個都有自己的時鐘頻率要求,如果處理器是處于外部時鐘的模式時,外圍器件真實頻率不同于PLL模式時的頻率。該處理器還包含中斷處理功能,主要包含兩個中斷類型,中斷請求和快速中斷請求[5]。
此外,其能夠對6個分立的線性存儲器或者擴展段解碼,每個段中任何一個都能夠配置成與傳統SRAM接口一致的接口相連接,并支持頁的模式存取[6]。 該處理器上內置點陣式鍵盤,具有以下特點:①在應用中,能夠將列輸出驅動成全低;②如果鍵盤發生中斷能夠喚醒系統;③允許任意組合按鍵;④可以采用人機交互或者現場調試的方法進行調試;⑤包含預擴鍵盤,在使用時可以將信號線引出作為接口。
同時還包含液晶顯示模塊,該模塊包含LCD控制器,能夠直接與復合LCD接口相連接,LCD控制信號見表1。

表1 LCD控制信號
在系統中有高4位數據時,將8位數據一起提供給顯示器。
配置以太網控制模塊,采用CS8900A芯片為系統提供通信功能。該芯片主要包含ISA總線接口[7],其具有以下特點:
1) 功耗低。因為該芯片內部集成RAM,并且片上包含濾波器,能夠使隔離變壓器的選擇更為簡單,還提供了許可的最小封裝。
2) 性能高。在有大數據傳輸時,傳輸模式能夠減少80%的中斷,并能夠緩解主機帶寬的流通。
3) 功耗低并且噪音也較低[8]。
該芯片包含20根地址線,其地址映射和相應操作見表2。

表2 芯片地址映射和相應操作內容
為保證芯片正常工作,還需要外接一個20 M的晶振。
USB總線是一種輪訊方式的總線,其能夠對數據傳輸。USB中還包含特殊通道,即消息通道,主要為設備的設置、狀況的查詢以及輸入信息的控制提供入口[9]。由于處理器上沒有USB接口,所以需要通過外部USB主控制器擴展出USB設備接口。USB的接線簡圖見圖2。

圖2 USB接線簡圖
其具有兩種時鐘模式12 M和48 M,通過相應的控制線能夠進行讀寫操作。
處理器中自帶的控制器有以下特點:①支持2組外部SDRAM[10];②具有可編程的總線寬度;③當CPU進入到就緒模式時,該控制器能夠進入到自動更新的模式。
當系統有了SDRAM控制器后,就不需要外加控制器,采用合適的存儲器芯片就能夠實現與控制器的連接。
預先采用大數據挖掘技術對信息挖掘,過程見圖3。

圖3 數據挖掘流程
將采集的數據記作:
(1)
其中:i1、i2、in為采集的信息;v1、v2、vn分別為采集信息對應位置;Y11、Y1n、Yn1、Ynn分別為關聯數據。
由于采集的數據較多,采用分布式存儲技術存儲相關數據,滿足系統實時性與海量數據存儲的要求。在此基礎上,對數據進行并行處理,滿足大數據處理需要,工作方式如下:
1) 建立中間文件。在節點上發送Map命令[11]在本地服務器上寫操作,操作后獲得相應的中間文件。
2) 數據容錯處理。在大數據處理中,采用MapReduce模型處理,其具有較好的容錯性能[12],能夠將故障節點數據發送到正常數據節點上進行。
移動互聯網的便捷性,使得導師與學生間的交流不再困難,我們應充分利用如微博、微信、QQ等這些便利的交流方式,重視并提高交流互動的即時性。
3) 量化數據。為了量化處理數據之間的關系,將每個數據看作一個集合,對其相似度度量[13],將相似度定義為:
(2)
式中:J(A,B)為一個0和1范圍內的值,如果計算結果接近1,說明集合之間的距離越接近。
通過上述過程對水庫移民信息預處理,為信息管控提供基礎依據。
2.2 水庫移民信息關聯規則確定
在上述并行處理的基礎上,采用大數據挖掘技術中的關聯規則挖掘方法對水庫移民信息關聯規則挖掘[14],過程如下:
1) 假設A?B,如果A發生,那么B也可能發生,前者是事實,后者是這個事實造成的后果。
2) 支持度,將項集A的支持度記作數據庫中A的記錄數目,將其記作SUP。將表明事務中包含的規則表示為:
SUP(A?B)=SUP(A∪B)=P(A∪B)
(3)
(4)
式中:W[i]為第i個對象的支持度;N為分析對象數量;∑prob為支持度穩定性變化參數。
3) 置信度,即規則A?B中包含A事務的比值[15],如下所示:
conf(A?B)=sup(A∪B)/sup(A)
(5)
基于上述過程能夠計算信息的關聯信息,即計算獲得水庫移民的關聯信息,減少數據冗余,以此完成水庫移民信息管控。
為驗證水庫移民信息管控系統在實際中的應用效果,對系統進行測試,并將水電工程移民全生命周期信息化管理云平臺、水庫群綜合管理市級平臺與所提出的系統進行對比,詳細分析系統的使用情況。
測試環境見表3。

表3 測試環境
水庫移民信息管控系統中涉及多個功能部分,此次實驗對各個功能查詢,對比功能查詢結果的準確性以及各個功能的查詢時間。
分別采用所提出的信息管控系統和其他兩種平臺對水庫移民信息查詢,查看其是否能夠按照用戶需求查詢到相關信息。對比結果見表4。
通過分析表4能夠發現,在10個查詢內容上,所提出的查詢系統沒有出現查詢錯誤的情況,準確率較高。信息化管理云平臺與管理市級平臺均出現錯誤查詢的情況,較所提出的管控系統應用效果差。通過上述功能測試能夠表明,所研究的系統達到了系統設計目標。

表4 信息查詢效果分析
在此部分實驗中分為兩個實驗,一是簡單驗證在各個操作上的執行時間;另一個實驗是對比在多并發數情況下信息的查詢時間。其中信息查詢時間對比結果見圖4。

圖4 信息查詢時間
基于圖4可知,在各個信息的查詢上,所研究系統與其他兩個平臺花費的時間差距較小,但是所研究系統仍然比其他兩種平臺花費的查詢時間少。
在此基礎上,測試所提出的系統和其他兩種平臺有多用戶操作下的響應情況,測試其穩定性。在實驗過程中,模擬100位用戶同時操作系統或者平臺,各個操作事物的平均響應時間曲線見圖5。

圖5 多并發數下信息查詢時間對比
基于圖5能夠發現,所研究的基于大數據挖掘的水庫移民信息管控系統在各個事物操作上,響應時間均不超過3 min,在多并發用戶查詢下,花費的時間都較少,在預期范圍內;而水電工程移民全生命周期信息化管理云平臺在查詢時,在移民信息、地名搜索上花費的時間較少,但是在移民影響分析、移民按指數查詢、空間關系分析3個指標的響應上,花費的時間較多;水庫群綜合管理市級平臺在集中信息查詢上響應時間均較長,均超過所研究的信息管控系統。測試結果證明,所提出的水庫移民信息管控系統在多用戶查詢的情況下也能夠保持較快的查詢速度,較其他兩種平臺的性能更為優越。
綜上所述,本文基于大數據挖掘的水庫移民信息管控系統獲得了較好的應用效果,不僅提高了查詢速度還提高了查詢的準確性,達到了系統設計目標。同時證明,大數據挖掘技術應用到信息管理中后,能夠客觀、合理、科學地對信息管控,為后期移民相關政策制定提供了科學依據。