陳瑋麗 張文建
華北電力大學 北京 102206
航空物探在地質研究、生態治理、短缺資源的探測,有著廣泛的應用。目前主流的航天探測技術主要有四種:航空磁測技術、航空電磁測量技術、航空能譜測量技術、航空重力測量技術。
重要信息的挖掘方法由以下3個環節構成:(1)資料內容的搜集,(2)數據信息的挖掘發現,(3)數據挖掘的結果展示,數據挖掘可以與用戶智能交互,數據挖掘主要是根據分析每個重要信息,從廣泛的數據中尋找其中的規律的技術,資料的搜集是從與其相關聯的數據源中篩選有價值的數據并處理成用于數據挖掘的數據集;數據信息的挖掘發現是用某種特定的算法,將數據集所含的規律找出來;數據的規律表示是以用戶可接受的方法將找出的規律呈現出來,數據挖掘是一個多學科的交叉領域,這些學科包括數據庫技術、機器學習、統計學、模式識別、信息檢索、神經網絡、基于知識的系統、人工智能、高性能計算和數據可視化等,數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、和演變分析等。
典型的數據挖掘如圖1所示。

圖1 典型的數據挖掘
數據挖掘是一門交叉學科,隨著數據庫和互聯網路的發展,在金融、通信、等許多領域得到廣泛的應用,其應用領域在不斷拓展。
幾個典型的應用,如(1)預測功能:通過對大量資料中走向的分析,對將要可能發生的事件進行預測對客戶群體進行科學準確的預測。(2)客戶群體價值判斷作用:根據對客戶的價值判斷,發現單位的優質客源,提高經濟運行效率,降低成本。(3)智能跟蹤:通過對已有的數據資料進行研究判斷,找出其中的異常點,對可能發生的情況進行預測。(4)復合型營銷:根據對資源和服務結合的營銷策略的分析,準確定位貨物間的組合銷售方案,設計復合銷售策略。例如,在零售業進行消費者消費情況分析,根據結果對貨架重新擺放,從而提高銷售量等。(5)針對性服務:對個人的消費案例進行分析,發現其特定的消費習慣,可有針對性地設計方案銷售。(6)數據庫的直接銷售:一般來說,向客戶隨機發出大量直銷郵件,可能僅有不到 1%的反饋信息。但是依據小規模郵件直銷的結果內容,數據挖掘能夠建立一個科學的方案,找出其中可能做出響應的個人,將響應率提高到10%,甚至更高從而削減了成本,提高了銷量。(7)提升工作效率:通過對日常工作數據判斷,找到優化解決方案,提高效率。(8)創新探索:通過對豐富的無規則的科學實驗數據進行分析,發現其中規律,發現未知現象。(9)對象的劃分例如,銀行業將客戶分成不同的群體,向其提供不同的個性化投資產品。
綜上所述,數據挖掘能夠高效的處理分析復雜數據,并能夠科學的實現智能交互,能夠很好的解決目前航空航天資料內容多、查詢難度大、分析困難、利用率低的難題。
航空物探數據庫系統使用到的主要工具見表1。

表1 開發和設計工具
各個部分的功能模塊見表2。

表2 功能模塊
以上內容為系統開發的工具組成部分。
目前航空物探的系統能夠實現航空物探數據的數據入庫存儲、實時檢查和查詢三大功能。但是其查詢和存儲效率相對較低。比如,系統對大字段數據的讀寫速度慢。當一次處理的數據量達到上百兆時,系統處理時間達數分鐘。
2.2.1 數據挖掘算法
數據挖掘方法中受到認可的方法包括決策樹算法、傳算法、聚類算法、關聯規則等。
聚類算法是一種功能強大的資料管理算法,這種算法具有可擴展項能、分析有損數據、可處理的維度數更高、對于資料數據的記錄順序不敏感、能夠被解釋、兼顧約束條件、高智能交互特點,充分利用數據之間的關聯度進行分類處理,實現良好的交互功能,聚類算法主要包括基于密度的方法、層次聚類算法、分割聚類算法、基于網格的方法等等。
其他算法如下數據挖掘算法匯總表3。

表3 數據挖掘算法匯總
2.2.2 數據查詢推薦系統的建立
航空物探數據查詢推薦系統就是通過分析用戶查詢的資料得出學習其中經常被查詢和關注的內容并進行記錄,為每個用戶建立一個檔案資料庫,在以后的查詢過程中為其提供智能服務,向其推薦其可能關注或感興趣的信息的系統。根據實驗分析得出次查詢推薦系統能夠很好地向用戶推薦所需信息數據,在短時間內解決資料查詢問題,幫助用戶方便準確查詢到所要查詢的信息,提高數據查詢效率,降低查詢時間。
由數據挖掘算法匯總表 3,可清晰看出,各種算法都有其優缺點,結合算法自身特點及資料的查詢的實際需求,本方案數據查詢智能交互系統的設計思路將主要引入數據信息挖掘中的數據預處理技術,關聯規則挖掘,分類分析,聚類分析等關鍵技術算法,本方案重點研究數據挖掘關聯規則技術和聚類分析技術在的應用。
2.3.1 數據中挖掘關聯的規則
關聯規則在本系統中的應用:(1)充分利用挖掘數據間的相關性,同時結合用戶查詢的歷史記錄,向用戶推薦相內容,提高了信息的使用效率,即促進信息數據間的關聯;(2)組織相關數據進行搭配;(3)根據用戶的查詢模式及查詢的歷史記錄將用戶進行合理智能劃分。從而動態調整數據鏈接,給各類用戶提供更為滿意快捷的選擇,實現了數據人性化查詢交互。
下面可以根據一個3個環節對此問題進行分析介紹:
第1個環節:在進行數據查詢上,用戶想查詢航空物探電磁測量技術。系統可以根據對關聯規則的挖掘結果電磁測量技術和重力測量技術放到一個列表,向客戶推薦,提高數據的利用效率。根據系統進行數據挖掘得到的信息:關注電磁測量技術用戶有51%關注重力測量技術。
經調查許多用戶都會受到這種導向的影響,這樣就大大提升了資源的使用效率及用戶的搜索難度。
第2個環節:更進一步分析,根據對若干個例1中關聯規則挖掘。這樣可增加用戶對于此類信息的興趣,幫助用戶理解數據。
第3個環節:為查詢的用戶智能提供N種的數據相關。第一步:當用戶使用本系統時進行實名登記注冊,其每次進行數據查詢就會產生一系列數據記錄,根據該歷史查詢數據記錄,根據關聯規則算法從Database中找出所有滿足最小支持度threshold和最小置信度threshold的關聯規則,智能劃分出用戶尚未查詢但可能感興趣的數據內容的信息,根據概率中置信度算法找出其最可能感興趣的對信息內容題目進行整合,向用戶智能提供N種最可能感興趣查詢的。
2.3.2 聚類分析的引入
對用戶的查詢消息記錄進行聚類計算,將具有相似查詢習慣的用戶劃分為一類,將具有最相關查詢記錄的用戶劃歸到同一個類中,根據同一個類中用戶的信息內容向其更好更準確到位地推薦要查詢的信息內容,也可動態地進行信息列表的調整,從而提供更高效的服務,對于數據資料的管理人員,可根據不同簇中用戶的特征,制作不同的信息查詢列表,比如:消費者M去網上購物淘寶,購買家具,買了床和床墊兩種商品,同時可能還會瀏覽一些家用電器等日常生活用品,當消費者 M再次進入此查詢系統時,系統就會通過 M的查詢歷史記錄在頁面下方提示其可能感興趣的信息,這樣便于用戶查詢,縮短了查詢時間。同時系統可以根據用戶的查詢記錄將其查詢習慣進行歸類劃分成簇。
目前數據挖掘技術在互聯網領域應用較為廣泛和成熟,如網上購物等等,其良好的使用效果得到業內人士越來越多的重視。
通過將數據挖掘算法,對客戶每次查詢進行記錄,根據記錄可以分析出對其有價值的部分,當其登錄時會自動有列表顯示其可能感興趣的信息列表,進一步大大縮短了數據查詢的時間,顯著提高了資料的使用效率。實現了數據在條件下的資料查詢的簡單化、快捷化、人性化的處理。
隨著信息量的逐年不斷增加,數據挖掘技術和其算法必然會得到不斷的拓展和完善,將數據挖掘技術引入到航空物探資料管理查詢當中具有良好的前瞻性和實用性。隨著技術的不斷完善,定會更好的服務航空物探事業。
[1]萬建華,熊盛青,范正國.西方國家航空物探技術的若干進展[J].物探與化探.2000.
[2]盧俊峰.野外航空物探資料預處理問題的討論[J].地質找礦論叢.2003.
[3].薛典軍.航空物探信息服務系統需求規格定義.中國國土資源部航空物探遙感中心.2003.
[4]韓家煒,堪博.范明,孟小峰,譯.數據挖掘:概念與技術[M].(2 版).北京:機械工業出版社.2007.
[5][美]Charles Petzold.C#Windows程序設計(M).北京大學出版社.2002.
[6]鄒志文,朱金偉.數據挖掘算法研究與綜述[J].計算機工程與設計.2005.
[7]薛潔,劉希玉.數據挖掘技術與網上購物推薦系統[J].網絡安全技術與應用.2011.