孫熙澤 唐 琦 王澤宇 張婉婷 羅裕梅
(云南大學,云南 昆明 650000)
目前,企業數據工程師的工作量較大,且由于數據分析的特性,會增加數據工程師對數據進行挖掘分析的時間成本,對工作任務的完成效率和企業的盈利有不利影響,甚至可能阻礙新算法的開發進程。因此,無論是對企業和工作者,還是對現在和未來的發展來說,優化提升現有的基礎是十分重要的。
基于神經網絡算法的數據預測與評估系統是一款可以快速、高效地完成數據預測與評估系統管理操作的軟件,而且該系統還具備數據導入、數據訓練和數據預測等功能,可以根據設置的配置參數完成基于神經網絡算法的數據預測與評估系統等相關操作。該軟件可以系統地對基于神經網絡算法的數據預測與評估系統所產生的數據進行分析、歸類和計算,再對數據進行智能化的統籌管理和保存備份。全新的登錄賬號系統讓用戶可以隨時隨地訪問基于神經網絡算法的數據預測與評估系統管理平臺,讓用戶可以更便捷地管理該系統,也讓用戶更加安心。
目前針對數據預測的系統有很多,許多學者從隨機森林、灰色預測、神經網絡、時間序列、組合處理、小波分解以及ANFIS模型等多個方面對數據預測系統展開了研究和開發工作,研究成果頗豐[1]。其中,灰色預測方法、神經網絡和時間序列3個角度是學界研究的熱點,學者對相關研究的興趣一直維持在一個較高的水平。
在對使用時間序列方法進行數據預測的研究中,南國芳、周帥印、李敏強和寇紀淞在2013年通過對無線傳感器網絡的數據進行分析,引入多屬性模糊時間序列預測模型,并提出了適合傳感器網絡的修正預測模型[2]。2010年,于重重、于蕾、譚勵和段振剛基于時序算法對太陽能熱水監測系統的使用率做出準確的評價[3]。2020年,潘點飛等人為了實現在軌道中采用生控系統進行故障預測的目的,對系統遙測數據的時間序列信息展開了研究。通過AIC與BIC相結合的方法確定了預測模型,并運用該模型對實際工程中的遙測數據進行預測驗證[4]。
在以神經網絡為基礎的數據預測模型中,學者大多使用的是BP神經網絡、LSTM神經網絡和GRU神經網絡;2020年,姬鵬飛、孟偉娜、楊北方和王丹丹提出了基于自適應粒子群算法(APSO)優化的誤差方向傳播(BP)神經網絡預測方法,利用APSO算法優越的全局搜索能力更新 BP神經網絡的權值和閾值,通過有效結合2種算法的優勢,提高了某省農業機械數據預測的精度[5]。對于LSTM神經網絡,王永志、劉博和李鈺在Tensor Flow 框架下使用Python語言設計了1種基于長短期記憶(LSTM)神經網絡的電力負荷預測模型,該模型可以準確地預測電力負荷數據的日變化、周變化規律[6]。2020年,孫宇航、劉洋從GRU神經網絡出發,通過訓練神經網絡逼近橫波的速度與儲層參數之間的關系,利用縱波速度、密度和自然伽馬等儲層參數直接預測橫波的速度[7]。
雖然目前對數據預測評估的研究量較大,以神經網絡作為切入點的研究也不在少數;但是這些研究忽略了用戶應用的問題,實用性不強。該文將以神經網絡為著力點,以Java和Python語言為工具,為用戶設計出簡單易操作的數據預測軟件,讓更多的人感受到計算機技術為生活所帶來的便利。
該文考慮目前數據處理工作存在不夠高效和不夠完善的問題,以簡化數據處理過程、方便人們生活為目標,依據Java、Python等理論與方法,以神經網絡為主要思想,開發一款可以高效分析處理數據的軟件。
該軟件使用最新的智能化管理分析算法,快速地在后臺進行計算運行,以高效的方式對數據進行智能分析和管理,將數據預測、數值評估以及相應的管理操作呈現在用戶面前,節省了大量人工計算數據的時間。而且完備的大數據信息都是經過多層加密處理的,保證了數據的安全性和可靠性,不用擔心被竊取數據。
在技術路線上,主要采用Java、Python2種方法分別完成界面設計和數據分析評估工作。采用Java完成對系統功能的設計,包括登錄界面、首頁、數據導入、數據訓練、數據預測、數據評估和日志列表。采用Python完成數據分析工作。
3.3.1 Java 程序開發
框架設計中的 SSM 框架是 Spring MVC、Spring和MyBatis框架的整合,是標準的 MVC模式。該框架將整個系統劃分為表現層、controller層、service層和DAO層,使用Spring MVC負責請求的轉發和視圖管理;Spring實現業務對象管理,MyBatis作為數據對象的持久化引擎。
整體設計思路如下:1) 先搭建整合的環境。2) 完成對 Spring 的配置的搭建工作。3) 使用 Spring 整合 Spring MVC 框架。4) 使用 Spring 整合 MyBatis 框架。5) 用Spring 整合 MyBatis框架的配置事務(Spring 的聲明式事務管理) 。
3.3.2 Python 數據分析
3.3.2.1 算法的實現(包括但不限于下列2項)
3.3.2.1.1 KNN 算法
有多種度量方式可以計算空間中點的距離,例如常見的曼哈頓距離和歐式距離等。不過通常 KNN 算法中使用的是歐式距離,以二維平面為例,用歐式距離計算二維空間2個點的距離,如公式(1)所示。

拓展到多維空間,其公式如公式(2)所示。

式中:ρ為2個點間的距離;(x1,y1)為第一個坐標點的坐標; (x2,y2)為第二個坐標點的坐標;d(x,y)為各點之間的距離之和;i為當前取到的第i個樣本;n為樣本數量。
3.3.2.1.2 Logistic算法
與指數分布、高斯分布等分布一樣,Logistic是一種變量的分布,它也有自己的概率分布函數和概率密度函數,其中概率分布函數如公式(3)所示。

對概率分布函數求導,就得到對應的概率密度函數,如公式(4)所示。

式中:F(x)為概率分布;f(x)為概率密度;x為樣本;μ為分布對應的均值;γ為對應的形狀參數;P為概率;X為實際的中點距離。
3.3.2.2 評估方法
3.3.2.2.1 集成算法(Bagging)
集成算法的原理是基于自助采樣法(Bootstrap Sampling)隨機得到一些樣本集訓練,分別訓練不同的基學習器,再對不同基學習器得到的結果進行投票,從而得出最終的分類結果。在自助采樣法得到的樣本中,大概有63%的數據樣本會被使用,剩下的可以用來做驗證集。
3.3.2.2.2 提升算法(Boosting)
它通過反復學習得到一系列弱分類器,然后組合這些弱分類器得到1個強分類器,把弱分類器提升為強分類器的過程主要分為加法模型和向前分步。加法模型就是把一系列的弱分類器相加,串聯為強分類器,如公式(5)所示。

式中:Fm為當前分類器的表示函數;P為最優參數的綜合;h(x;am)為一系列的弱學習器;am為該學習器訓練得到的最優參數;βm為對應的弱學習器在強學習器中所占比例的系數;m為當前取到的樣本;n為樣本數量。
向前分步是指本輪的學習器是通過在上一輪學習器的基礎上迭代訓練而得到的,如公式(6)所示。

3.3.2.3 評估指標
3.3.2.3.1 準確度(accuracy)、召回率(recall)和預測(precision)評估
圖1為1個二分類的混淆矩陣(多分類同理,只需要把不屬于當前類的其他類都考慮為負例),表格中的4個參數說明如下:1) True Positive(TP)。預測為正例,實際為正例。2) False Positive(FP)。預測為正例,實際為負例。3) True Negative (TN)。預測為負例,實際為負例。4) False Negative (FN)。預測為負例,實際為正例。

圖1 二分類混淆矩陣
相關計算公式,如公式(7)、公式(8)、公式(9)、公式(10)、公式(11)和公式(12)所示。

式中:F得分為綜合考慮預測與召回率得到的某個數值。
根據F的值來進行評估,F得分越大,那么表示當前的算法越準確。
3.3.2.3.2 均方誤差(MSE)
該統計參數是預測數據和原始數據對應點誤差的平方和的均值,也就是SSE/n,和SSE沒有太大的區別,其中SSE為和方差,MSE的計算公式如公式(13)所示。

式中:n為樣本的個數;i為取到的當前樣本;wi為權重參數;yi為當前樣本的真實值;為當前樣本的預測值。
3.3.2.3.3 統計參數(RMSE)
該統計參數(RMSE)也叫回歸系統的擬合標準差,是MSE的平方根,計算公式如公式(14)所示。

式中:n為樣本的個數;i為當前取到的樣本;wi為權重參數;yi表為當前樣本的真實值;為當前樣本的預測值。
該軟件使用了最新的智能化管理分析算法,可以快速地在后臺進行計算,并將數據預測、數值評估的結果以及相應的管理操作呈現在用戶面前,節省了大量人工計算數據的時間。而且經過多層加密的完備的大數據信息的安全是有保障的。
4.2.1 基于神經網絡算法建成
神經網絡算法是1種通過模仿動物神經網絡行為特征對信息進行分布式并行處理的算法數學模型。該網絡依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。與傳統算法不同,使用神經網絡算法的人工智能將擁有自學能力,能夠實現自我學習和自我改進[8]。
4.2.2 高效率、低錯誤率
與人工處理數據相比,通過該軟件進行數據處理,其數據處理的精確度更高。直接節約了項目完成所需要的時間,間接地降低了企業的雇傭成本、時間成本和機會成本,使技術人員有更多的時間和精力投入創新算法的工作中。
4.2.3 技術先進
系統層次詳細由多層架構組織而成,良好的分層決定了良好的系統基礎。采用最新的智能化管理分析算法,能夠快速地在后臺進行計算。同時使用加密技術,不用擔心被數據會被竊取。
該軟件可以為廣大用戶提供快速方便的數據預測與評估管理方法,而且具備了數據導入、數據訓練和數據預測等功能。另外,該系統還有數據評估功能,可以根據設置的配置參數完成相關操作。該軟件可以對數據進行系統的分析、歸類和計算,然后對數據進行智能化的統籌管理和保存備份,全新的登錄賬號系統讓用戶可以隨時隨地訪問智能化管理平臺。該軟件讓用戶完成數據保存、監測等操作的過程變得更加簡單,各種完備的設置管理也讓用戶對系統的管理變得更加便捷。
該軟件主要具備數據導入、評估數據、數據預測、日志管理及普通管理系統的其他基本功能。
該項目在技術領域有較大的利用空間,能夠在經濟上減少雇傭人員編寫程序的開支,并且在軟件推廣期間不收取費用,一段時間后再采用合理的收費制度。
5.4.1 法律可行性
該產品沒有侵權或者抄襲等違法情況,也沒有被申請過專利。
5.4.2 政策可行性
沒有國家政策限制,也沒有地方政府(或其他機構)的限制。
5.4.3 運行可行性
使用該軟件的用戶可能會涉及各種類型的人群,部分人群可能會對操作比較生疏,但是該軟件簡潔明了的 UI 和快捷的操作特性,不會對用戶有很高的要求,因此用戶能夠在短時間內借助簡易的說明快速學會相關操作。并且為了提高系統的實用性,該軟件也具備較強的可靠性和較大的吞吐量。
創新是引領發展的第一動力,數據預測評估系統結合了多種科學技術,其中神經網絡算法、最新管理分析算法等創新點最為突出,經過大量實驗考證,筆者充分地確定了項目的可行性。團隊將對該項目進行深層次研究,相信該產品很快就會打開相關市場,讓更多的人體驗到數據預測評估系統所帶來的便利。