999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能技術在供水管網漏水探測中的應用

2022-09-02 03:02:42湯正舉陳博姜遍地
城市勘測 2022年4期
關鍵詞:分類實驗模型

湯正舉,陳博,姜遍地

(河南力科管線探測技術有限公司 ,河南 鄭州 450051)

1 引 言

隨著計算機技術的發展,特別是計算機運算速度的不斷突破,人工智能逐步進入應用階段,并且迅速融入社會越來越多的領域。通過識別面部特征的人臉識別技術、實現了一種更為便捷、高效的身份驗證模式;基于聲紋識別的人機對話,可以解放雙手進行語音導航,大大提高了駕駛的安全性。麥肯錫公司分析了全球經濟800多個職業中的 2 000多個工作活動。在一篇名為《中國人工智能的未來之路》的報告中指出:從技術層面來看,現在50%的工作活動完全可以通過現有的人工智能技術實現自動化。同時根據目前發展趨勢也不難看出,人工智能技術正在被更為廣泛的行業所接受。

人工智能最重要的進步在于,通過智能算法訓練的機器,可以處理一直以來必須依賴人工完成的各種復雜工作。漏水探測就是這樣一項極度依賴人工的復雜工作,從管網流量異常調查,管網壓力梯度分析,到閥栓聽音檢測,路面拾音檢測,無不依賴檢測人員長期積累的工作經驗。

漏水探測工作中經常會遇到干擾噪聲的影響,有經驗的檢測人員可以區分兩者,甚至可以分辨出夾雜著干擾噪聲的管道噪聲,但對于機器來說比較困難。以筆者所在的鄭州自來水公司就遇到了這樣的問題。和全國很多供水企業一樣,鄭州自來水公司也在大力發展智慧水務,其中一個項目是管網滲漏預警系統,它由布設在管道上噪聲記錄儀(振動傳感器)和滲漏預警平臺組成,噪聲記錄儀監聽管道上的噪聲,當噪聲超過預設閾值時,噪聲記錄儀將會報警并將噪聲信息上傳至預警平臺,從而第一時間發現管道漏水異常。為了減少外界噪聲干擾,傳感器監聽時段設置為凌晨兩點至三點,但即使這樣,報警信息中依然包含大量汽車噪聲,風聲等干擾噪聲引起的誤報,特別是遇到降水,幾乎所有傳感器都會誤報。處理報警需要對報警監測點進行人工聽測或現場復檢,傳感器數量多的話勢必會帶來較大的人工投入。筆者贊同廠商的“寧殺錯不放過”的監測報警原則,必須將管網安全運行放在首位,但如果有一種精確的分辨干擾噪聲的機制,或將有效減少復檢工作的人力投入。

本文通過實驗介紹通過機器學習算法訓練人工智能模型,使其能夠正確分類管道噪聲和干擾噪聲。有別于傳統程序,我們不向機器提供任何分類規則,僅提供音頻數據和其分類標簽,分類規則由機器通過訓練習得。實驗之初,我們需要精確定義管道噪聲和干擾噪聲:

管道噪聲:指因壓力管道內部介質流動、摩擦、擾動和沖擊發生的噪聲。包括管件過水噪聲和漏水噪聲。

干擾噪聲:除了管道噪聲外的其他噪聲。包括交通噪聲、天氣噪聲,電氣噪聲等

附加說明:①既包含管道噪聲又包含干擾噪聲的樣本歸類為管道噪聲;②水泵噪聲歸類為干擾噪聲。

2 實驗數據與實驗工具

實驗數據為管網滲漏預警系統日常采集的音頻數據。

2.1 數據采集與準備

數據采集設備為壓電陶瓷振動傳感器,這是一種漏水聲學探測中常用的傳感器,性能穩定,頻響范圍寬,測量精度高,廣泛應用于聽漏儀,相關儀等聲學檢測設備。傳感器采用磁吸式安裝,垂直吸附于被測管道管體上方,監聽時如果管道振動超過預設閾值,則記錄該振動信號。

(1)數據采集設備

表1 數據采集設備

(2)原始數據格式

表2 原始數據格式

根據奈奎斯特采樣定理,8 192 Hz的采樣率可以完整保留 4 096 Hz以下頻率的原始信號的采樣信息,采集設備與數據格式滿足實驗要求。

(3)樣本(數據)分類

本次實驗共采集音頻樣本354個,采用人工聽測分類,將全部樣本分為8組,每組約44個,參與分類的漏水檢測人員24人。每人隨機對一組樣本進行聽測分類。這樣每個樣本分別得到三個獨立的分類評判,取分類評判中多數票作為該樣本最終分類結果。

分類結果:正樣本(管道噪聲)165個,負樣本(干擾噪聲)189個,正負樣本占比分別為46.6%和53.4%,樣本分布均衡。

(4)樣本(數據)特征提取

原始音頻樣本記錄了噪聲的全部采樣信息,可以把它表示為一個長度為 40 960的一維數組。特征提取需要盡量壓縮這個數組的長度,并且最大可能的保留原始噪聲數據的信息。我們選取了時域和頻域上共計17個特征。

由于樣本集比較小,實驗不需要進行主成分分析和特征降維的處理。

最后將樣本特征集整合為一個354行18列的二維數組(如圖1所示)作為機器學習的數據集,前17列為樣本的特征值,最后一列為樣本的分類標簽,至此數據準備工作基本完成。

圖1 樣本特征數據集

2.2 實驗軟件開發環境

表3 開發環境

2.3 實驗設計

實驗分為數據集劃分,特征預處理,模型優化,模型訓練,分類測試五部分組成。

(1)數據集劃分:

實驗需要保留一部分數據集對人工智能模型的性能進行最終測試,將整個數據集劃分為訓練集和測試集兩部分,本次實驗保留數據集中的25%(89個)作為測試集,將剩余75%(265個)作為訓練集。

(2)特征預處理

由于我們提取的17項特征在數值上差異很大,比如一個樣本時域上的“極差”特征為65360,而“裕度因子”特征僅為0.00214101,兩者在數值上相差七個數量級,由此數據直接構建的特征模型就像一張被拉長了的照片,在“裕度因子”維度上的特征也會變得不明顯。

為杜絕這種情況,本實驗采用標準化對數據進行無量綱化處理,將數據縮放到均值為0,標準差為1的范圍內,平衡各個維度上的特征對模型的影響,如圖2所示。

圖2 數據集預處理

值得注意的是,標準化必須放在劃分數據集之后進行,將訓練集與測試集分別標準化處理,否則處理后的訓練集中會包含測試集的信息,影響實驗效果。

(3)模型優化

決定模型的優劣有兩個要素——數據和算法,數據集的質量決定了模型的上限,在同樣數據集的基礎上,算法決定模型在此上限之內的表現,這里的模型優化指的是后者。每一種模型算法都保留了若干超參數,調整這些超參數可以使訓練出的模型更適合實際需求。這里我們使用網格搜索和交叉驗證的方式對模型進行調整優化。

①網格搜索

以KNN算法為例,該算法在本實驗中需要設置“n_neighbors”“weights”“P”三個超參數,“n_neighbors”表示計算離目標特征點最近的已知特征點的個數,“weights”表示是否考慮距離權重,“P”表示特征點間的距離度量方式。如何調整三個超參數的組合使模型達到最佳性能呢?網格搜索提供了一個“笨”辦法,循環遍歷所有超參數組合,從而找到最優的模型。

②交叉驗證

網格搜索的每一種超參數組合都需要測試其模型性能,但如果使用測試集來進行測試,會泄露測試集信息,影響最終模型性能的測試,實驗結果不真實,為了驗證設置不同超參數的模型的優劣,我們從訓練集中再次分出一部分樣本作為評估網格搜索的驗證集。為使數據集得到最大利用率,采用交叉驗證,如圖3所示。

圖3 交叉驗證

將訓練集平均分成n組,每次以其中一組作為驗證集,其余部分作為訓練集,進行一次訓練和驗證,得到一個模型的分類準確率,經過n次訓練和驗證,得到n個模型的準確率,取準確率的平均值作為該超參數下模型的準確率,測試集不參與此過程。這種交叉驗證稱為n折交叉驗證,折數越多需要的運算量越大,本實驗采用5折交叉驗證。

2.4 模型訓練與分類測試

分辨管道噪聲與干擾噪聲是典型的二分類問題,針對該問題本次實驗選取支持向量機、k近鄰、隨機森林三種可用于分類的機器學習算法。算法原理僅作簡要說明。

(1)支持向量機(support vector machines,SVM)

支持向量機是一種適用于二分類問題的模型。它的基本模型是定義在特征空間內的間隔最大的線性分類模型,核函數的引入使它同樣可以解決非線性分類問題。

支持向量機的學習策略基于間隔最大化,可以形式化為求解一個目標函數為二次型函數,約束函數為仿射函數的凸優化問題,亦等價于合頁損失函數經過正則化后的求解最小化問題,支持向量機的學習算法是求解凸二次規劃的最優化算法。實驗通過調節“C”和“kernel”兩個超參數來達到分類模型的最佳性能。

“C”:浮點型參數,設置對錯誤分類的懲罰系數,默認值為1.0,詳情如表4所示。

表4 SVM算法超參數“C”

“kernel”:核函數,默認是rbf,詳情如表5所示。

表5 SVM算法“kernel”的可選參數

支持向量機模型分類評估數據如圖4所示:

圖4 支持向量機模型分類評估報告

(2)k近鄰(k-nearest neighbor,kNN)

這是一種可用于分類問題和回歸問題的基本方法,它的分類原理是:給定測試樣本,基于給定的距離度量找到訓練集中與其最接近的k個樣本點,然后基于這k個最近鄰的分類信息來進行預測。可使用普通“投票”,即選擇這k個樣本中出現最多的類別作為預測結果;還可基于距離遠近進行“加權投票”,距離越近的樣本權重越大。

k近鄰算法屬于是懶惰學習(lazy learning),不具有顯式的學習過程,此類學習過程在訓練階段僅僅保存了樣本信息,無訓練時間開銷,待收到測試樣本后再進行分類計算。實驗中通過調節算法中以下三個超參數對模型進行了優化。

"n_neighbors"是指KNN中的“K”,K值增大能夠減小噪聲的影響,但會使分類邊界變得模糊;K值減小起反作用。

“weight”參數有兩個可選參數的值,決定了如何分配權重。‘uniform’:不管遠近權重都一樣,默認為該值;‘distance’:權重和距離成反比,距離預測目標越近具有越高的權重。

“p”參數指定距離度量方法,當模型選用明可夫斯基距離時,p=1為曼哈頓距離,p=2為歐式距離。默認為歐式距離。

在實驗操作中通過5折交叉驗證和網格搜索,得到最佳的K值為1,加權計算距離以及采用曼哈頓距離度量方式。k近鄰模型分類評估數據如圖5所示:

圖5 k近鄰模型分類評估報告

(3)隨機森林(Random Forest)

隨機森林屬于集成學習中bagging算法的一個擴展變體,隨機森林在以決策樹作為基礎學習算法構建Bagging集成的基礎上,進一步在訓練決策樹模型的過程中隨機的選擇屬性。具體來說,傳統決策樹模型在選擇“分枝”屬性時,在當前結點的所有候選屬性中選擇一個最優屬性;而在隨機森林中,對基礎決策樹的每個結點,先從該結點的候選屬性集合中隨機節選一個屬性子集,再從這個子集中選擇最優屬性用于“分枝”。由此,隨機森林的基礎學習算法的“多樣性”不僅源于樣本的擾動,還有來自節選屬性子集的擾動,使最終集成算法的泛化能力進一步增強。

隨機森林繼承了基礎學習算法決策樹的所有超參數,并加入了配置集成學習模型的超參數。這里我們選取了“n_estimators”“criterion”兩個超參數進行調優。“n_estimators”限制森林中樹的數目;“criterion”確定樹“分枝”的標準,可選的是信息熵或者基尼指數,默認是基尼指數。

隨機森林模型分類評估數據如圖6所示:

圖6 隨機森林模型分類評估報告

4 結果分析

從模型分析評估報告中可以看出,三種算法的訓練模型在測試集中的表現均優于訓練集,說明模型擬合度適當;準確率均在75%以上,對于這樣小規模的樣本集來說,模型的表現已經可圈可點。其中KNN模型準確率最高,但對于模型性能的優劣不能簡簡單單地對比準確率,還需要更為細致的評估指標。

在分類任務中,預測結果與真實分類之間存在以下四種不同的情況,這四種預測情況構成了混淆矩陣,如圖7所示。

圖7 混淆矩陣

其中TP,FN,FP,TN分別表示了預測值域實際值的關系(表6),可以以數量或比例的形式表示。各項評估指標的計算需要借助混淆矩陣中的這四個值。

表6 混淆矩陣

4.1 模型評估指標

以下列出本實驗需要用到的模型評估指標:

準確率(Accuracy):所有樣本中被正確預測的樣本所占比例。

Accuracy=(TP+TN)/(TP+FN+TN+FP)

最佳結果:該結果由網格搜索與交叉驗證所得,是訓練階段模型的評估指標。

預測正類精確度(Precision):正確預測為正類占全部預測為正類的比例。

Precision=TP/(TP+FP)

實際正類召回率(Recall)正確預測為正類占全部實際正類的比例.

Recall=TP/(TP+FN)

ROC曲線和AUC指標:這是最常用的模型評估指標。ROC曲線可以檢查出機器學習模型的準確率以及閾值對其泛化性能的影響,但很多時候ROC曲線并不容易直觀的說明哪個模型的分類效果更好,而AUC指標借助ROC曲線以下與坐標軸所圍成的面積來評估模型,它的取值范圍介于0.5~1,AUC越接近1,模型分類準確性越高;越接近0.5,則模型分類準確性越低。

4.2 設定先驗假設

談到評估模型算法的優劣,就無法繞開沒有免費午餐定理(No Free Lunch Theorem),它的大意是說如果我們沒有對特征空間提出先驗假設,那么所有算法的平均表現是相似的,不存在哪種算法更好。也就是說我們必須針對需要解決的實際問題提出先驗假設,才能找出更加適合該假設的模型算法。

針對滲漏預警系統報警問題,我們最理想的算法當然是百分百準確率(Accuracy)。但如果系統必須存在誤差,顯然我們首先希望誤差不要出現在實際存在管道噪聲的監測點(Recall),其次是盡量減小干擾噪聲預測誤差(Accuracy)。所以針對滲漏預警系統報警問題需要提出的先驗假設是:在盡可能避免將管道噪聲預測為干擾噪聲的前提下能更準確預測干擾噪聲的模型性能更優秀。

將這個假設歸納為性能指標即:

約束性指標:正類召回率

優化性指標:準確率

從表7可以看出,雖然KNN模型算法有著最高的準確率,AUC指標表現也最佳,但約束性指標遜于SVM。本次實驗最終選取SVM模型對測試樣本進行分類,從測試混淆矩陣中可以看出,測試樣本共計89個,47個正樣本全部分類正確,42個負樣本中23個分類正確,19個分類錯誤,系統誤報率21.3%。較原始數據47.2%的誤報率有顯著改善。

表7 評估指標類比

5 實驗思考

通過本次實驗,我們可以看出機器學習模型能夠有效降低供水管網滲漏預警系統的誤報率。其實人工智能技術在漏水探測,乃至整個供水行業的適用程度遠不止于此,小到根據噪聲計算漏點位置,結合管網的流量和壓力分布解決水壓異常,大到城鎮管網智能調壓系統,壓力管網仿生漏控體系。相信隨著科技創新投入的不斷加大,傳統供水行業也可以越來越“智慧”。

事實上,該實驗的最初設計是一個復雜度更高的三分類問題,即分類漏水噪聲、管道噪聲、干擾噪聲,由于條件所限,樣本的數量和分布無法滿足實驗要求,只能退而求其次將前兩類合并為一類,簡化成為上述實驗,希望勉強能為漏控工作的技術創新起到投石問路的作用。最后援引習主席的講話與君共勉,“抓創新就是抓發展,謀創新就是謀未來。不創新就要落后,創新慢了也要落后。”。

猜你喜歡
分類實驗模型
一半模型
記一次有趣的實驗
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产一级在线播放| 无码高潮喷水在线观看| 自偷自拍三级全三级视频| 天天色天天操综合网| 爱做久久久久久| 一级看片免费视频| 日本亚洲欧美在线| 国产一区二区色淫影院| 欧美精品高清| 日韩123欧美字幕| 国产一级视频在线观看网站| 久久久久国色AV免费观看性色| 亚洲综合日韩精品| 国产高清精品在线91| 99在线免费播放| AV片亚洲国产男人的天堂| 国产成人综合亚洲欧美在| 久久精品亚洲热综合一区二区| 亚洲视频影院| 亚洲水蜜桃久久综合网站 | 亚洲天堂区| 日韩精品免费一线在线观看| 区国产精品搜索视频| 精品国产三级在线观看| 91精品啪在线观看国产60岁 | 无码中字出轨中文人妻中文中| 午夜激情福利视频| 国产精品流白浆在线观看| 亚洲成a人在线观看| 毛片免费在线视频| 黄色网页在线播放| 欧美国产另类| 毛片一区二区在线看| 超碰91免费人妻| 最近最新中文字幕在线第一页| 国产精品观看视频免费完整版| 成人无码一区二区三区视频在线观看| 在线国产91| 亚洲综合激情另类专区| 日本精品一在线观看视频| 国产在线精品99一区不卡| 成人91在线| 99久久国产精品无码| 中文成人在线视频| 三级国产在线观看| 国产91九色在线播放| 国产微拍精品| 91欧美在线| 伊人国产无码高清视频| 亚洲婷婷在线视频| 亚洲一级毛片免费看| 亚洲高清国产拍精品26u| 免费一级无码在线网站| 国产精品99一区不卡| 国产成人一区在线播放| 国产成人亚洲毛片| 99久久精品久久久久久婷婷| 久久精品视频亚洲| 欧美a在线看| 久久综合伊人 六十路| 毛片视频网址| 亚洲天堂久久| 久久性视频| 特级欧美视频aaaaaa| 国产精品福利尤物youwu| 欧美午夜在线播放| 99热这里只有精品国产99| 欧美激情福利| 国产免费福利网站| 色老二精品视频在线观看| 九九热视频在线免费观看| 91在线日韩在线播放| 青草视频久久| 国产欧美日韩va另类在线播放| 亚洲一区二区在线无码| 亚洲国产欧美中日韩成人综合视频| 97人人做人人爽香蕉精品| 国产美女叼嘿视频免费看| 成人一级黄色毛片| 五月丁香伊人啪啪手机免费观看| 亚洲欧美日韩成人在线| 无套av在线|