999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練模型的深度學習算法及其在圖書館行人目標檢測中的應用

2024-04-29 00:00:00嚴珊
圖書館研究與工作 2024年3期
關鍵詞:圖書館

摘 要:圖書館行人目標檢測能夠實現對圖書館內行人目標情況的統計,觀察讀者的學習行為和時間傾向,對提高服務質量和改善圖書館設施構造具有重要作用。現有圖書館行人目標深度學習算法能夠對行人目標進行自動識別和統計,但計算復雜度高,神經網絡模型的訓練效率低,難以適應圖書館不同場所的需求。對上述問題,文章提出一種基于預訓練模型的深度學習算法。該算法基于遷移學習的思想,對模型進行預訓練,從而避免模型從零開始訓練,并且設計了一種廣義損失函數,該函數不僅關注不同對象的重合區,還關注不重合區,從而能更好地體現出兩個對象的重合性。實驗結果表明,基于預訓練模型的深度學習算法能夠提高行人目標檢測模型的訓練效率以及檢測的精確度和查全率,能夠滿足圖書館不同場景下行人目標檢測的需求。

關鍵詞:行人目標檢測;深度學習算法;YOLOv3檢測算法;預訓練模型;圖書館

中圖分類號:G250.7 文獻標識碼:A

Deep Learning Algorithm Based on Pre-trained Models and Its Application in Pedestrian Target Detection in Libraries

Abstract Reader detection in libraries enables the statistical analysis of reader activity, observation of readers' learning behaviors, and identification of time trends, playing a crucial role in enhancing service quality and improving library facility design. Currently, manual video monitoring is the primary method for reader detection in libraries, which is time-consuming, labor-intensive, and lacks accuracy in counting readers. Existing deep learning algorithms for library reader detection can automatically identify and count readers, but they exhibit high computational complexity, low efficiency in training neural network models, and difficulty in adapting to the diverse requirements of different library settings. Moreover, occlusion between shelves and furniture in libraries disrupts the structural information of readers, leading to potential omission errors. To address these challenges, this paper proposes a deep learning algorithm based on pre-trained models. The algorithm, inspired by transfer learning, pre-trains the model to avoid training from scratch. Additionally, a generalized loss function is designed, focusing not only on the overlapping regions of different objects but also on non-overlapping regions, better reflecting the overlap between two objects. Experimental results demonstrate that the proposed method improves the training efficiency of reader detection models, enhances detection accuracy, and achieves satisfactory recall rates in various library scenarios.

Key words reader detection; deep learning algorithm; YOLOv3 detection algorithm; pre-trained model; library

1 引言

圖書館內包含咨詢處、閱覽室、自習室、研修間、展覽區等各種場所,這些場所在不同時間段的行人目標的數量、分布和流動情況均不相同。圖書館行人目標檢測方法能夠實現對圖書館內行人目標情況的統計,觀察讀者的學習行為和時間傾向,對提高服務質量、改善圖書館設施構造均有重要作用。

目前,圖書館行人目標檢測主要依靠人工通過視頻監控進行,這種方法費時費力,并且無法準確統計行人目標數量。針對此問題,研究人員提出了基于深度學習的行人目標檢測方法,該方法能夠對行人目標進行自動識別和統計。然而,現有的圖書館基于深度學習的行人目標檢測方法計算復雜,神經網絡模型的訓練效率低,難以適應圖書館不同場所的需求。并且,由于在圖書館內存在書架和桌椅之間的相互遮擋,會破壞行人目標的身體結構信息,這與無遮擋的行人目標特征有很大的不同,很容易導致漏檢。針對上述問題,本文提出一種基于預訓練模型的深度學習算法,并將該方法應用在圖書館不同場所內的行人目標檢測。該算法用于圖書館行人目標檢測,能提高行人目標檢測模型的訓練效率以及檢測的精確度和查全率。

近年來,隨著計算機軟硬件的持續進步,以深度學習為基礎的行人目標檢測方法也得到了快速發展。不同于傳統的行人目標檢測方法,基于深度學習的行人目標檢測方法在獲得行人目標的梯度和邊緣等表觀特征的同時,還能夠進一步獲得更深層次的行人目標特征[1]。如今,基于深度學習的行人目標檢測算法大致可以歸納為兩階段方法和一階段方法[2-4]。兩階段方法即先生成候選區域,然后對候選區域進行卷積操作,最后通過分類器實現對行人目標位置的定位[5]。一階段方法是先設計一個錨(Anchor),再對輸入的整個圖像進行卷積運算,從而得到特征,最終在特征圖上完成對行人目標的定位[6-7]。

國內的部分研究學者提出了一系列的基于深度學習的行人目標檢測方法。2018年,陳光喜等人首先利用聚合通道特征來獲取大量的行人目標候選區域,其次再通過卷積操作對候選區域進行特征提取,最后通過使用支持向量機分類器對候選框內的物體進行分類,從而完成行人目標檢測[8]。2020年,張海濤等人通過在SSD(Single Shot Multibox Detector,單次多箱探測器)網絡結構中引入了通道注意力模塊和膨脹卷積結構,有效提升了檢測網絡對局部特征的提取能力,從而提高了對行人目標的檢測精度[9]。2021年,謝永明等人針對復雜背景下行人目標檢測問題,提出了Faster R-CNN融合混合高斯模型的方法,該方法可以有效地去除背景的干擾,提升對行人目標的檢測效果[10]。2021年,舒壯壯等人針對將YOLOv3通用目標檢測算法應用于行人檢測時的檢測精度低、定位不準確的問題,提出了一種基于YOLOv3的適用于行人體態特征的目標檢測算法,取得了不錯的檢測效果[11]。2022年,Wang J等人利用雙區域特征生成較高質量的建議特征,同時又采用了PMIP(Paired Multiple Instance Predictio,成對多實例預測)算法產生多個預測輸出層,從而有效解決了擁擠場景下遮擋行人目標的檢測問題[12]。

國外的研究學者也對基于深度學習的行人目標檢測技術進行了深入的研究。2019年,B.S.Murugan等人提出了基于區域的可擴展卷積神經網絡(RS-CNN,Region based Scalable Convolution Neural Network)模型,通過區域建議來獲取行人目標特征,提升了檢測效果[13]。Amudhan A N等人提出了改進的CNN檢測網絡,通過將淺層特征層提取的特征與深層特征進行融合,有效地提升了對小尺度行人目標的檢測精度[14]。Mhalla A等人在網絡結構中引入密集連接網絡(DenseNet),有效提升了對遮擋行人目標的檢測精確度[15]。Bosquet B等人構建了時空神經網絡,以便能夠更加全面地實現對遮擋目標的提取[16]。Murthy C B等人提出了YOLOv2PD網絡模型,通過在YOLOv2檢測算法的結構上引入了MLFF(Multi-layer Feature Fusion,多層特征融合)模塊,并減少了一個預測輸出層,有效加強了對不同層的特征融合,提升了檢測速率[17]。

雖然基于深度學習的行人目標檢測方法在研究上已經取得了很多優秀的成果,但是鮮有針對圖書館行人目標的深度學習檢測方法,其難點在于:

(1)模型訓練的效率問題。由于圖書館包含多種不同的場所,如咨詢處、閱覽室、自習室等,不同場所的環境不同,行人目標檢測方法需要具有一定的適應和泛化能力,然而如果針對每種不同的場所,均對模型進行訓練,會使模型的訓練時間長,檢測方法的效率降低。

(2)檢測精度問題。在傳統YOLO算法中,損失函數可以用來確定正樣本和負樣本,評價預測框和真實框之間的距離,但當行人目標有遮擋時,損失函數可能無法正確確定正負樣本,導致無法對模型進行有效訓練。

針對上述問題,本文提出了一種基于預訓練模型的圖書館行人目標深度學習算法。該方法基于遷移學習的思想,對模型進行預訓練,從而避免模型從零開始訓練,以加快模型的訓練速度并且避免訓練初期權值被破壞。并且,筆者設計了一種廣義損失函數,該函數不但會關注兩個對象的重合區,還會關注不重合區,因此能更好地體現出兩個對象的重合性,從而提高圖書館行人目標檢測的精度。

2 行人目標檢測在圖書館中的應用

行人目標檢測技術的應用,可以動態地獲取圖書館中攝像頭覆蓋區域內所有行人目標的信息,得到館內各個時間段和不同地點的行人目標統計,再結合圖書館的區域分布和開放時間,來改善和提高圖書館的服務與管理,從而構建智慧圖書館。深度學習算法在圖書館行人目標檢測領域具有廣闊的前景,它可以提高圖書館的安全性、管理效率和用戶體驗。具體來說,行人目標檢測技術對圖書館服務與管理的改善主要體現在以下幾個方面[18]。

(1)工作行人目標分配和管理:通過行人目標檢測數據,圖書館可以合理分配工作人員,以滿足不同時段和不同區域的需求。調整工作人員數量可以避免高峰時段的擁擠和低谷時段的浪費,提高服務效率。根據不同閱覽室的人流量,可以合理規劃閱覽室的規模,減少資源浪費。內部辦公室的行人目標檢測可以幫助制定員工崗位流動策略,以滿足服務高峰期的需求。

(2)讀者管理與服務:行人目標檢測可以幫助圖書館了解讀者的學習習慣和行為,以提供更好的個性化服務和特別活動,增強讀者忠誠度。根據讀者在不同區域的逗留時間,可以推送閱覽室和資源,提高資源利用率。

(3)圖書管理:通過行人目標檢測,可以獲得不同類型書籍的關注率,為圖書采購提供決策依據。統計不同書架的讀者瀏覽頻率,動態調整書刊擺放位置和圖書副本數量。根據讀者興趣和行為,調整書籍陳列,提高推薦圖書區的作用和意義。

(4)圖書館設備管理:行人目標檢測可以用于管理圖書館設備,如座位、桌子以滿足不同時段的需求。通過檢測設備附近的行人數量,可以評估設備的使用率,為設備購置提供數據支持;通過深度學習算法分析行人目標的分布,幫助自動調整空調和照明系統,以提高能源效率和減少運營成本。

(5)安全管理:通過行人目標檢測,圖書館可以監控行人目標流動,及時發現異常行為或潛在的安全風險。這包括檢測未經授權的進入、行人目標密度過大、失蹤兒童等情況,以提高圖書館的安全性。

(6)空間規劃:行人目標檢測可以幫助圖書館進行空間規劃,有助于優化圖書館的空間利用,提高空間的舒適度和可訪問性。

總之,行人目標檢測技術在圖書館中的應用能夠提高管理效率、提供更好的服務、改善資源利用和加強安全管理,從而構建更智能化的圖書館環境,提供更好的學習和研究體驗。

3 基于預訓練模型的深度學習算法

基于預訓練模型的深度學習算法主要基于YOLOv3模型,主要分為以下五個方面。YOLOv3的網絡結構如圖1所示。

3.1 特征提取

當一張圖片被傳到YOLOv3模型中時,會被轉換為一個416×416尺寸的網格,并且會給圖片增加一個灰度條以防止變形,接著,圖片會被分為三個網格圖片(13×13,26×26,52×52),分別用于檢測大、中、小物體。YOLOv3采用Darknet-53模型作為主干特征提取網絡,對輸入的圖像進行卷積處理,使圖像的寬、高都進行連續的壓縮,這就是所謂的下采樣。在下采樣過程中,通道數不斷擴張,獲得一系列特征層,特征層可以表示輸入進來的圖片的特征。Darknet-53模型有兩個重要特點:

(1)使用殘差網絡Residual[19]。殘差網絡(Residual Network, ResNet)即將上一層的數據輸出,直接導入下一層的輸入,也就是下一層的數據輸出,與上一層的數據輸出成線性關系(見圖2)。

殘差網絡塊在輸入時會被分成兩個步驟,一個是主干步驟,進行普通的卷積、激活函數、歸一化等,而另一個則是用來做殘差運算,將這兩個步驟得到的結果疊加在一起,就能得到這個殘差網絡塊的構造。通過連續的1×1卷積和3×3卷積以及殘差邊的疊加,網絡得到了極大的深化。殘差網絡容易優化,并且準確度會隨著深度的增加而提高。該算法對殘差塊采用了一種跳躍連接的方法,以減少因深度增大而造成的漸變損失。

(2)Darknet-53模型采用獨特的DarknetConv2D構造,每次卷積都要做L2正則化,卷積結束后再通過Leaky ReLU進行BatchNormalization規范化。一般ReLU會將所有負數設為0,而Leaky ReLU則用非零斜率來表述負數。

其數學表達式為:

(1)

3.2 建立特征金字塔網絡用于增強特征提取

在特征提取方面,YOLOv3提取三個特征層。三個特征層在主干部分Darknet-53上的位置各不相同,分別在上層、中層、下層,每個特征層的shape分別是(52,52,256),(26,26,512),(13,13,1024)。在得到三個有效特征層后,用它們來構造FPN(Feature Pyramid Networks,特征金字塔網絡),構造方法是:

(1) 13×13×1024的特征層展開5次卷積處理,結果一方面用于獲取預測結果,另一方面用于進行上采樣UmSampling2d后與26×26×512特征層結合,結合特征層的shape為(26,26,768)。

(2)結合特征層再次進行5次卷積處理,結果一方面用于獲得預測結果,另一方面用于進行上采樣UmSampling2d后與52×52×256特征層結合,結合特征層的shape為(52,52,384)。

(3)結合特征層再次進行5次卷積處理,獲得預測結果。

特征金字塔能夠融合不同Shape的特征層之間的特征值,因此可以更好地提取特征。

3.3 獲得預測結果

通過FPN,我們可以得到三種增強特征,它們對應的特征值分別是(13,13,512),(26,266,256),(52,52,128),再將三種特征的特征值輸入到Yolo head中,得到預測結果。Yolo head實質上是一次3×3卷積加一次1×1卷積,其中3×3卷積起到了特征集成的作用,而1×1卷積起到了調節通道數目的作用。對三個特征層分別進行分類預測和回歸預測,輸出層的shape分別為(13,13,75),(26,26,75),(52,52,75),最后一個維度為75可以分解為3×(20+1+4)。其中,3是因為YOLOv3針對每一個特征層的每一個特征點存在3個先驗框,20是因為用于訓練的數據集為VOC 2007,該數據集共有20個類,1是代表判斷先驗框內是否含有物體,4代表先驗框的參數(x,y,w,h),所以預測結果的通道數為3×(20+1+4)=75。

實際是,輸入N張416×416的圖片,通過多層的運算,輸出三個shape:(N,13,13,75),(N,26,26,75),(N,52,52,75),對應于13×13,26×26,52×52的網格上3個先驗框的位置,獲得預測框后,需要進行得分排序與非極大抑制篩選,得到最終的預測結果。

3.4 預訓練模型

預訓練模型主要是基于遷移學習的思想。遷移學習是通過一種學習方式傳遞給下一種方式,或者是通過某種方式獲得的經驗傳遞給下一個過程。遷移是一種普遍存在于各種知識、技能和社會規范中的現象。遷移學習通常會關注有一個源域Ds和一個目標域Dt的情況,其中源域使用Ds={xi,yi}iNs表示,xi,yi分別表示數據樣本和對應的類別標簽,目標域使用Dt={xi,yi}iNt表示。遷移學習的定義如下:

對于已知的源域Ds和學習任務Ts、目標域Dt以及學習任務Tt,遷移學習的目標是從源域Ds和學習任務Ts中獲得,從而提高目標域的預測函數ft(.)的學習,其中Ds≠Dt或者Ts≠Tt (見圖3)。

預訓練模型屬于遷移學習的一種應用,通常情況下,預訓練的方式是將大量低成本收集的訓練數據聚集在一起,通過某種預訓練方法去學習其中的共性,之后將這些共性移植到特定任務的模型中,再利用相關特定領域的少量標注數據來對其進行微調。在模型訓練過程中,如果讓模型從0開始訓練,模型的參數隨機初始化,會導致訓練的效果很不好,因此可以采用主干特征提取網絡的預訓練模型:Yolo_weights.pth。使用預訓練模型后,訓練分為凍結訓練和解凍訓練兩部分,先進行凍結訓練,將主干特征提取網絡的參數凍結起來,對其他網絡結構的參數進行訓練。然后進行解凍訓練,此時會對主干特征提取網絡的參數進行微調,以更好地訓練整個模型。進行凍結訓練可以加快模型的訓練速度并且避免訓練初期權值被破壞。

3.5 損失函數的改進

YOLOv3的損失函數計算過程如下所示:

首先,獲得網絡的預測結果和真實框情況。

其次,通過對真實框的定位,確定該框屬于哪個網格節點,并對其進行檢測。通過分析對這些網格點進行預測,可以得到一個真實框,并將與真實框一致程度最大的先驗框用作正樣本。

然后,再利用網絡的預測結果,得到一個預測框,并對其與真實框是否一致進行計算,如果一致程度超過了一定的門限,那么就會將該預測框對應的先驗框忽略掉,將剩余的部分作為負樣本。

最終損失函數由三部分組成:

(1)正樣本的w、h與x、y軸偏移量與預測值之間的差距。

(2)對比正樣本預測結果的置信度的值與1,負樣本預測結果的置信度的值與0。

(3)預測框和真實框,種類預測結果與實際結果的對比。

YOLOv3的損失函數為IOU,IOU可以用來確定正樣本和負樣本,評價預測框和真實框之間的距離,并且具有尺度不變性,但它有兩個缺點:

(1)若兩個框沒有相交,則IOU=0,其結果不能反映重合度。并且loss=0,無法進行學習訓練。

(2)IOU無法反映兩者的重合度大小。如圖4所示,在IOU相等的情況下是無法反映重合程度的。

因此,可以用廣義IOU(即GIOU)替代IOU,如圖5所示,A、B為兩個框,C為能夠覆蓋A、B兩框的最小框,D為A、B兩框的重合部分。則

(2)

GIOU的計算公式為:

(3)

損失函數為:

(4)

IOU僅關注重合區,而GIOU不但會關注重合區,還會關注不重合區,因此能更好地體現出兩個對象的重合性,同時還能在A、B不相交的情況下對兩個對象進行學習。

4 實驗與分析

為了驗證上述方法,在學校圖書館大廳、電梯口、入口、書架附近、自習室以及辦公區不同場所拍攝照片用于檢驗模型的準確性,并選取傳統基于Faster R-CNN (Faster Regions with Convolutional Neural Network)的行人目標檢測方法進行對比。

4.1 基于Faster R-CNN的圖書館行人目標檢測方法

圖6 (a)是在圖書館大廳拍攝的圖片,圖中有2個行人目標,模型檢測出2人且置信度均為1。圖6 (b)是在電梯附近拍攝的圖片,圖中有2人,模型檢測出2人,且置信度均為0.99。由此可以看出,在沒有遮擋的情況下,Faster R-CNN的檢測結果的置信度高。

圖7 (a)是在圖書館入口拍攝的圖片,圖中一共有3人,模型檢測出4人。其中一人距離攝像頭較遠且與另一人之間存在部分遮擋,模型在檢測時保留了置信度為0.51的檢測框,一共保留了4個檢測框。圖7 (b)是在書架區拍攝的圖片,圖中共兩人,模型檢測出兩人且置信度均為1。

圖8是在自習區拍攝的圖片,圖8 (a)中模型共檢測出11人,圖8 (b)中模型共檢測出4人。可以看到,自習區內人數較多且人與人之間遮擋較為嚴重,模型對于靠近攝像頭的行人目標檢測效果很好,對于遠處的行人目標檢測效果一般。

圖9是在辦公區拍攝的圖片,可以看出,辦公區的遮擋較為嚴重,對于被遮擋的目標檢測效果并不好,(a)圖中檢測出5人,(b)圖中檢測出4人。

Faster R-CNN算法AP(Average Precision,平均精度)性能指標的結果如圖10所示:

當門限值score_threhold=0.5時,該模型對行人目標(person)的檢測性能指標分別為:AP=89.73%;F1=0.75;Recall=91.11%;Precision=63.41%;LAMR=0.23①。可以看到模型的查全率較高但精確度不高,總體檢測精度較高,但在檢測時輸入圖片需等待30~40s才能出檢測結果,故檢測速度并不快。

4.2 基于預訓練模型的深度學習算法

圖11 (a)是在圖書館大廳拍攝的圖片,圖中有兩人,模型檢測出兩人且置信度很高,模型的分類中并沒有雨傘這一類別,模型將雨傘識別為handbag類別,但置信度并不高。圖11 (b)是在電梯附近拍攝的圖片,圖中有兩人,模型檢測出兩人。(a)、(b)兩圖中的行人目標均不存在遮擋現象。

圖12 (a)是在圖書館入口拍攝的圖片,圖中共3人,模型檢測出3人。圖12 (b)是在書架區拍攝的圖片,圖中共2人,模型檢測出2人,并且檢測出了一些書籍,說明所提方法對小目標物體也有比較好的檢測效果。

圖13是在圖書館自習區拍攝的圖片,(a)圖中模型共檢測出13人,(b)圖中模型共檢測出5人。可以看到,模型也能檢測出遠處的行人目標,不過近處行人目標的檢測結果的置信度高于遠處的。

圖14是在辦公區拍攝的圖片,辦公桌與辦公桌之間有隔板,導致遮擋問題更嚴重。(a)圖中模型共檢測出5人,(b)圖中模型共檢測出3人,遮擋十分嚴重的目標檢測不出來。

基于預訓練模型的深度學習算法的結果如圖15所示:

當門限值score_threhold=0.5時,該模型對行人目標(person)的檢測性能指標分別為:AP=92.23%;F1=0.90;Recall=90.75%;Precision=88.73%;LAMR=0.23。可以看到模型的查全率和精確度都比較高,總體檢測精度較高,且在檢測時輸入圖片只需等待2~3s即可出檢測結果,檢測速度也很快。

4.3 實驗對比分析

比較圖6和圖11,圖7和圖12,圖8和圖13,圖9和圖14可知,對于近處的行人目標,Faster R-CNN和基于預訓練模型的深度學習算法都有很好的檢測效果,對于遠處的行人目標和被遮擋的行人目標,基于預訓練模型的深度學習算法的檢測結果優于Faster R-CNN的結果,并且基于預訓練模型的深度學習算法也能檢測出小目標物體。

整體來說,從圖書館場景行人目標檢測的結果可以看出,基于Faster R-CNN的方法和基于預訓練模型的深度學習算法都能在復雜的實際背景中檢測出大部分行人目標,包括站立、行走、坐姿以及靠在一起的行人目標,并且置信度也充分反映了行人目標檢測的實際情況:站立行人目標的被檢測置信度一般大于坐姿行人目標的被檢測置信度;近處行人目標的被檢測置信度大于遠處行人目標的被檢測置信度;無遮擋的行人目標的被檢測置信度明顯大于有遮擋的行人目標的被檢測置信度,不過,基于預訓練模型的深度學習算法的效果顯然比Faster R-CNN效果更好。

表1列出了幾種典型深度學習方法的性能指標。從表中可以看出,作為典型的兩階段檢測算法,Faster R-CNN擁有較高的查全率,總體檢測精度較高,但檢測速度較慢。基于預訓練模型的深度學習算法是從YOLO算法中改進而來,在保持了其快速檢測速度的優勢的同時,還提高了檢測精度。從表中也可以看到,YOLOv3模型精度較高于Faster R-CNN模型,查全率較低于Faster R-CNN模型,總體檢測精度高于Faster R-CNN模型,且檢測速度明顯優于Faster R-CNN。通過預訓練模型和損失函數的改進,對于模型的精度都有提升效果,其中修改損失函數可以明顯提高精確度,使用預訓練模型可以明顯提高查全率。兩種方法同時使用,查全率和精度均能提高,效果更好。

5 結語

行人目標檢測在近年來成為計算機視覺研究中的熱點,深度學習及卷積神經網絡的飛速發展、普及和廣泛使用使行人目標檢測邁入一個新的階段。本文研究基于預訓練模型的深度學習行人目標檢測算法如何應用在圖書館的實際場景中,檢測結果表明,基于預訓練模型的深度學習檢測算法在查全率和精度上相比YOLOv3均有所提高,檢測速度也很快,能夠滿足圖書館不同場景下行人目標檢測的需求。在預訓練模型的基礎上同時改進損失函數,可以明顯提高查全率和精度。

基于預訓練模型的深度學習算法在圖書館行人目標檢測中雖然有許多潛在優勢,但也存在一些局限性和挑戰。如:(1)數據需求。深度學習算法通常需要大量的標記數據進行訓練,這可能對圖書館等特定場景的數據收集構成挑戰。獲取大規模、多樣化的數據可能會很昂貴和耗時。(2)隱私問題。在圖書館進行行人目標檢測涉及到訪客的隱私問題。深度學習算法可以捕獲個體的位置和行為,這可能引發隱私擔憂,特別是在沒有明確許可的情況下。(3)硬件要求。深度學習算法通常需要強大的計算資源,尤其是用于實時行人目標檢測的情況。這可能需要昂貴的硬件和能源成本,對小型或資源受限的圖書館不太實際。盡管深度學習在圖書館行人目標檢測中存在一些局限性,但隨著研究的不斷進展和技術的改進,這些問題可以得到緩解。未來的研究可能會集中在改進深度學習模型的魯棒性、提高數據隱私保護、優化硬件和算法效率,以及遵守法規和倫理標準等方面。這些努力有望進一步拓展深度學習在圖書館行人目標檢測中的應用前景。

注釋:

① AP:Average Precision (平均精度)是一種用于衡量其檢測結果的質量的指標。AP值越高,表示模型在檢測目標時具有更高的準確性和召回率。AP的計算通常涉及生成精確度-召回率曲線,并在曲線下面積計算平均精度。這個值越高,模型的性能就越好。

F1:是一個綜合性能指標,結合了召回率和精確度。在二元分類問題中它用于度量模型的準確性和召回性能。用于平衡模型的誤報和漏報的指標。高F1表示模型在精確性和召回率之間取得了良好的平衡。計算方式為:F1 = 2 * (Precision * Recall) / (Precision + Recall)。

Recall:召回率是指在正類別樣本中,模型成功捕獲到的樣本數量與實際正類別樣本總數之比。高召回率表示模型能夠捕獲更多的正類別樣本,但可能伴隨著更高的誤報率。計算方式為:Recall = TP / (TP + FN)。

Precision:精確度是指模型正確分類為正類別的樣本數量與所有分類為正類別的樣本數量之比。高精確度表示模型在正類別預測中犯錯較少。計算方式為:Precision = TP / (TP + FP)。

LAMR:表示模型在平均情況下漏檢的程度,以對數的方式來度量。較低的 LAMR值表示模型在平均情況下更好地檢測到目標,而較高的 LAMR 值表示模型在平均情況下漏檢較多。

參考文獻:

[1] MHALLA A,CHATEAU T,AMARA N E B.Spatio-temporal object detection by deep learning:Video-interlacing to improve multi-object tracking[J].Image and Vision Computing,2019,88:120-131.

[2] 夷德.基于YOLO的目標檢測優化算法研究[D].南京:南京郵電大學,2021.

[3] XUE Y,JU Z,LI Y,et al.MAF-YOLO:Multi-modal attention fusion based YOLO for pedestrian detection[J].Infrared Physics amp; Technology,2021,118:103906.

[4] CHAHYATI D,FANANY M I,ARYMURTHY A M.Tracking people by detection using CNN features[J].Procedia Computer Science,2017,124:167-172.

[5] 趙瓊婷,李旭,董軒,等.基于超分辨率特征的小尺度行人目標檢測網絡研究[J].傳感器與微系統,2022,41(6):56-60.

[6] LI Y D,DONG H,LI H G,et al.Multi-block SSD based on small object detection for UAV railway scene surveillance[J].Chinese Journal of Aeronautics,2020,33(6):1747-1755.

[7] SHINDE S,KOTHARI A,GUPTA V.YOLO based human action recognition and localization[J].Procedia Computer Science,2018,133:831-838.

[8] 陳光喜,蔡天任,黃勇,等.基于聚合通道特征及卷積神經網絡的行人目標檢測[J].計算機應用與軟件,2018,39(7):2059-2063,2068.

[9] 張海濤,張夢.引入通道注意力機制的SSD目標檢測算法[J].計算機工程,2020,46(8):264-270.

[10] 謝永明,王紅蕾.復雜背景下遠距離及小尺寸行人目標檢測改進算法[J].計算機工程與設計,2021,42(5):1323-1330.

[11] 舒壯壯,單梁,馬苗苗,等.基于YOLOv3的改進行人目標檢測算法研究[J].南京理工大學學報,2021,45(3):259-264.

[12] WANG J,ZHAO C,HUO Z,et al.High quality proposal features generations for crowded pedestrian detection[J].Pattern Recognition,2022,28:108605-108612.

[13] MURUGAN B S,ELHOSENY MSHANKAR K,et al.Region-based scalable smart system foranomaly detection in pedestrian walkways[J].Computers amp; Electrical Engineering,2019,75:146-160.

[14] AMUDHAN A N,SUDHEER A P.Lightweight and computationally faster hypermetropic convolutional neural network for small size object detection[J].Image and Vision Computing,2022,119:104396-104402.

[15] MHALLA A,CHATEAU T,MAAMATOU H,et al.SMC faster R-CNN:Toward a scene-specialized multi-object detector[J].Computer Vision and Image Understanding,2017,164:3-15.

[16] BOSQUET B,MUCIENTES M,BREA V M.STDnet-ST:Spatio-temporal ConvNet for small objectdetection[J].Pattern Recognition,2021,116:107929.

[17] MURTHY C B,HASHMI M F,MUHAMMAD G,et al.YOLOv2PD:An efficient pedestrian detection algorithm using improved YOLOv2 Model[J].Cmc-Computers Materials amp; Continua,2021,69:3015-3031.

[18] 牛悅,李輝,劉釗.基于深度學習的行人目標檢測方法在圖書館中的應用研究[J].圖書館雜志,2021,40(9):62-69.

[19] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[J].IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016,90:770-778.

作者簡介:嚴珊,中南財經政法大學圖書館館員,研究方向為智慧圖書館、深度學習、人工智能、學科服務。

收稿日期:2023-08-25本文責編:孫曉清

猜你喜歡
圖書館
去圖書館坐坐
發明與創新(2021年6期)2021-03-10 07:13:54
圖書館
圖書館里送流年
圖書館
文苑(2019年20期)2019-11-16 08:52:12
夜間的圖書館
幽默大師(2019年5期)2019-05-14 05:39:38
圖書館里的小驚喜
圖書館 Library
幼兒畫刊(2018年11期)2018-12-03 05:11:44
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
主站蜘蛛池模板: 日韩成人午夜| 天天色天天综合| 99青青青精品视频在线| 一本色道久久88综合日韩精品| 久久香蕉国产线看观看式| 欧美国产在线看| 国产成在线观看免费视频 | 亚洲成人手机在线| 亚洲福利视频网址| 玖玖免费视频在线观看| 欧美亚洲日韩中文| 日本黄网在线观看| 18黑白丝水手服自慰喷水网站| 性欧美在线| 国产视频 第一页| 成人精品在线观看| 亚洲天堂视频在线观看免费| 黄色在线不卡| 国产精品美女在线| 日本欧美在线观看| 国产精品久久久久久久久久98| 国模私拍一区二区三区| 国产手机在线ΑⅤ片无码观看| 国产男女免费视频| 国产女人爽到高潮的免费视频 | 国产无码精品在线| 国产精品欧美激情| 91色老久久精品偷偷蜜臀| 中文一级毛片| 2021国产精品自产拍在线| 国产精品久久自在自2021| 久久精品一品道久久精品| 激情在线网| 四虎成人精品在永久免费| 国产真实乱了在线播放| 在线观看无码a∨| 免费播放毛片| 国产玖玖玖精品视频| 亚洲无线一二三四区男男| 亚洲天堂精品视频| 国产乱人免费视频| 久久一日本道色综合久久| 国产欧美高清| 亚洲人成成无码网WWW| 久久精品只有这里有| 亚洲永久免费网站| 国产在线小视频| 亚洲系列中文字幕一区二区| AV天堂资源福利在线观看| 午夜视频在线观看区二区| 福利在线不卡| 国产亚洲精品资源在线26u| 亚洲国产成人在线| 亚洲综合网在线观看| 国产一区二区三区在线观看免费| 色婷婷电影网| 国产精品欧美日本韩免费一区二区三区不卡| 动漫精品中文字幕无码| 成人午夜网址| 亚洲精品第1页| 亚洲精品男人天堂| 青青国产在线| 在线免费无码视频| 青草视频久久| 天天爽免费视频| 99激情网| 国产成人永久免费视频| 54pao国产成人免费视频| 成人在线亚洲| 国产丝袜91| 中文字幕调教一区二区视频| 91精品国产丝袜| 在线色综合| 人妻熟妇日韩AV在线播放| 亚洲一区二区视频在线观看| 99久久精品国产综合婷婷| 久久国产精品娇妻素人| 久久综合激情网| 亚洲视频黄| 亚洲Aⅴ无码专区在线观看q| 99视频精品全国免费品| 喷潮白浆直流在线播放|