基于多頭注意力融合的場景文本識別

2024-11-15 00:00:00黃俊煬陳宏輝王嘉寶陳平平

無線電工程 2024年11期

關鍵詞：計算機視覺；場景文本識別；注意力機制；特征信息關聯

中圖分類號：ＴＮ９１１．７３文獻標志碼：Ａ開放科學（資源服務）標識碼（ＯＳＩＤ）：

文章編號：１００３－３１０６（２０２４）１１－２５７６－０９

０引言

場景文本識別（SｃｅｎｅＴｅｘｔＲｅｃｏｇｎｉｔｉｏｎ，ＳＴＲ）在提取自然場景中的文本信息方面對于許多高級視覺應用至關重要［１］。與光學字符識別（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，ＯＣＲ）相比［２］，ＳＴＲ的不同之處在于ＯＣＲ主要在更結構化的環境中運行，而ＳＴＲ旨在識別各種不受限制的背景環境中的字符，例如墻壁、招牌、產品標簽、路標和標記等。由于拍攝的圖像可能存在嘈雜、模糊或扭曲等情況，場景文本圖像在識別任務上具有挑戰。此外，文本圖像在字體樣式、方向、形狀、大小、顏色、紋理和照明等方面存在許多不同程度的變化，這些變化對ＳＴＲ的性能有著重大影響［３］。因此，ＳＴＲ任務是一個重要且具有挑戰性的研究問題。

深度學習對于ＳＴＲ領域的發展起到了巨大推動作用［４］，使得自然場景中文本裁剪圖像在識別精度方面取得了突破性進展。然而，在ＳＴＲ的大量研究中［５］，重點一直放在識別準確性上，對識別速度和模型計算量要求的關注相對較少。對于計算資源受限的邊緣設備來說，識別速度和計算效率與識別準確性同樣重要［６］。這里的準確性指的是正確識別文本的能力，速度指的是單位時間內處理文本圖像的數量，效率可以通過參數和計算量（例如每秒浮點運算次數（ＦｌｏａｔｉｎｇＰｏｉｎｔＯｐｅｒａｔｉｏｎｓＰｅｒＳｅｃｏｎｄ，ＦＬＯＰＳ））來衡量，其中，參數的數量反映了內存需求，而ＦＬＯＰＳ估計了完成任務所需的指令數量。部署于邊緣設備的ＳＴＲ模型應該在準確性和速度、效率之間擁有較好的平衡。

為了平衡識別任務的準確性、速度和效率，本文提出了一種基于多頭注意力融合的自然場景文本識別（ＳｃｅｎｅＴｅｘｔＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎＭｕｌｔｉ-ＨｅａｄＡｔ-ｔｅｎｔｉｏｎＦｕｓｉｏｎ，ＭＡＦ）算法。該算法利用輕量級的多頭注意力機制（Ｍｕｌｔｉ-ＨｅａｄＡｔｔｅｎｔｉｏｎ，ＭＨＡ）［７］以及ＬｉｎｆｏｒｍｅｒＳｅｌｆ-Ａｔｔｅｎｔｉｏｎ［８］融合感知文本圖像的視覺、位置和語義信息。本文使用位置編碼查詢視覺特征得到增強位置編碼，以增強感知字符之間的間距變化。同時，結合輸入上下文和置換模型，捕獲文本圖像的語義特征信息，提高模型對自然文本圖像中字符距離和上下文語義相似性的感知能力。最后，通過解碼視覺和語義特征信息，利用視覺和文本序列特征之間的互補性來獲得識別結果，提高識別任務的精度和速度，同時優化計算性能。

１相關工作

ＳＴＲ是一個長期以來備受關注和研究的課題［９］。隨著深度學習方法的普及［１０］，ＳＴＲ方法在領域內的有效性得到了廣泛驗證。根據是否應用語義信息，本文將ＳＴＲ方法大致分為２類，即語義信息無關的方法和語義信息增強的方法。

１．１語義信息無關的ＳＴＲ方法

上下文無關的ＳＴＲ方法直接利用圖像特征來預測字符，輸出的字符在條件上相互獨立。在ＳＴＲ方法中，主流的圖像特征提取方法是卷積神經網絡（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）［１１］。基于連接主義時間分類（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＣＴＣ）的方法［１２］先通過ＣＮＮ和循環神經網絡（Ｒｅ-ｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，ＲＮＮ）提取特征向量，再利用ＣＴＣ［１３］來完成序列識別。ＣｌａｓｓｉｆｉｃａｔｉｏｎＰｅｒｓｐｅｃｔｉｖｅｏｎＳｃｅｎｅＴｅｘｔＲｅｃｏｇｎｉｔｉｏｎ（ＣＳＲＴ）［１４］將ＳＴＲ轉化為多實例分類問題。但由于上下文無關的方法僅依賴于圖像特征進行預測，因此對于被遮擋或不完整的字符的魯棒性較差。受Ｔｒａｎｓｆｏｒｍｅｒ［７］在自然語言處理任務中的成功啟發，Ｔｒａｎｓｆｏｒｍｅｒ在ＳＴＲ中的應用也越來越受到關注。ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ（ＶｉＴ）［１５］直接處理不帶卷積的圖像塊，開啟了使用Ｔｒａｎｓｆｏｒｍｅｒ塊而不是ＣＮＮ來解決計算機視覺問題的開端［１６］，并取得了顯著效果。ＶｉＴＳＴＲ［６］試圖簡單地利用ＶｉＴ最后一層的特征表示進行并行的字符解碼。通常情況下，無語義方法由于缺乏語言信息而無法識別低質量的圖像，促使ＳＴＲ任務利用語言語義來增強模型的魯棒性。

１．２語義信息增強的ＳＴＲ方法

上下文感知的ＳＴＲ方法通常利用從數據中學習到的語義信息來輔助識別。基于ＲＮＮ的方法［１７］可以有效地捕捉字符之間的順序依賴關系，將其視為一種隱性語言模型。然而，在訓練和推理過程中，它們無法同時進行解碼。隨著文本識別基準的提高和對各種形狀文本圖像魯棒性要求的增加，基于注意力機制的識別方法取得了顯著進展，基于注意力模型的遞歸循環神經網絡模型（ＲｅｃｕｒｓｉｖｅＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓｗｉｔｈＡｔｔｅｎｔｉｏｎＭｏｄｅｌｉｎｇ，Ｒ２ＡＭ）［１０］首次將注意力機制引入ＳＴＲ，采用了一維圖像特征序列和字符序列嵌入相結合的方法，充分利用語義線索。語義推理網絡（ＳｅｍａｎｔｉｃＲｅａｓｏｎｉｎｇＮｅｔｗｏｒｋ，ＳＲＮ）［１８］提出了全局語義推理模塊，通過多個并行傳輸捕捉全局語義上下文。Ａｔｔｅｎ-ｔｉｏｎａｌＳｃｅｎｅＴｅｘｔＲｅｃｏｇｎｉｚｅｒｗｉｔｈＦｌｅｘｉｂｌｅＲｅｃｔｉｆｉｃａｔｉｏｎ（ＡＳＴＥＲ）［１９］通過空間Ｔｒａｎｓｆｏｒｍｅｒ網絡校正方向或彎曲的文本，然后使用注意力序列到序列模型進行識別。Ａｕｔｏｎｏｍｏｕｓ，ＢｉｄｉｒｅｃｔｉｏｎａｌａｎｄＩｔｅｒａｔｉｖｅＮｅｔｗｏｒｋｆｏｒＳＴＲ（ＡＢＩＮｅｔ）［２０］提出了雙向完形網絡來顯式地建模語言信息，并進一步用于迭代修正。視覺語言建模網絡（ＶｉｓｕａｌＬａｎｇｕａｇｅＭｏｄｅｌｉｎｇＮｅｔｗｏｒｋ，ＶｉｓｉｏｎＬＡＮ）［２１］引入了一種視覺推理模塊，通過在特征級別對輸入圖像進行屏蔽，同時捕捉視覺和語言信息。

２提出的方法

本文提出了一種基于ＭＨＡ融合的自然ＳＴＲ算法——ＭＡＦ，利用輕量級的ＭＨＡ機制［７］和ＬｉｎｆｏｒｍｅｒＳｅｌｆ-Ａｔｔｅｎｔｉｏｎ［８］來提取和融合場景文本圖像的視覺、位置和語義特征信息，并解碼視覺特征和語義特征信息以獲取文本識別結果。基于ＭＨＡ融合的文本識別網絡遵循編碼器－解碼器的網絡架構，ＭＡＦ整體網絡結的如圖１所示。

該架構通常用于序列建模任務，編碼器的分支和層數多于解碼器，這種深淺配置［２２］關系可以最小化模型的總體計算需求，同時對識別任務性能的影響可以忽略不計。接下來詳述該精確高效的ＳＴＲ算法的設計原理。首先，將給定的自然場景文本圖像Ｙ∈R^{ｈ×ｗ×３}輸入到視覺編碼器中，ｈ和ｗ是輸入圖像的寬度和高度，３為圖像的通道數，獲取文本圖像的視覺特征信息Ｆ_ｖ。其次，使用位置編碼Ｆ_ｐ查詢視覺特征Ｆ_ｖ，以獲取增強位置編碼Ｆ_ｅｐ，從而使模型感知字符之間的間距變化。然后，將增強位置編碼Ｆ_ｅｐ應用于語義編碼器查詢輸入上下文和置換模型，感知圖像中的上下文語義相似性來獲取文本圖像的語義特征信息Ｆ_ｓ。最后通過視覺－語義解碼器，利用視覺特征和文本序列之間的互補性進行解碼得到文本識別結果Ｙ_ｏｕｔ。

２．１視覺編碼器

本文提出的視覺編碼器的整體結構如圖２所示。

視覺編碼器基于ＭＨＡ機制來實現對文本圖像視覺特征信息的提取。通過提取深度的視覺信息，ＭＦＡ能夠精確有效地對字符進行預測分類，在模糊或變形的情況下依舊能夠有效識別文本字符。視覺編碼器部分主要包括１２層ＶｉＴ編碼器和一層Ｌｉｎ-ｆｏｒｍｅｒＳｅｌｆ-Ａｔｔｅｎｔｉｏｎ。

Ｔｒａｎｓｆｏｒｍｅｒ［７］能夠有效處理序列之間的長期復雜的依賴關系，并在視覺特征上建立空間距離概念的信息交互。ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ［１５］是Ｔｒａｎｓｆｏｒｍｅｒ在圖像領域的直接擴展應用。本文將ＭＨＡ機制表示為ＭＨＡ（ｑ，ｋ，ｖ，ｍ），其中ｑ、ｋ和ｖ表示對應的參數查詢、鍵和值，ｍ表示可選的注意掩碼。ＶｉＴ編碼層中包含一個用于自注意的ＭＨＡ模塊，即將查詢、鍵和值用同一個值進行代替。ＶｉＴ編碼器部分是一個１２層的ＶｉＴ編碼層，沒有分類頭和［ＣＬＳ］令牌。為了在模型性能和效率之間取得平衡，本文將ＶｉＴ編碼器中的ＭＨＡ層的注意力頭的數量設置為３，中間特征層的尺寸設置為７６８。圖像Ｙ∈R^{ｈ×ｗ×ｃ}，其中寬度為ｗ，高度為ｈ，通道數為ｃ。將圖像平均劃分為ｐ_ｗ × ｐ_ｈ大小的ｐａｔｃｈｅｓ，并將每個ｐａｔｃｈ攤平，使用ｐａｔｃｈ嵌入矩陣Ｗｐ將其線性投影到維度為ｄ_{ｍｏｄｅｌ} 的令牌中，從而得到（ｗｈ）／（ｐ_ｗｐ_ｈ）個令牌。在第一個ＶｉＴ層處理之前，學習到的等維位置嵌入將被添加到令牌中。具體計算過程如式（１）和式（２）所示，先將圖像輸入到ＭＨＡ模塊并進行殘差連接和歸一化，再將特征層輸入到前饋網絡（ＦｅｅｄＦｏｒｗａｒｄＮｅｔ-ｗｏｒｋ，ＦＦＮ）中同樣進行殘差連接和歸一化。

線性Ｔｒａｎｓｆｏｒｍｅｒ使用低秩矩陣近似來表示自注意力機制，其性能與標準Ｔｒａｎｓｆｏｒｍｅｒ模型相當，同時具有更高的內存和時間效率。使用Ｌｉｎｆｏｒｍｅｒ自注意力機制，在僅增加少量模型參數的同時，實現了對更深層次的文本視覺特征的提取。視覺特征Ｆ_ｖ的提取過程如下：

２．３視覺－語義解碼器

在視覺－語義解碼器模塊中，通過融合前面ＭＨＡ獲得的視覺特征和語義特征，實現文本圖像視覺信息和序列特征之間的全局語義相似性交互，從而實現精確高效的文本字符識別。視覺－語義解碼器的網絡結構如圖４所示，其中利用語義編碼器生成的語義特征作為查詢向量，與視覺特征進行ＭＨＡ機制的融合，以關聯語義域和視覺域的每個元素，并通過多層感知機（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｉｏｎ，ＭＬＰ）以及殘差連接和線性分支完成字符的識別。

３實驗結果和分析

３．１數據集

由于已標記的真實數據［２５］相對稀缺，傳統上ＳＴＲ模型是在大規模合成數據集上進行訓練的。然而，近年來已標記的真實數據量已經足夠訓練ＳＴＲ模型。事實上，在真實數據上訓練比在合成數據［２６］上更具樣本效率。因此，本文采用真實數據進行訓練。數據集示例圖像如圖５所示，真實自然ＳＴＲ數據集通常可分為規則和不規則２類。

（１）常規數據集的文本圖像通常是正面、水平，并具有小扭曲量。其中，ＩＩＩＴ５ｋ-ｗｏｒｄｓ（ＩＩＩＴ５ｋ）［２７］是由３０００張測試圖像組成的數據集，這些圖像來自于谷歌圖像搜索，主要包含街景中的招牌、品牌標識、門牌號碼、路牌等，這些圖像大多數是水平的。街景文本（ＳｔｒｅｅｔＶｉｅｗＴｅｘｔ，ＳＶＴ）［２８］數據集包含２５７張訓練圖像和６４７張測試圖像，這些文本圖像是從谷歌街景圖像中裁剪得到的。ＩＣＤＡＲ２０１３（ＩＣ１３）［２９］數據集是從２８８幅場景真實圖像中進行裁剪得到的。在Ｂａｅｋ等［２５］的工作中，選擇了８５７張圖像的版本進行測試，并刪除了非字母數字字符及長度小于３個字符的文本。

（２）不規則數據集包含彎曲、垂直、透視、低分辨率和扭曲的文本圖像。ＩＣＤＡＲ２０１５（ＩＣ１５）［３０］是一個包含１８１１張圖像的不規則數據集。該數據集中的詞大多是彎曲的、透視的和帶有陰影的，這些詞很難進行識別。ＳＶＴ-Ｐｅｒｓｐｅｃｔｉｖｅ（ＳＶＴＰ）［３１］是從谷歌街景創建的，其中大多數圖像是商業標識，包含６４５個彎曲的文本圖像。ＣＵＴＥ８０（ＣＵＴＥ）［３２］包含２８８張從襯衫和產品標識上捕捉到的彎曲文本圖像。

３．２評價指標

為了平衡識別模型的準確率和效率的重要性，本文選取識別文字準確率、速度、模型參數量和計算量作為本文算法的評估度量。文字準確率是ＳＴＲ基準測試的主要指標，只有在所有位置的字符都匹配時，預測結果才被認為是正確的。速度是通過單位時間內處理的文本圖像數量來衡量的。效率則通過處理一張圖像所需的參數數量和計算量（例如ＦＬＯＰＳ）來近似表示。參數數量反映了內存需求，而ＦＬＯＰＳ估計了完成任務所需的指令數量。

３．３實驗細節

本文提出的算法模型在混合精度、雙ＧＰＵ設置下使用ＰｙＴｏｒｃｈＤＤＰ進行訓練，批量大小設置為３８４。使用Ａｄａｍ優化器和ｏｎｅ-ｃｙｃｌｅ學習率調度器。在迭代總次數的３／４時，使用隨機加權平均（ＳｔｏｃｈａｓｔｉｃＷｅｉｇｈｔＡｖｅｒａｇｉｎｇ，ＳＷＡ），并用ＳＷＡ調度器代替１ｃｙｃｌｅ調度器。ｐａｔｃｈ大小設置為８×４。輸入圖像大小調整為１２８×３２。圖像經過擴充、調整大小后，最后歸一化到［－１，１］。增強數據集主要包括ＲａｎｄＡｕｇｍｅｎｔ操作。所有實驗均基于２張ＮＶＩＤＩＡＧｅＦｏｒｃｅ３０９０Ｔｉ的ＧＰＵ進行。

３．４消融實驗

為了證明本文所提出的算法能夠有效地平衡識別算法的準確率和效率的重要性，本節設計２組消融實驗來證明算法模塊對ＳＴＲ算法的準確率和模型參數量的影響，所有實驗環境均相同，識別準確率使用在真實ＳＴＲ數據集ＩＣ１５［３０］上測試得到的結果。

３．４．１增強位置編碼的有效性

本小節評估了使用位置信息與視覺特征進行交互得到的增強位置編碼用于后續的數據關聯對實驗結果的影響。設計２組結構與增強位置編碼進行對比，第一組沒有進行交互感知，僅僅使用整型位置標記方法得到位置信息，第二組使用正弦位置編碼得到位置編碼信息與后續數據進行關聯。消融實驗的具體結果如表１所示，其中加粗字體為最優結果。

表１實驗結果顯示，與前２組實驗相比，使用增強位置編碼得到的位置信息進行后續的信息關聯在ＩＣ１５數據集上的識別準確率提高１．６％～２．３％，而在模型參數上僅增加了８×１０^５，ＦＬＯＰＳ指標上僅增加了１×１０^８。實驗證明，本文提出的增強位置編碼模塊能夠很好地將位置信息與視覺特征關聯起來，更好地感知字符間的間距變化，在增加少量模型參數的情況下提高了自然ＳＴＲ的精度。

３．４．２視覺編碼器的有效性

本小節評估了在視覺編碼器中采用了不同部件在視覺特征提取方面對文本識別精度和模型參數量實驗結果的影響。在ＩＣ１５數據集上設置了２組對比實驗，第一組為僅采用ＶｉＴ編碼器作為視覺特征提取部分，沒有后續深入的特征提取操作。第二組為在ＶｉＴ編碼器后加入了Ｌｉｎｆｏｒｍｅｒ注意力機制進行深一層次的視覺特征提取，將提取得到的視覺特征信息與后續數據進行融合解碼，其他設置均相同。消融實驗具體結果如表２所示，其中加粗字體為最優結果。

由表２可知，在ＩＣ１５數據集的驗證下，本文所設計的視覺編碼器比僅使用ＶｉＴＥｎｃｏｄｅｒ的視覺特征提取模塊在模型參數量僅增加５ ×１０^５的情況下，字符識別準確率提高了０．６％。實驗結果證明在增加少量模型參數以及計算量的前提下，本文所設計的視覺特征提取模塊可以更好地提取深度的視覺特征，有利于后續的數據融合，提高整體識別任務的精度。

３．５對比實驗

為了證明本文所提出算法有效平衡了識別任務準確性和效率之間的重要性，通過實驗分別對比了不同方法的識別準確性、模型參數、計算量以及速度。首先在表３中展示了ＭＡＦ方法在規則數據集（ＩＣ１３［２９］、ＳＶＴ［２８］和ＩＩＩＴ５ｋ［２７］）上的實驗結果并將該方法與先進的ＳＴＲ方法的實驗結果進行比較，其中加粗字體為最優結果。從表３可以看出，本文提出的方法在規則數據集（ＩＣ１３、ＳＶＴ和ＩＩＩＴ５ｋ）上的識別性能與主流的算法相比，在ＩＣ１３上提高了０．４％～８．７％，在ＳＶＴ上提高了１．１％～１７．６％，在ＩＩＩＴ５ｋ上提高了０．５％～１６．９％。

表４展示了ＭＡＦ方法在不規則數據集（ＩＣ１５［３０］、ＳＶＴＰ［３１］和ＣＵＴＥ［３２］）上的實驗結果并將該方法與先進的ＳＴＲ方法的實驗結果進行比較，其中加粗字體為最優結果。

從表４可以看出，本文提出的方法在不規則數據集（ＩＣ１５、ＳＶＴＰ和ＣＵＴＥ）上的識別性能與主流的算法相比，在ＩＣ１５上提高了０．９％～２４．２％，在ＳＶＴＰ上提高了０．５％～１０．０％，在ＩＩＩＴ５ｋ上僅次于ＰＡＲＳｅｑＡＴｉｎｙ算法。

表５展示了ＭＡＦ方法在模型參數量、計算量和速度上的實驗結果并將該方法與先進的ＳＴＲ方法的實驗結果進行比較，其中加粗字體為最優結果。可以看到，本文提出方法識別任務的準確性和效率的重要性取得了較好的平衡，在較小模型參數量、計算量和較快的識別速度的基礎上，在大部分真實場景識別數據集上的識別性能優于其他算法。

圖６展示了ＭＡＦ在不同真實場景數據集（包括ＩＣ１３［２９］、ＳＶＴ［２８］、ＩＩＩＴ５ｋ［２７］、ＩＣ１５［３０］、ＳＶＴＰ［３１］和ＣＵＴＥ［３２］）的識別結果，其中圖片上面的字符代表的是文本圖像所屬的數據集，圖片下面第一行黑色字體為圖片所對應的真實標簽識別結果，第二行中的字符為ＭＡＦ的識別結果，其中綠色字體為識別正確的字符，紅色加粗字體為識別錯誤的字符。

４結束語

本文提出了一種基于ＭＨＡ融合的自然ＳＴＲ算法——ＭＡＦ，利用輕量化ＭＨＡ機制和Ｌｉｎｆｏｒｍｅｒ注意力機制融合感知文本圖像的視覺、位置和語義特征信息。通過增強位置編碼模塊，使字符特征與位置信息相對齊。利用增強位置編碼與輸入上下文和置換模型進行交互感知，獲取文本圖像的語義特征信息。在視覺－語義解碼器中利用ＭＨＡ機制進行解碼，利用視覺和文本序列特征之間的互補性來得到識別結果。多模態的信息交互融合能夠使模型更好地感知文本圖像中字符間的間距變化和語義相似性，使得算法網絡能夠在真實場景文本圖像數據集上獲得更好的泛化性。實驗結果表明，ＭＡＦ在真實ＳＴＲ數據集上取得了平均９５．６％的識別準確率，同時模型的參數量僅有７．６×１０^６以及ＦＬＯＰＳ為１．０×１０^９，有效平衡了識別任務的準確性和效率。

作者簡介

黃俊煬男，（１９９８—），碩士研究生。主要研究方向：計算機視覺、場景文本圖像超分辨率識別。

陳宏輝男，（１９９８—），博士研究生。主要研究方向：計算機視覺、場景文本檢測識別。

王嘉寶男，（１９９９—），碩士研究生。主要研究方向：計算機視覺、場景文本檢測。

陳平平男，（１９８６—），博士，教授，博士生導師。主要研究方向：機器學習、５Ｇ通信、智能信息等數據傳輸分析及應用。福州大學“旗山學者”。獲２０１９年廣州省科技進步二等獎，主持國家自然科學面上基金、青年基金；發表ＳＣＩ／ＥＩ學術論文４０余篇；擔任多個國際權威通信會議ＴＰＣ組委會成員，２０１９年ＩＳＷＣＳ通信會議分會的組委會主席。

無線電工程2024年11期

無線電工程的其它文章: 基于雷視融合YOLOv5變電站行人檢測; 基于物聯網的實時異常用電行為監測系統設計; 基于Harmony OS與NB IoT的城市共享停車系統設計與性能評估; 基于同步預測的無線傳感網絡自適應采樣節能策略研究; 無人機連接蜂窩網絡的應用與挑戰; 無人機射頻指紋識別方法綜述