文/張芝怡朱長征龍艷
國內日平均3億多單的快遞包裹需要末端網點高效的分揀作業,國內大量末端快遞網點因無力支付高昂的企業數據平臺對接費用,大多還采用人工+傳送帶的低效分揀方式。本文設計了一種基于文字識別的快遞面單三段碼識別方法,并基于開源的OCR識別模型進行了驗證。該方法用于自動化分揀設備,無須再對接企業數據,為末端網點普及自動化分揀系統設備提供了一種可行的方案。
國家郵政局2021年郵政行業發展統計公報中表明2021年快遞業務保持較快增長。全年快遞服務企業業務量完成1083.0億件,同比增長29.9%;快遞業務收入完成10332.3億元,同比增長17.5%。快遞包裹的分揀工作量越來越大,對時效要求也越來越高。國內各大快遞企業的一級分撥中心大多采用自動化分揀設備,而末端網點大多沿用人工+傳送帶的分揀方式,人工成本高、效率低,同時容易產生錯分和暴力分揀的問題。但現有的自動化分揀設備動輒幾百萬的價格、三四百平方米的占地面積,幾十萬的數據對接費用,完全不適用于末端網點。為解決末端網點分揀檢測效率低下且獲取訪問網點數據庫權限價格昂貴的問題,運用自主研發的三段碼技術提高了分揀的準確性且減少了獲取權限所需的高昂費用。
2.1 物流行業的自動化分揀情況。在2020-2021年,我國快遞行業業務總量保持逐年增長的趨勢。國家郵政局網站統計數據顯示,快遞行業業務量從2012年的56.9億件,增長至2021年的1083億件,2022年上半年,全國快遞服務企業業務量累計完成512.2億件,同比增長3.7%;業務收入累計完成4982.2億元,同比增長2.9%。我國有4萬多個,人均處理量在2-3萬件的末端網點,盡管國內少數大型物流運轉中心已開始采用全自動化分揀,但多數快遞公司處于半自動化狀態,末端物流分揀中心目前仍靠人工錄入地址信息、掃描進行分揀。因為末端快遞網點每一次的分揀都需要訪問總部數據庫后對快遞包裹進行分揀,因而需要繳納高昂的加盟費獲取訪問權限,對于末端網點而言是一筆巨大的開支。
2.2 國內大多數掃描技術應用現狀。通常,分揀快遞的依據是自動或者人工識別快遞單上的信息。快遞運單中的信息作為分揀快遞唯一的依據,是一種可視化的圖像數據,運單圖像中以兩種方式記錄著收、寄件人的個人信息和地理位置信息,其中,第一種為紙質信息說明,如運單中打印的收、寄件人信息,傳統的分揀快遞人員正是以此為依據對快遞包裹進行分揀;第二種為電子信息說明,如條形碼和三段碼,快遞分揀人員使用設備對電子信息進行掃描,從而完成快遞包裹的入庫、分揀和出庫。由于快遞運單在運輸的途中容易造成污染,導致通過識別條形碼來分揀快遞包裹的識別率并不高。快遞運單信息包括三段碼字符(一般由印刷體數字和大寫英文字母組成)和一維條形碼,它們都標明了快遞的發出所在地和接收所在地的代碼,通常,國內大分揀中心的自動分揀都是依靠圖像識別技術來識別一維條碼,然而三段碼字符也是需要識別的一個重要信息,但是目前幾乎沒有被使用。而且,小型分揀中心由于受到場地面積,成本的限制,目前大多數都是由人工識別快遞單上的三段碼字符。因此,研究如何高效識別運單信息,無論是對于大的分揀中心,還是小型的分揀網點,都將是提高快遞自動分揀效率的一個重要發展方向。
3.1 建立的背景。相較于當前主要以識別快遞包裹條形碼的識別方式,基于人工智能AI的機器模型設計及訓練,實現對快遞標簽三段碼的識別。三段碼的識別,無須對接快遞企業的數據系統,即可實現分揀作業。不僅節省了和各大快遞企業系統數據對接的費用,而且可以同時支持多家快遞企業包裹的分揀。
3.2 三段碼的定位。三段碼定位通過YOLOV4目標檢測網絡先對logo進行訓練,能夠識別出logo,得到logo標識的位置信息,通過logo位置信息定位出三段碼的相對位置,然后就完成了三段碼定位。
3.3 三段碼識別模式。將基于AI的目的地區域碼識別、配送目的地漢字識別和條形碼、二維碼識別三種方法相結合,提出了兩種面單全信息識別模式:三種方法互相驗證模式和三種方法互為備份(冗余)模式。互為驗證模式可以有效提高分揀準確率,做到對快件標簽信息識別的準確率達到99.9%以上。三種識別方法互為備份模式,可以應對分揀過程中的突發狀況,比如快件標簽部分信息污染或缺失、通信網絡阻塞或中斷。最大限度上確保自動化分揀系統的不間斷有效運轉。分揀時依據的是目的地區域碼,另外兩種識別作為校正手段,每個分揀隔口對應一個目的地區域碼的第三段碼。
3.4 三段碼的識別效果。快遞包裹標簽一般都包含快件的訂單號、三段碼和收寄人電話地址等信息。通過對十多萬張的標簽中的三段碼進行標注,制作了訓練樣本,并對機器模型進行訓練。訓練出的三段碼機器識別模型,可以準確識別快遞包裹三段碼信息,識別準確率達到90%以上,結合自主設計的三段碼校驗方法,可以使識別準確率達到99.9%以上。三段碼信息里包含了對快遞包裹進行分揀所需要的完整信息。識別出三段碼,無須像當前成熟市場中以識別條碼為主的快遞分揀系統,也不再需要訪問企業的數據系統,甚至無須網絡就可以對快遞包裹進行分揀作業。節省了和企業系統對接的一大筆費用,而且可以同時分揀多家快遞企業的包裹,提高快遞分揀系統的使用率,等效于降低了快遞分揀系統的投入成本。
3.5 基于印刷體識別開源模型,進行識別的認證。CnOCR是Python 3下的文字識別(Optical Character Recognition,簡稱OCR)工具包,支持簡體中文、繁體中文(部分模型)、英文和數字的常見字符識別,支持豎排文字的識別。自帶了20+個訓練好的識別模型,適用于不同應用場景,安裝后即可直接使用。同時,CnOCR也提供簡單的訓練命令供使用者訓練自己的模型。
目前三段碼機器識別模型可以準確識別快遞包裹三段碼信息,識別準確率達到90%以上,結合自主設計的三段碼校驗方法,可以使識別準確率達到99.9%以上,節約成本占系統總成本的50%。通過三種條碼,解決了一維條形碼受污從而不能識別面單信息的問題。一維條形碼的貯存數據不多,需要訪問網點數據庫而三段碼信息里包含了對快遞包裹進行分揀所需要的完整信息,保密性高。不僅節省了和各大快遞企業系統數據對接的費用,而且可以同時支持多家快遞企業包裹的分揀。三段碼的使用在識別準確性上超過了傳統的條碼識別,實現了技術突破,對于整個分揀過程的效率具有極大的提高。我國快遞業發展極其迅猛,近年來業務總量年均增速較快,身為一個快遞大國,在同時面臨面對勞動力人口數量及占比雙降,人力成本不斷上升的情況下,選擇自動化物流系統替代人工將成為長期必然選擇,從而實現降低生產成本提高生產效率。
引用出處
[1]韓貴金,胡仲陽,石海賓.基于YOLOv4與位置先驗的快遞三段碼檢測算法[J].《西安郵電學院學報》??2021,026(004)?-?105~110?
[2]趙楠楠,邱林,魏玉飛,等.一種可同時識別一維條碼和三段碼字符的快遞單識別方法:,CN112288372A[P].2021.