梁林森
?
復雜背景下電力客戶證件識別關鍵技術的研究與實現
梁林森
(廣州供電局信息中心,廣東 廣州 510200)
當今社會是信息化時代,很多企業都在運用證件識別技術,自動化錄入證件信息,這樣不僅可以降低人力成本,還可以提高客戶辦理業務的效率。證件識別關鍵技術的實現主要是基于光學字符識別技術,識別過程比較煩瑣,包括多種技術,在此背景下電力公司研究并實現了電力客戶證件識別的關鍵技術,優化電力客戶的檔案管理渠道,為電力客戶提供更好的服務,并提高對于營銷業務,特別是人工錄入客戶信息的風險控制能力。主要介紹了在光學字符識別技術下如何研究電力客戶證件識別的關鍵技術,簡述了實現電力客戶證件識別關鍵技術后的現實作用。
電力客戶;證件識別;光學字符識別;OCR
證件是一種具有法律效力的、可以證明身份的證書和資格證明文件,證件對我們的生活所起的作用很大,比如企業的營業執照可證明企業具有從事某種活動的資格,身份證可以證明個人身份,駕駛證可以證明持有人具有駕駛車輛的資格等。隨著信息化時代的到來和計算機與互聯網技術不斷發展,證件識別技術逐漸被研究與實現,自動化識別客戶證件不僅可以節約人力,還可以縮短客戶辦理業務的時間,提高運營效率。提供優質服務是電力公司生存、發展的必要條件,為電力客戶提供服務的優劣可以直接影響到客戶對公司的滿意度和社會贊譽度,電力公司必須緊隨時代潮流,運用先進技術為電力客戶提供最好的服務,滿足客戶的多種樣需求。因此,電力公司在此復雜背景下研究與實現證件識別技術,對電力客戶證件上的文字信息進行識別,自動化錄入、校驗、歸檔電力客戶的信息,實現客戶電子化檔案管理的精益化與高效化。證件識別關鍵技術是光學字符識別技術(OCR),OCR技術在很多行業已經被應用,比如銀行、海關、車管所等。證件識別技術與傳統的人工錄入方式有很大差別,可以提高證件信息錄入的速度和準確率。
光學識別技術是20世紀60年代出現的,經過不斷發展,已經有了印刷體OCR識別技術,可以識別多種字體,比如宋體、楷體、黑體等,并且還可以對不同字號的字體進行排版,目前已經被廣泛應用在圖書館、新聞、出版社等行業。除此之外,還有專業型的OCR技術,在銀行、海關、郵政等每天需要處理很多證件信息的行業被廣泛應用。光學字符技術是一項很強的專業技術,包括證件圖像的預處理、文字區域檢測、字符切割、字符識別四個過程,這項技術需要大量資金支持。
證件包括身份證、銀行卡、產權證明、戶口本、駕駛證、行駛證等,是記錄個人信息的重要憑證,可以證明持有人信息,也可以為群眾生活提供便利,保護群眾的合法權益。電力公司研究電力客戶證件識別關鍵技術基于光學字符識別技術,讀取二代身份證上的個人信息資料,再通過計算機技術將信息傳輸至計算機,這樣可以大大提高電力客戶證件信息錄入的準確度、及時性和安全性,為快速登記電力客戶信息提供便利。研究電力客戶證件識別關鍵技術過程包括客戶證件信息的預處理、證件上的文字區域檢測、字符切割及字符識別,流程如圖1所示。

圖1 流程圖
電力客戶證件識別關鍵技術的首要步驟是客戶證件信息的預處理,預處理技術主要有灰度化、二值化、膨脹與腐蝕等技術,主要是利用圖像處理技術獲取所需要的客戶的特征信息,提升圖像的質量,抑制不需要的干擾性的噪聲。預處理的首要工作就是根據噪聲的特征對待識別的圖像進行去噪處理,由于人工拍攝證件會出現傾斜,因此還需要進行傾斜矯正處理。這個步驟會直接影響到是否能夠順利提取目標證件所在的區域,進而影響到后續步驟的進行。
客戶證件信息預處理完成后需要進行的是檢測證件上的文字區域,常見文字區域檢測方法有紋理特征檢測方法,基于連通區域的檢測方法,或者兩者結合起來進行文字區域檢測的方法。證件上的文字具有自身特有的屬性,不同證件文字的筆畫、大小、結構都不一樣,采用基于膨脹算法的版面分析方法實現對每行信息進行準確切割:在進行版面分析的時候,采用自底向上的方法比較準確,適合一些比較復雜的版面,而由于字符、文本行之間有間隙,從而使各個連通區域比較瑣碎,這樣就大大地增加了運算量。
以前的版面分析技術采用“自底向上”的方法,是直接對版面圖像上的黑點進行搜索,獲得連通區域,這種方式容易受噪聲的干擾,運算速度比較慢,并且給后面的連通區域合并帶來很大的困難。
字符切割是進行字符識別的前提,字符切割方法主要有三種:①經典方法,即把圖像進行切割,把可能的字符切割出來;②基于識別的分割方法,即搜索待識別的圖像以找出可能的字符;③將整個單詞(word)作為整體來識別。
電力客戶證件識別關鍵技術的最后一步是字符識別,也是最重要的一步,電力客戶證件信息的字符識別正確率直接影響著整個證件識別技術系統,字符識別方法是基于數學理論設計的,主要方法有特征提取和降維。
特征是用來識別文字的關鍵信息,每個不同的文字都能通過特征來和其他文字進行區分。對于數字和英文字母來說,這個特征提取是比較容易的,因為數字只有10個,英文字母只有52個,都是小字符集。對于漢字來說,特征提取比較困難,因為首先漢字是大字符集,國標中光是最常用的,第一級漢字就有3 755個;第二個漢字結構復雜,形近字多。在確定了使用何種特征后,視情況而定,還有可能要進行特征降維,如果特征的維數過高(特征一般用一個向量表示,維數即該向量的分量數),分類器的效率會受到很大的影響,為了提高識別速率,往往就要進行降維,這個過程也很重要,既要降低維數,又得使減少維數后的特征向量還保留足夠的信息量(以區分不同的文字)。
電力客戶證件識別關鍵技術的實現方法是選擇合適的證件圖像預處理方法、證件文字區域檢測方法、字符切割方法、字符識別方法、字符匹配方法,自動化錄入電力客戶證件信息。目前,用戶可通過網上營業廳、微信在線辦理用電業務,辦理時直接上傳用戶證件照片,系統即可自動提取識別關鍵信息,解決用電客戶手工錄入體驗不佳的問題,提高業務辦理效率。
實現電力客戶證件識別關鍵技術可以提升供電營業服務水平,完善電力客戶的檔案信息電子化渠道的建設,提高業務辦理效率,解決業務人員手工錄入客戶信息速度慢、準確率低的情況,具有方便快捷、準確率高的優勢,提高客戶的滿意程度,減少電力客戶的投訴,提升電力公司的形象。
綜上所述,電力客戶證件識別關鍵技術的研究與實現具有快速準確的優勢,讓用戶在線辦理用電業務時感受到技術進步帶來的便利,這種技術可以縮短電力客戶辦理業務時間,也可以提高供電局的業務辦理效率,減少營業廳柜臺的壓力,節約人力成本,創造一個良好的電力經營環境。
[1]李文芳,鄭抗震.基于二代身份證識別技術的營業廳深化服務系統:中國,CN103632315A[P].2013-11-29.
[2]楊鈞.面向電力營銷服務的客戶身份自動識別系統設計[D].南寧:廣西大學,2011.
2095-6835(2019)07-0070-02
TP391.4
A
10.15913/j.cnki.kjycx.2019.07.070
〔編輯:嚴麗琴〕