姜 毅
(1. 山東省國土測繪院,山東 濟南 250013)
建立和實施不動產統一登記制度,是國務院機構改革和職能轉變的一項重點工作任務,也是完善社會主義市場經濟體制、建設現代市場體系的必然要求[1],受到黨中央、國務院的高度重視[2]。不動產權籍調查是不動產登記的基礎,是條例實施、簿冊統一和信息平臺建設的重要數據支持。做好農村不動產權籍調查工作,加快不動產統一登記、發證,對規范農村宅基地管理,深化農村改革,促進城鄉統籌發展,實現農村宅基地“三權分置”和“三變”改革具有重要意義[3]。近年來,全國各地區農村不動產權籍調查工作陸續開展,時間緊任務重,權源信息錄入是其中一項重要的內業工作。權源信息大多來自戶口簿、身份證等掃描件,數據格式為圖像,無法直接復制應用,且縣區掃描件數量少則十萬級多則百萬級,傳統內業人員手動錄入的工作方式在精度和效率上均難以滿足生產需求。現如今科學技術不斷發展,人工智能正加速改變各行各業,研究如何引入智能化方法,使得不動產權籍調查能精準、自動、快捷地獲取和處理多源異構數據具有重要意義。本文從圖像格式權源信息的智能化錄入著手,基于百度智能云文字識別算法,設計了高效、準確、自動的權源信息錄入方法,以提高權源信息的數字化、高效性、準確性和自動化,從而節約內業生產成本,助力測繪生產智能化發展,推動不動產統一登記的順利進行。
Microsoft Visual Studio[4]簡稱VS,是微軟研發的可視化開發工具,包括集成開發環境(IDE)、代碼管控工具、統一建模語言工具等完備的開發工具集。基于VS實現的目標代碼適用于所有微軟支持的平臺,主要包 括 Microsoft Windows、.NET Framework、 Windows Mobile等。
C#[5]是微軟公司發布的面向對象的編程語言,由C和C++衍生而來。這意味著它可以調用由C/C++編寫的本機原生函數與COM 直接集成,從而綜合VB 的簡單可視化操作和C++高效的運行效率。C#常用于獨立和嵌入式的系統程序編寫任務,適用范圍從特定小型系統到復雜大型系統,是.NET應用程序開發的首選語言。
百度智能云[6]是百度公司打造的智能云計算品牌,融合了云計算、大數據、百度大腦等百度核心技術,具有先進的技術和豐富的解決方案,能全面賦能各行各業、加速產業的智能化,將半人工智能輸送到千萬行業中去。百度智能云在深度學習、自然語言處理、語音技術和視覺技術等核心AI技術領域具有明顯優勢。百度智能云產品包括人工智能、計算與網絡、存儲和CDN、網站服務、智能視頻、智能大數據等方面,其中人工智能產品支持人臉識別FACE、文字識別OCR、全功能AI 開發平臺BML、智能對話定制以及服務平臺UNIT等豐富功能。
百度智能云文字識別OCR 依托于深度學習技術,提供自然場景下的文字檢測、定位、識別等功能,具有準確率高、服務穩定、支持多語種識別等特點;還能針對圖像模糊、傾斜、翻轉等情況進行專項優化,多項ICDAR 指標居世界第一,總體識別準確率高達99%,服務可用性可達99.99%。百度智能云文字識別官網案例如圖1所示。

圖1 百度智能云文字識別OCR示例
權源信息錄入操作多基于Windows7或Windows10等桌面操作系統,因此本文選用Visual Studio 2010(VS2010)作為桌面應用程序的開發平臺,以C#為開發語言,以.NET Framework 3.5為目標框架,以文字識別OCR為文字識別技術智能輔助工具,設計了基于百度智能云文字識別的權源信息錄入方法。
百度智能云提供多種API 調用方式,用戶可通過云端服務、私有化部署、安裝離線SDK等3種方式實現:①云端服務,百度智能云提供各類智能算法的云端接口,用戶可通過HTTP-SDK對圖像中的文字信息進行識別,云端識別后反饋結果至客戶端,部署輕量靈活;②私有化部署,百度智能云提供了一體機和軟件部署包兩種私有化方案,可將API部署至本地的服務器,在局域網或內網中實現圖像中文字的識別功能;③安裝離線SDK,百度智能云可將SDK集成到桌面或移動設備中,能在無網、弱網等環境條件下實現圖像文字的識別功能。
由于云端服務中HTTP-SDK 方法部署輕便靈活,電子協議中注明用戶數據用完即銷毀,能有效保證數據私密性,因此本文選用HTTP-SDK 作為API 調用方法。百度智能云文字識別實現的詳細流程如圖2所示。

圖2 百度智能云文字識別實現流程圖
首先在百度智能云中注冊成為開發者,并創建應用(應用是調用API 服務的基本操作單元),然后在VS2010 中利用NuGet 安裝最新版本的Baidu.AI,并基于應用創建自動分配的API Key、Secret Key 實例化Baidu.Aip.Ocr.Ocr;再加載圖像并配置相關參數,調用文字識別接口;最后解析反饋結果,實現圖像文字識別功能。通用文字識別請求參數與返回參數如表1、2所示。

表1 通用文字識別請求參數詳情
高效的數據互操作方法也是內業人員權源信息高效錄入的保證,既要滿足批量識別順序錄入的需求,又要能靈活識別單個錄入任意指定感興趣區域。本文設計了圖像索引目錄式錄入方法和基于剪切板工具的單條數據錄入方法,從而實現高效的圖像文字識別數據互操作。

表2 通用文字識別返回數據參數詳情
2.2.1 批量順序錄入
由于收錄的權源信息通常分村按戶存檔,因此本文設計的基于文件存儲序列的權源信息批量順序錄入方法,以村資料目錄為總目錄,遞歸遍歷文件夾下所有戶信息,程序自動按照順序生成資料卡,可實現便捷的權源信息順序錄入。批量錄入界面如圖3 所示,左側為圖像大圖窗口,單擊鼠標左鍵可實現圖像旋轉;中間為資料卡目錄窗口,以“縮略圖+戶名稱+文件名”作為資料卡,單擊可查看大圖,雙擊可實現圖像文字信息的自動解譯;右側為解析結果窗口,輸出圖像文字識別結果。權源信息文字識別完成后,內業人員可通過復制粘貼完成權源圖像資料的高效錄入。

圖3 批量順序錄入界面
2.2.2 自由感興趣區域錄入
權源信息的靈活識別是高效完成數據錄入任務的關鍵。本文設計并實現了“Control C+Control V”式的簡易自由圖像文字識別錄入方法,極大地提高了錄入的自動化程度和效率。內業人員指定任意感興趣區域,程序將自動完成圖像文字識別,并將識別信息自動加載到剪切板,內業直接通過粘貼快捷鍵完成數據的錄入工作。自由感興趣區域圖像文字識別算法流程如圖4所示。

圖4 自由感興趣區域圖像文字識別算法流程圖
首先通過微信、QQ 等截圖工具截取需解析的感興趣區域,系統將復寫WndProc方法(執行截圖等操作會觸發該函數),若判斷發出操作的信息類型為剪切板操作且確認剪切板包含圖像,則認定當前剪切板內圖像為待解析圖像;然后將感興趣區域圖像保存到本地加載中的批量信息錄入窗口,同時作為百度智能云文字識別的輸入圖像,新開線程,解析當前輸入圖像文字;最后將解析文本結果存儲到剪切板內,內業人員通過粘貼操作即可實現信息錄入。感興趣區域圖像識別界面如圖5所示。

圖5 自由感興趣區域圖像識別界面
本文通過深入了解內業人員需求,將內業圖像格式權源信息錄入過程簡化為“Control C+Control V”式的圖像文字識別錄入方法,極大地簡化了權源信息數字化操作流程,提高了自動化程度。
本文選取高拍儀采集的身份證與戶口簿掃描件作為測試數據源,圖像格式為jpg,分辨率為2 952×1 944、150 dpi,大小約為220 KB。本文調用AccurateBasic方法,隨機選取10個身份證正面與戶口簿信息,測試其運行時間;采用返回數據參數中的average、vari?ance、min 分別統計識別結果中行置信度的平均值、方差、最小值。測試結果如表3 所示,可以看出,高拍儀身份證掃描件的平均識別時間為1.39 s,行置信度最低為0.92,平均值最高為1.00,行置信度平均可達0.98,平均方差為0.000 32;高拍儀戶口簿隨機頁掃描件的平均識別時間2.71 s,行置信度最低為0.87,平均值最高為0.98,行置信度平均可達0.97,平均方差為0.004 19。高拍儀身份證、戶口簿等權源信息解譯受圖像大小、清晰度和未知感興趣區域的影響,識別效率受影響程度為秒級;身份證復雜程度、數據量和模糊度均低于戶口簿,因此擁有更高的識別效率和行置信度。總體看來,本文基于百度智能云的權源信息錄入方法擁有較高的效率與行置信度。

表3 識別效率與行置信度統計表
證件號碼的高效高質錄入是權源信息高效采集的重要保障,本文采用微信截圖工具截取高拍儀身份證掃描件證件號碼的方式驗證自由感興趣區域錄入方法的精度與效率。測試結果如表4所示,可以看出,自由感興趣區域權源信息錄入的平均時間為0.39 s,行置信度最小值為0.95,平均值最高為1.00,行置信度平均可達1.00,平均方差為0.000 02,經人工判定均識別正確。總體來看,本文自由感興趣區域權源信息錄入方法可實現實時準確的權源信息感興趣區域自由采錄。

表4 錄入效率與行置信度統計表
本文是將互聯網人工智能與測繪生產相結合,推動測繪生產智能化發展的一次成功嘗試。權源信息的高效高質錄入是完成農村不動產權籍調查工作的關鍵,本文基于百度智能云文字識別API,利用VS2010平臺,設計并實現了批量順序錄入和自由感興趣區域錄入兩種權源信息錄入方法。實驗結果表明,本文方法操作簡便,具有較高的效率和置信度,能顯著提高權源信息數字化工作的效率、準確性和自動化水平,節約內業生產成本,提高生產效率。下一步的研究重點在于特定權源對象的結構化識別與自動存儲,進一步提高權源信息錄入的智能化水平。傳統測繪生產行業應在牢牢掌控時空位置服務在基礎設施、數據資源和法律標準等方面的優勢的基礎上,樹立創意性思維,積極主動地與互聯網等人工智能技術進行跨界融合,實現測繪向智能、綠色、泛在發展的整體轉型[7-8],激流勇進逐步實現智能化測繪。