王鑫 李曉佳 吳飛 龔鈿選
摘要:本文針對單面規則的文檔圖像,研究其拼接復原方法。利用Matlab讀取函數圖像?,將紙條圖片轉換成相對應的灰度值矩陣,提取每個灰度值矩陣的邊緣列向量(第一列、最后一列),用Matlab中corrcoef( )函數計算任意紙條矩陣第一列與最后一列的皮爾遜相關系數,兩者最大的即相鄰。最后可拼得整篇文章。
關鍵詞:相關性分析;灰度值矩陣;皮爾遜相關系數
破碎文件的拼接在司法物證復原、歷史文獻修復、軍事情報獲取等多領域都有著重要的應用。傳統上,拼接復原工作在工作量較小時可以通過人工,達到較高的準確率,但效率很低。當碎片數量巨大,人工拼接很難在短時間內完成任務。隨著計算機技術的發展,人們開始開發碎紙片的自動拼接技術,以提高拼接復原效率。本文將19張圖片[2]先導入matlab中,得到19個灰度值矩陣,再將這19個灰度值矩陣的邊緣提取出來[4],用corrcoef( )函數對任意兩紙條矩陣的遞延第一列和最后一列進行相關性系數的計算,兩者最大的即相鄰。最后得到整篇文章。
一、皮爾遜相關系數[3]
皮爾遜相關系數又稱簡單相關系數或“皮爾遜積矩相關系數”,它描述了兩個定距變量間聯系的緊密程度。樣本的簡單相關系數一般用R表示,計算公式為:
其中n 為樣本量, 分別為兩個變量的觀測值和均值。R描述的是兩個變量間線性相關強弱的程度。R的取值在-1與+1之間,若,表明兩個變量是正相關,即一個變量的值越大,另一個變量的值也會越大;若,表明兩個變量是負相關,即一個變量的值越大另一個變量的值反而會越小。R的絕對值越大表明相關性越強,要注意的是這里并不存在因果關系。若R=0,表明兩個變量間不是線性相關,但有可能是其他方式的相關(比如曲線方式)。
利用樣本相關系數推斷總體中兩個變量是否相關。碎紙片拼接過程中我們利用和相關性系數的大小來判斷兩條碎紙片是否相鄰。
現有一張印刷體文字文件通過碎紙機縱切成19片破碎紙片[2],建立碎紙片拼接復原模型和算法,并針對中、英文各一頁文件的碎片數據進行拼接復原。
復原算法的實現。以中文為例。首先將所有圖片導入到Matlab中,通過imread()函數將每張紙條讀取成1980×72灰度值矩陣。以紙條000為例:紙條000一部分如圖二;讀得灰度值矩陣表,
應用程序讀取19張紙條灰度值矩陣的第一列及最后一列,進行相關性分析,得到皮爾遜相關性系數
皮爾遜相關性系數最大的即相鄰。沒有相關性系數結果的即為首和尾得出第一張紙條為008,最后一張為006。由程序我們找出兩者之間的最大值,可得紙順序。
參考文獻
[1] 陳宇云. 灰度圖像的邊緣檢測研究[D].電子科技大學,2009.
[2] 全國大學生數學建模組委會. 2013高教社杯全國大學生數學建模競賽 B題——碎紙片的拼接復原.
[3] 楊帆,馮翔,阮羚,陳俊武,夏榮,陳昱龍,金志輝. 基于皮爾遜相關系數法的水樹枝與超低頻介損的相關性研究[J]. 高壓電器,2014,06:21-25+31.
[4] 邵春雨,胡方濤,程明輝,李厚彪. 基于邊界像素匹配的碎片拼接問題研究[J]. 實驗科學與技術,2015,02:212-215.