


摘 ?要: 在跨數據庫產品進行批量數據遷移時,有時會遇到一些數據記錄因某個字段的數據最后一個字節或最后兩個字節數據為不可見字符而無法遷移的情況,如果此類數據記錄較多的話,將給數據遷移工作造成極大困擾和障礙。在本文中,作者采用“湊整法”實現了對此類批量數據遷移問題的解決,并通過兩個典型的數據庫產品進行了驗證。
關鍵詞: 批量數據遷移;不可見字符;湊整法
中圖分類號: TP311 ? ?文獻標識碼: B ? ?DOI:10.3969/j.issn.1003-6970.2020.06.035
本文著錄格式:張雨萌.“湊整法”在跨數據庫產品批量數據遷移過程中的應用[J]. 軟件,2020,41(06):169170+207
【Abstract】: In the process of batch data migration across database products, sometimes some data records cannot be migrated because the last one byte or last two bytes of data of a field are invisible characters. If there are many records of such data, it will cause great troubles and obstacles to the data migration.In this paper, the author solves the problem of this kind of batch data migration by means of “rounding up” method and verifies it through two typical database products.
【Key words】: Batch data migration; Invisible characters; “rounding up” method
0 ?引言
在生產實踐過程中,有時會在數據庫中出現 ?某字段存在“不完整”數據的情況。而這些“不完整”數據的由來,基本上是由于應用程序在沒有校驗長度的情況下,將超出數據表字段長度的輸入 ?數據插入數據表,導致輸入數據被數據庫截斷。如果被截斷的數據屬于英文字符,截斷只影響該條數據記錄的準確性;而如果是中文漢字被截斷,該字 ?段會因字符集不同而在最后一位或者最后兩位出現不可見字符,不僅準確性受影響,此類“不完整”數據記錄也無法同“完整”數據記錄同步批量遷 ? 移到其他數據庫產品中?!安煌暾睌祿永绫?所示。
其中,0X表示16進制,而CA、E6、B5為對應漢字在16進制下的數據。
1 ?湊整法
1.1 ?定義
令“+”為字符串追加操作,“A”+“B”=“AB”;
令“–”為字符串刪除操作,“ABA”–“A”=“B”;
令“I”為字符串“ ??”,即“空格”+“空格”+“?”,其中“空格”和“?”都為英文半角字符;
令“←”為字段賦值操作,X←“A”的含義為將“A”賦值給字段X;
令len(X)為獲取字段X長度的函數;
令str(X)為獲取字段X內容的函數;
令trim(str)為去掉字符串str左右兩側空白符的函數;
令ori為原始數據保存字段。
1.2 ?湊整法處理過程
結合2.1,湊整法處理過程如下:
湊整法處理過程
(1)加項湊整:令mod1←ori + I,其中,len(mod1) = len(ori) + 3;
(2)減項處理:令mod2←trim(str(mod1) - “?”)
(3)mod2即為最終數據
2 ?實驗驗證
2.1 ?實驗環境
之所以選擇Sybase數據庫作為數據遷出數據庫,是由于Sybase數據庫存在數據長度超過varchar
類型字段長度時會出現的截斷的情況;而Oracle工具sqldr會根據字符集按字節讀取中文字符數據,如果在數據記錄的某個字段最后一位或最后兩位出現不可見字符時,slqldr會認為該字段未結束,進而將字段分隔符中的兩位或者一位認為是數據內容,導致該字段之后的數據無法正常解析,影響數據導入。
2.2 ?實驗過程
實驗過程
Sybase導出:
(1)在Sybase中新建city_tmp表,字段名同city表一致,字段長度改為varchar(10);
(2)將city表中每一條數據的cityname字段內容拼接“ ??”后插入到city_tmp;
(3)使用Sybase的bcp工具導出city_tmp表到文件export_tmp;
(4)使用sed命令對export_tmp文件采取刪 ?“?”操作,并生成新的文件export_data;
Oracle導入:
(5)在Oracle中新建city、city_tmp表,字段名同city表一致,字段長度為varchar(9);
(6)使用Oracle的sqlldr工具將文件export_ data導入city_tmp;
(7)將city_tmp中的數據導入到city表,導入過程中,要對cityname增加trim操作。
2.3 ?實驗結果
經驗證,sybase數據庫的city表數據成功導入到oracle中。在oracle數據庫的city表中,cityname字段最后一個漢字雖然為亂碼,但是考慮到原始數據的信息已經不準確,導入之后的數據已經最大化保證了數據的可用性和準確性。
經實驗驗證,“湊整法”應用于跨數據庫產品批量數據遷移是有效、可行的,其過程可用圖1表示。
3 ?總結
如果應用系統使用的數據庫產品存在截斷機制,且應用系統未對輸入信息進行長度校驗的話,保存輸入信息的字段中包含不可見字符是大概率事件。對于這些存在不可見字符的數據,其在后續的跨數據庫產品數據遷移過程中也將給遷移過程帶來困擾和障礙。
本文使用“湊整法”來解決此類數據的遷移問題,經實驗證明是可行的、有效的。通過解決此類數據的跨數據庫數據遷移問題,最大程度地保證了數據的可用性和準確性,其實踐價值和參考意義都是重大的。
數據完整性、準確性的意義無須贅言,筆者作為一線工程師,建議應用系統開發者,嚴格依照“接口文檔”或者“設計文檔”的要求,對輸入信息進行包含格式和長度的校驗,從信息入口扎緊籬笆墻,過濾掉問題數據。
參考文獻
[1] 趙桔青, 陶福壽. 基于GIS的城鎮土地資源承載力評價[J]. 軟件, 2018, 39(7): 52-56.
[2] 高新, 袁健華. 橢圓方程最優控制問題的數值算法研究[J]. 軟件, 2018, 39(7): 57-62.
[3] 皮祖成, 陳文, 馬龍, 等. 面向對象的無人機任務設備通信接收軟件設計[J]. 軟件, 2018, 39(7): 63-67.
[4] 莊亞飛, 李素敏. 基于Python的ArcGIS數據屬性值順序碼處理研究[J]. 軟件, 2018, 39(7): 68-71.
[5] 師海忠, 陳璐璐. k次Herschel?????????????????????????????—師連通圈網絡[J]. 軟件, 2018, 39(7): 72-78.
[6] 貢智兵, 王祖進. 城軌門系統接觸參數實驗獲取方法研究[J]. 軟件, 2018, 39(7): 79-83.
[7] 李天賜, 田精白. 基于SSH框架衛生科技成果申報系統的設計與實現[J]. 軟件, 2018, 39(7): 84-88.
[8] 陳星, 趙佳萌, 宣軍法. 移動應用自動化兼容性測試方法綜述[J]. 軟件, 2018, 39(7): 89-94.
[9] 傅濤. 基于源碼與二進制文件的漏洞挖掘技術[J]. 軟件, 2018, 39(7): 95-97.
[10] 文平, 楊麗英. Sybase數據庫在UNIX、Windows上的實施和管理[M], 2010.
[11] Jonathan Lewis. Oracle核心技術[M], 2013.