鐘聲 黎苗苗
摘 要:隨著我們社會信息的日趨復雜,人們在制作個人信息時難免出現一些拼寫格式上的錯誤。這些錯誤雖小,但常常給人們帶來不必要的損失。隨著科學技術的發展和統計學習方法的有效應用,近年來,自然語言處理技術已經成為語義搜索以及人工智能的重要研究方向。自然語言處理的重難點是對英文文本中單詞與語法的錯誤進行檢測與糾正。本論文基于kettle這個最新軟件,通過將數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程,對數據進行統一的格式處理。
關鍵詞:數據庫;JAVA;kettle
一、系統背景
近些年隨著科學技術的日益發展,新的技術更新換代,眾多領域如語音識別、OCR識別都對拼寫錯誤展開了迫切的研究。令人欣慰的是已經有部分成果轉換成了商品。在全球范圍內,我們能看到Expert Ease公司推出的Deal Proof產品。這款產品嵌入了英文拼寫檢查功能。與此同時,Newton公司推出的Proofread產品也同樣具有英文單詞拼寫檢查系統。
本文首先介紹英文拼寫檢查中的錯誤類型以及檢錯糾錯方法,并利用一種方法及其改進算法實現一簡單的英文拼寫檢查系統。
二、系統目標
三、應用技術介紹
(1)java技術。Java語言以它獨特的魅力贏得了世界上大部分程序員的認可,他良好的跨平臺性,可移植性,安全性等優點使之風靡全球。SUN公司(2009年4月并入甲骨文公司)最初開發Java語言是為了解決智能家用電器的控制和通信問題。隨著Internet的發展,Sun公司逐步將Java語言改造成適合計算機網絡應用的程序設計語言。目前Java語言已經成為網絡程序設計的主流編程語言之一,在全球云計算和移動互聯網的產業環境下,Java更具備了顯著的優勢和廣闊的發展前景。
(2)Kettle技術。Kettle這個單詞翻譯成中文名字為茶壺的意思,是BI為解決pentaho項目設計的一個子項目,作為一項專業的ETL工具,目前的易用性不是特別好,但是相對于其他的ETL工具,Kettle工具除了開源免費以外,它的功能性,穩定性還是很不錯的。此外,由于整個pentaho平臺都是使用java語言進行開發,所以Kettle本身就具備了跨平臺性的特點,編輯出來的成果也能在各個操作系統上正常運行,這是Kettle軟件最大的優點。同時,ETL工具采用JDBC標準,對數據庫的兼容性要比ODBC、OLE/DB工具要好得多。Kettle工具由四個部分:Chef,Spoon,Kitchen,Pan組成。這四個部分聽起來名字有點奇怪,更像是一些廚房用具,那么組成Kettle工具的四個部分分別是什么東西呢,官方文檔給出了這樣的解釋:
kettle是一個ETL工具,名字是“Kettle E.T.T.L. Environment”的首字母組成的縮寫,chef是用來設計job的一個圖形用戶界面,設計出來的job是用放到ketchen里面執行的,spoon是來設計transformation的GUI,然后transformation是放到pan里面執行的,kitchen和pan說白了就是執行我們編出來的ETL包的工具,因為kettle是跨平臺的嘛,所以把執行環境獨立出來,我是這樣理解的。
上面提到了transformation和job這兩樣東西,在Kettle中的一個ETL包其實就是一個job,而一個job則由一個或者多個transformation組合而成。在transformation中則包含了數據的輸入輸出、轉換、連接、聚合等各種判斷處理綜合在一起。而我們實現FTP/HTTP傳輸、外部程序調用和執行Ttransformation等都是我們的job的組件。
(3)SQL數據庫。簡單的來說數據庫就是指數據倉庫的意思,即一個存放數據的地方。我們周圍有很多東西都是有數據庫的蹤跡。例如我們手機的通訊錄就是一個小的數據庫,而我們的圖書館則更像一個大型數據庫。較小的數據庫可以用手工實現增刪改查的應用,但是大型數據庫的管理必須依托計算機的高精準計算。目前計算機主要應用的三大領域:數據處理、科學計算、過程控制中,數據處理所占的比重達到了70%。數據庫技術也在20世紀60年代作為最新技術應運而生。
(4)項目管理工具。Microsoft Project 2003 里面所有的項目信息都是集中有序的管理的,進而為所有的項目提供一個精準的描繪。Microsoft Project 2003可以分別支持企業級別和項目組級別的項目管理,常用的包括資源管理、任務調度、跟蹤、報表、小組協議等, 同時強有力的標準化數據定義。
四、系統分析
(1)用戶特點.用戶一般為有部分計算機使用經驗的管理員,對計算機有一定使用技能,熟悉計算機操作。
(2)假定和:約束。假定數據庫容量夠大,所有的數據中拼寫問題都能得到糾正。
(3)環境支持:
①運行環境支持:瀏覽器,計算機(CPU PII以上,內存1G上)。
②軟件環境
③硬件環境:CPU PII以上,內存1G上,聯網支持,印機。
五、功能實現
數據中拼寫錯誤的檢查與糾正這個課題,就是在數據中錯誤信息進行糾錯。本次我就常出現的拼寫錯誤中大小寫問題和拼寫過程中的格式問題,進行演示糾正。首先準備了有錯誤信息的表格,導入到kettle中,經過以excel導入程序,發現錯誤信息,糾正錯誤信息,以excel導出程序。從而完成拼寫錯誤的糾正。
六、設計心得
本次設計中,實現了數據中拼寫錯誤的檢查與糾正。操作演示的過程中,也用到了最新相關的軟件,這大大節約了編寫代碼的時間。用戶在運用此軟件進行操作時,容易上手,這大大節約了時間,提高辦事效率。
新技術的不斷產生,需要我們不斷鞥信自己的知識,以最簡單的方法,解決問題,以最小的投資獲得最大的回報。
作者簡介:鐘聲(1990—),男,江西萍鄉人,研究生,助教,主要研究方向:數字媒體。