999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據中拼寫錯誤的檢查與糾正

2018-05-30 11:00:12鐘聲黎苗苗
報刊薈萃(上) 2018年5期
關鍵詞:數據庫

鐘聲 黎苗苗

摘 要:隨著我們社會信息的日趨復雜,人們在制作個人信息時難免出現一些拼寫格式上的錯誤。這些錯誤雖小,但常常給人們帶來不必要的損失。隨著科學技術的發展和統計學習方法的有效應用,近年來,自然語言處理技術已經成為語義搜索以及人工智能的重要研究方向。自然語言處理的重難點是對英文文本中單詞與語法的錯誤進行檢測與糾正。本論文基于kettle這個最新軟件,通過將數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程,對數據進行統一的格式處理。

關鍵詞:數據庫;JAVA;kettle

一、系統背景

近些年隨著科學技術的日益發展,新的技術更新換代,眾多領域如語音識別、OCR識別都對拼寫錯誤展開了迫切的研究。令人欣慰的是已經有部分成果轉換成了商品。在全球范圍內,我們能看到Expert Ease公司推出的Deal Proof產品。這款產品嵌入了英文拼寫檢查功能。與此同時,Newton公司推出的Proofread產品也同樣具有英文單詞拼寫檢查系統。

本文首先介紹英文拼寫檢查中的錯誤類型以及檢錯糾錯方法,并利用一種方法及其改進算法實現一簡單的英文拼寫檢查系統。

二、系統目標

三、應用技術介紹

(1)java技術。Java語言以它獨特的魅力贏得了世界上大部分程序員的認可,他良好的跨平臺性,可移植性,安全性等優點使之風靡全球。SUN公司(2009年4月并入甲骨文公司)最初開發Java語言是為了解決智能家用電器的控制和通信問題。隨著Internet的發展,Sun公司逐步將Java語言改造成適合計算機網絡應用的程序設計語言。目前Java語言已經成為網絡程序設計的主流編程語言之一,在全球云計算和移動互聯網的產業環境下,Java更具備了顯著的優勢和廣闊的發展前景。

(2)Kettle技術。Kettle這個單詞翻譯成中文名字為茶壺的意思,是BI為解決pentaho項目設計的一個子項目,作為一項專業的ETL工具,目前的易用性不是特別好,但是相對于其他的ETL工具,Kettle工具除了開源免費以外,它的功能性,穩定性還是很不錯的。此外,由于整個pentaho平臺都是使用java語言進行開發,所以Kettle本身就具備了跨平臺性的特點,編輯出來的成果也能在各個操作系統上正常運行,這是Kettle軟件最大的優點。同時,ETL工具采用JDBC標準,對數據庫的兼容性要比ODBC、OLE/DB工具要好得多。Kettle工具由四個部分:Chef,Spoon,Kitchen,Pan組成。這四個部分聽起來名字有點奇怪,更像是一些廚房用具,那么組成Kettle工具的四個部分分別是什么東西呢,官方文檔給出了這樣的解釋:

kettle是一個ETL工具,名字是“Kettle E.T.T.L. Environment”的首字母組成的縮寫,chef是用來設計job的一個圖形用戶界面,設計出來的job是用放到ketchen里面執行的,spoon是來設計transformation的GUI,然后transformation是放到pan里面執行的,kitchen和pan說白了就是執行我們編出來的ETL包的工具,因為kettle是跨平臺的嘛,所以把執行環境獨立出來,我是這樣理解的。

上面提到了transformation和job這兩樣東西,在Kettle中的一個ETL包其實就是一個job,而一個job則由一個或者多個transformation組合而成。在transformation中則包含了數據的輸入輸出、轉換、連接、聚合等各種判斷處理綜合在一起。而我們實現FTP/HTTP傳輸、外部程序調用和執行Ttransformation等都是我們的job的組件。

(3)SQL數據庫。簡單的來說數據庫就是指數據倉庫的意思,即一個存放數據的地方。我們周圍有很多東西都是有數據庫的蹤跡。例如我們手機的通訊錄就是一個小的數據庫,而我們的圖書館則更像一個大型數據庫。較小的數據庫可以用手工實現增刪改查的應用,但是大型數據庫的管理必須依托計算機的高精準計算。目前計算機主要應用的三大領域:數據處理、科學計算、過程控制中,數據處理所占的比重達到了70%。數據庫技術也在20世紀60年代作為最新技術應運而生。

(4)項目管理工具。Microsoft Project 2003 里面所有的項目信息都是集中有序的管理的,進而為所有的項目提供一個精準的描繪。Microsoft Project 2003可以分別支持企業級別和項目組級別的項目管理,常用的包括資源管理、任務調度、跟蹤、報表、小組協議等, 同時強有力的標準化數據定義。

四、系統分析

(1)用戶特點.用戶一般為有部分計算機使用經驗的管理員,對計算機有一定使用技能,熟悉計算機操作。

(2)假定和:約束。假定數據庫容量夠大,所有的數據中拼寫問題都能得到糾正。

(3)環境支持:

①運行環境支持:瀏覽器,計算機(CPU PII以上,內存1G上)。

②軟件環境

③硬件環境:CPU PII以上,內存1G上,聯網支持,印機。

五、功能實現

數據中拼寫錯誤的檢查與糾正這個課題,就是在數據中錯誤信息進行糾錯。本次我就常出現的拼寫錯誤中大小寫問題和拼寫過程中的格式問題,進行演示糾正。首先準備了有錯誤信息的表格,導入到kettle中,經過以excel導入程序,發現錯誤信息,糾正錯誤信息,以excel導出程序。從而完成拼寫錯誤的糾正。

六、設計心得

本次設計中,實現了數據中拼寫錯誤的檢查與糾正。操作演示的過程中,也用到了最新相關的軟件,這大大節約了編寫代碼的時間。用戶在運用此軟件進行操作時,容易上手,這大大節約了時間,提高辦事效率。

新技術的不斷產生,需要我們不斷鞥信自己的知識,以最簡單的方法,解決問題,以最小的投資獲得最大的回報。

作者簡介:鐘聲(1990—),男,江西萍鄉人,研究生,助教,主要研究方向:數字媒體。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 999国内精品视频免费| 亚洲欧美成aⅴ人在线观看| 夜夜爽免费视频| 色网在线视频| 中国精品久久| 91av国产在线| 97国产在线观看| 亚洲成人黄色在线观看| 久久精品国产精品青草app| 欧美日韩亚洲国产| 久久99精品久久久久久不卡| 久久不卡精品| 99热在线只有精品| 欧美黑人欧美精品刺激| 久久精品人妻中文视频| 国产亚洲欧美日本一二三本道| 国产拍在线| 国产精品理论片| 五月激情婷婷综合| 亚洲精品视频免费看| 日本道综合一本久久久88| 亚洲视屏在线观看| 成人亚洲天堂| 久久 午夜福利 张柏芝| 欧美激情视频一区| 日韩一区二区三免费高清| 欧美福利在线| 日韩欧美国产三级| 免费毛片网站在线观看| 婷婷六月在线| 国产成人免费| 久久婷婷六月| 亚洲欧洲天堂色AV| 日韩无码黄色| 青青青视频蜜桃一区二区| 国产精品开放后亚洲| 国产日韩精品一区在线不卡| 亚洲一级毛片在线观播放| 国产清纯在线一区二区WWW| 青青草国产在线视频| 欧洲av毛片| 中国特黄美女一级视频| 一区二区偷拍美女撒尿视频| 国产人成在线观看| 中文字幕亚洲第一| 国产丰满大乳无码免费播放| 久久不卡精品| 中文字幕欧美日韩高清| 中文字幕免费在线视频| 欧美中日韩在线| 日韩视频免费| 国产三级毛片| 欧美综合区自拍亚洲综合绿色 | 国产精品第页| 第一页亚洲| 日韩精品少妇无码受不了| 第一页亚洲| 国产精品露脸视频| 国产制服丝袜无码视频| 99精品伊人久久久大香线蕉 | 亚洲国产清纯| 91视频区| 精品国产Av电影无码久久久| 综合亚洲色图| 国产精品自拍露脸视频| 成人福利免费在线观看| 亚洲国产精品一区二区第一页免| 亚洲AV无码不卡无码 | 丰满的熟女一区二区三区l| 亚洲黄色片免费看| 国产激爽爽爽大片在线观看| 亚洲欧美另类专区| 综合色在线| 亚洲欧洲日产国产无码AV| 午夜欧美在线| 永久免费精品视频| 热re99久久精品国99热| 中文字幕精品一区二区三区视频| 波多野结衣中文字幕一区二区| 免费国产黄线在线观看| 在线欧美日韩| 亚洲福利视频网址|