999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源溫鹽資料排重處理的一種方法

2012-12-23 08:44:40張學(xué)宏張緒東張曉娟
海洋預(yù)報 2012年1期

張學(xué)宏,張緒東,張曉娟

(海軍海洋水文氣象中心,北京 100161)

多源溫鹽資料排重處理的一種方法

張學(xué)宏,張緒東,張曉娟

(海軍海洋水文氣象中心,北京 100161)

多源溫鹽資料存在大量重復(fù)現(xiàn)象,大大影響了這些資料的融合應(yīng)用價值。本文根據(jù)多源溫鹽資料的重復(fù)現(xiàn)象,結(jié)合實際業(yè)務(wù)工作經(jīng)驗,提出了重復(fù)條件組合排重法這一模型(縮寫RRMCRC),并介紹了溫鹽資料排重業(yè)務(wù)化流程。利用該模型和業(yè)務(wù)流程,可以有效提高溫鹽資料的排重效率,在其他資料的排重處理中也有重要的借鑒意義。

重復(fù);組合排重;排重判據(jù)

1 海洋環(huán)境歷史資料的特點

海洋環(huán)境歷史資料是人們認(rèn)識海洋、研究海洋的重要基礎(chǔ),是人類開展海洋科學(xué)研究、認(rèn)識海洋科學(xué)規(guī)律、從事海洋經(jīng)濟(jì)發(fā)展、維護(hù)國家和地區(qū)海防安全的重要信息源泉。海洋環(huán)境資料的應(yīng)用越來越引起人們的高度重視,對海洋環(huán)境的觀測也越來越頻繁和密集,因此對海洋環(huán)境歷史資料的科學(xué)處理是一項非常基礎(chǔ)性的工作。從19世紀(jì)中葉以來,世界上相關(guān)國家就開展了海洋環(huán)境的觀測工作,我國也在上世紀(jì)中葉前后,開始了海洋環(huán)境持續(xù)監(jiān)測和資料的獲取工作,截至目前,我們積累了大量的海洋環(huán)境歷史資料。除了國內(nèi)各涉海部門的調(diào)查資料外,還有國外數(shù)據(jù)中心的共享資料、國際間合作調(diào)查資料等,但是由這些海量資料組成的數(shù)據(jù)集在要素數(shù)據(jù)的時空分布中重復(fù)收錄現(xiàn)象普遍,且有數(shù)據(jù)文件名相同的現(xiàn)象,存在大量的重復(fù)記錄,造成資料數(shù)據(jù)總量不確定和數(shù)據(jù)質(zhì)量不穩(wěn)定等問題,嚴(yán)重干擾了這些歷史資料的應(yīng)用價值,因此必須采用先進(jìn)的技術(shù)手段對這些歷史資料進(jìn)行排重和質(zhì)量控制處理。

綜觀海洋溫鹽歷史資料,具有以下鮮明的特點:

(1)格式多樣性。由于資料來源多,觀測方式方法也不盡相同,且資料獲取年代不同所造成的觀測手段、技術(shù)規(guī)范以及應(yīng)用目的等方面存在差異,這些因素導(dǎo)致了資料格式具有多樣性的特點;

(2)資料重復(fù)性。對每一個數(shù)據(jù)記錄,從獲取到收入數(shù)據(jù)集的過程中,由于對資料的應(yīng)用目的不同,存在資料的重復(fù)收錄和針對性的處理,導(dǎo)致了資料的大量重復(fù);

(3)資料質(zhì)量可靠性。從網(wǎng)絡(luò)、國際交換、合作共享等渠道獲取的非國內(nèi)觀測資料存在數(shù)據(jù)干擾問題,如數(shù)據(jù)造假、抽稀、時空換位等特有現(xiàn)象。這些現(xiàn)象的存在,尤其資料的重復(fù)現(xiàn)象,嚴(yán)重影響了資料在海洋經(jīng)濟(jì)、海洋科學(xué)、軍事等方面的應(yīng)用。但是由于海洋環(huán)境資料獲取成本高,每一個記錄都彌足珍貴,因此為了能夠有效利用這些寶貴的資料,發(fā)揮其應(yīng)有的價值,必須采用相關(guān)技術(shù)方法,對這類資料進(jìn)行嚴(yán)格的排重和質(zhì)量控制處理,形成具有權(quán)威性、科學(xué)性和唯一性的高質(zhì)量標(biāo)準(zhǔn)化數(shù)據(jù)集,發(fā)揮其最大的應(yīng)用價值。

2 多源溫鹽資料的重復(fù)現(xiàn)象

溫鹽資料重復(fù)現(xiàn)象雖然多種多樣,但主要集中在記錄重復(fù),常見如下幾種典型的重復(fù)現(xiàn)象[2—3]:

(1)記錄完全相同,而剖面觀測時間和地理位置存在偏差;

(2)剖面觀測時間和地理位置相同,而記錄不同;

(3)位置和觀測時間基本一致,但是記錄數(shù)據(jù)出現(xiàn)較大偏差;

(4)觀測位置和記錄完全相同,而觀測時間出現(xiàn)跨零點的現(xiàn)象;

(5)觀測時間和觀測位置完全相同,數(shù)據(jù)記錄的小數(shù)位保留的有效數(shù)字長度不一致;

(6)數(shù)據(jù)抽稀造成的數(shù)據(jù)重復(fù)。例如由一個剖面拆分成多個剖面,而數(shù)據(jù)層數(shù)發(fā)生變化。

(7)世界時和北京時混用現(xiàn)象。

這些重復(fù)現(xiàn)象在來自于國外海洋數(shù)據(jù)中心的共享數(shù)據(jù)集中尤為突出,而在來自于國內(nèi)不同部門的數(shù)據(jù)集之間也普遍存在;此外,由于來自于國外的共享數(shù)據(jù)集中收錄了國內(nèi)相關(guān)部門的觀測資料,造成數(shù)據(jù)集之間的資料重復(fù)。因此對溫鹽資料的安全應(yīng)用,首先要解決資料的重復(fù)問題。下面以我們在資料處理業(yè)務(wù)化工作中出現(xiàn)的實例,來分析上述現(xiàn)象。

(1)記錄完全相同,而剖面觀測時間和地理位置存在偏差

分析:在表1中,兩個剖面資料觀測時間和觀測位置出現(xiàn)偏差,但是剖面的數(shù)據(jù)記錄完全相同。實際上,在海洋觀測中,即便是同一個儀器,在不同時間或不同位置出現(xiàn)這類現(xiàn)象的可能性極小,因此這類重復(fù)數(shù)據(jù)必須排出,待通過進(jìn)一步人工審核、分析和確認(rèn)后,保留真實資料。

(2)觀測時間和位置完全相同,而要素值不同分析:在表2中,剖面的觀測時間和觀測位置完全相同,但是觀測記錄卻不同,而且差異較大,對于出現(xiàn)這種現(xiàn)象的資料,都要作為重復(fù)資料排出,待進(jìn)一步人工審核確認(rèn)后,保留真實數(shù)據(jù)。

(3)位置和觀測時間基本一致,但是數(shù)據(jù)出現(xiàn)較大偏差。

表1 重復(fù)現(xiàn)象一實例

表2 重復(fù)現(xiàn)象二實例

分析:在表3中,兩個剖面的觀測位置基本重疊,時間相差1 min,但是在記錄中,卻出現(xiàn)了明顯的異常,這類重復(fù)現(xiàn)象也要作為重復(fù)資料予以排出。

(4)觀測時間跨零點而其他信息完全一致

分析:在表4中的兩個剖面觀測位置和要素記錄完全相同,但是觀測時間的表達(dá)出現(xiàn)了異常,一個是1997年11月10日零點26分觀測,一個是1997年11月9日24時25分觀測,實際應(yīng)是相同時間觀測,只是在表達(dá)上出現(xiàn)問題,因此這類資料也作為重復(fù)資料排出。

(5)要素值小數(shù)位有效數(shù)字長度不一致

分析:表5中的兩個剖面的觀測時間、位置完全一致,而數(shù)據(jù)記錄由于小數(shù)位的有效數(shù)字長度不一致,造成資料重復(fù)。

表3 重復(fù)現(xiàn)象三實例

表4 重復(fù)現(xiàn)象四實例

表5 重復(fù)現(xiàn)象五實例

(6)數(shù)據(jù)抽稀造成的數(shù)據(jù)重復(fù)

分析:在表6中,剖面一和剖面二的觀測時間和觀測位置完全一致,但是從數(shù)據(jù)記錄中分析發(fā)現(xiàn),剖面二中的數(shù)據(jù)完全是從剖面一中抽取的,造成了數(shù)據(jù)大量重復(fù)。

(7)世界時和北京時混用

分析:表7中的兩條記錄來自于兩個不同的部門(兩個數(shù)據(jù)集),兩條記錄的觀測位置和要素測量值完全相同,而觀測時間相差8 h,第一個記錄應(yīng)該是北京時間,第二個記錄應(yīng)該是世界時間,這種資料也要作為重復(fù)資料排出。

3 復(fù)條件組合排重法(RRMCRC)

從上述7類重復(fù)現(xiàn)象來分析,溫鹽資料的重復(fù)以時間、位置、要素值等信息重復(fù)為主,因此在排重程序設(shè)計時,應(yīng)著重考慮這些重復(fù)信息下的排重,建立重復(fù)信息自由組合條件下的資料排重模型,即重復(fù)條件組合排重法。所謂重復(fù)條件組合排重法,就是對重復(fù)信息自由組合,形成新的排重要件,按照排重要件的重復(fù)判據(jù),開展資料排重。

表6 重復(fù)現(xiàn)象六實例

表7 重復(fù)現(xiàn)象七實例

例如:將時間和空間條件組合形成排重要件,即觀測點之間距離小于限定值,觀測時間相等或誤差小于限定值;將觀測層深、溫度值、鹽度值組合形成排重要件,即每個要素之間的誤差小于相應(yīng)的限定值;以觀測時間作為主排重要件,其他條件組合形成次排重要件,即時間重復(fù)判據(jù)收緊,如相等或誤差小于限定值,其他條件重復(fù)判據(jù)放寬,形成排重條件等多種重復(fù)要件。然后利用各重復(fù)要件對資料進(jìn)行排重,將重復(fù)資料排出,形成對應(yīng)條件下的疑似重復(fù)資料集。

4 資料重復(fù)判據(jù)

狹義上資料重復(fù)是指資料之間所有對應(yīng)信息完全相同而出現(xiàn)的重復(fù),而實際上并不盡然。從我們大量的資料處理過程中出現(xiàn)的重復(fù)現(xiàn)象分析,廣義上資料重復(fù)是在資料之間,由于對應(yīng)觀測時間、觀測空間位置和觀測記錄等完全相等或者相近而造成的重復(fù)。在實際工作中,必須在廣義概念下開展多源資料的排重。由于考慮了重復(fù)條件相近或相似的情況,就必須定義重復(fù)條件的判據(jù)指標(biāo)。如果判據(jù)指標(biāo)過低,可疑重復(fù)資料就會大量增加,本不屬于重復(fù)的資料也可能作為重復(fù)資料排出;而如果判據(jù)指標(biāo)過高,可疑重復(fù)資料量就會大大降低,有些重復(fù)資料難以發(fā)現(xiàn)和排出。因此重復(fù)判據(jù)指標(biāo)的高低,直接關(guān)系到資料排重效果的優(yōu)劣。本文中的重復(fù)判據(jù)是作者在處理來自于國內(nèi)外的大中型數(shù)據(jù)集(十余個數(shù)據(jù)集,含有幾百萬個剖面)的基礎(chǔ)上總結(jié)制定的判據(jù)。利用該判據(jù),通過對來自于國內(nèi)各部門間的資料(13余萬個剖面)排重效果分析,重復(fù)資料檢出率高達(dá)95%以上,因此該判據(jù)具有普遍意義,可為讀者開展相關(guān)工作提供基本依據(jù)。讀者可以根據(jù)待排重的資料量和對資料質(zhì)量的需求情況,對該判據(jù)進(jìn)行適當(dāng)?shù)恼{(diào)整。

表8為針對觀測時間、觀測位置空間和記錄信息相似時的重復(fù)判據(jù)條件,對國外大型數(shù)據(jù)集資料的排重時,判據(jù)可適當(dāng)放寬,但最高不應(yīng)超過20%,對來源于國內(nèi)各部門之間的資料排重時,重復(fù)要件信息必須同時滿足以下條件,才可以作為疑似重復(fù)資料。

5 溫鹽資料排重基本流程[2—4]

第一,溫鹽資料預(yù)處理[1]。

實現(xiàn)溫鹽資料排重,首先要對多源溫鹽資料進(jìn)行預(yù)處理,即在對多源溫鹽歷史資料進(jìn)行格式梳理、分析和歸類處理的基礎(chǔ)上,制定完整的預(yù)處理資料格式,將所有溫鹽剖面資料統(tǒng)一格式處理,同時進(jìn)行非法碼和范圍檢驗等初步質(zhì)量控制處理。為了有效降低排重計算工作量,提高重復(fù)資料檢出率,對經(jīng)過預(yù)處理之后的所有資料按照海區(qū)進(jìn)行劃分,重新建立以海區(qū)為劃分界限的數(shù)據(jù)集。同時提取每一個數(shù)據(jù)集中溫鹽剖面的觀測時間、觀測位置和觀測記錄等基礎(chǔ)數(shù)據(jù)元信息。

第二,采用重復(fù)條件組合排重法,對數(shù)據(jù)集內(nèi)的資料開展數(shù)據(jù)排重。

首先進(jìn)行資料粗放排重。所謂粗放排重就是將重復(fù)條件組合排重法中的排重要件重復(fù)判據(jù)適當(dāng)放寬,以此獲取相應(yīng)排重要件下的粗排疑似重復(fù)資料集;

其次進(jìn)行資料詳細(xì)排重,詳細(xì)排重與粗放排重相對應(yīng),就是將重復(fù)條件組合排重法中的排重要件的重復(fù)判據(jù)收緊,針對粗排疑似重復(fù)資料集排重,以此獲取細(xì)排重復(fù)資料集;

再次,針對細(xì)排中的重復(fù)資料和非重復(fù)資料結(jié)合人機交互方式,進(jìn)行分析、審核和確認(rèn),最終將重復(fù)資料排出。

第三,采用重復(fù)條件組合排重法,對數(shù)據(jù)集間的資料開展數(shù)據(jù)排重。

采用溫鹽資料排重模型,重復(fù)第二步的步驟,開展資料集之間的數(shù)據(jù)排重,最終形成非重復(fù)資料集。

其工作流程圖見圖1。

圖1 重復(fù)條件組合排重處理業(yè)務(wù)流程圖

6 結(jié)論

重復(fù)條件組合排重法是作者在大量的實際業(yè)務(wù)工作中摸索總結(jié)出來的一套排重方法和模型,利用該方法和模型,不但可以提高資料的排重效率,而且可以大大提高重復(fù)資料的檢出率。該方法不僅針對溫鹽資料排重,在其它資料的排重中也具有重要的參考和借鑒意義。

[1]國家技術(shù)監(jiān)督局.海洋調(diào)查規(guī)范海洋調(diào)查資料處理[S].北京:中國標(biāo)準(zhǔn)出版社,1991:65-66.

[2]許崇金,王凡,代亮,等.國際海洋信息共享與質(zhì)量控制.http://www.qdio.ac.cn:8000/doc/國際海洋信息共享與質(zhì)量控制0323.doc.

[3]中科院青島海洋科學(xué)研究所,地球科學(xué)數(shù)據(jù)共享政策與規(guī)范研究組.海洋科學(xué)數(shù)據(jù)庫建設(shè)規(guī)范.http://www.qdio.ac.cn:8000/doc/海洋科學(xué)數(shù)據(jù)庫建設(shè)規(guī)范.doc.

[4]王凡,許崇金,代亮,等.中國近海及毗鄰洋區(qū)國際海洋信息管理系統(tǒng)(IODBMS).http://www.docin.com/p-532150.thml.

Aduplicate-filter method for multi-sources temperature and salinity data sets

ZHANG Xue-hong,ZHANG Xu-dong,ZHANG Xiao-juan
(Navy Marine Hydrometeorological Center,Beijing 100161 China)

There are a large amount of duplicated data from the various sources of temperature and salinity data sets,which will affects the converging value of these data in the applications.In this article,a method to filter the duplicated data,is proposed.It is intruduced on how to remove the duplicated temperature and salinity data in the operational processes.The method will increase the efficiency effectively in the operational processes and is a good reference for the other duplicated data field.

duplication;combined duplicate-fliter;duplicate-fliter criterion

P731

A

1003-0239(2012)01-0048-07

2011-01-19

張學(xué)宏(1971-),男,高級工程師,主要從事海洋環(huán)境產(chǎn)品開發(fā)、預(yù)報和海洋環(huán)境資料處理與應(yīng)用等工作。E-mail:xuehzhang@Sohu.com

主站蜘蛛池模板: 国产青榴视频| 97人妻精品专区久久久久| 亚洲人成网7777777国产| 国产欧美日韩视频怡春院| 色亚洲成人| 色屁屁一区二区三区视频国产| 免费av一区二区三区在线| 亚洲精品色AV无码看| 欧美日本在线| 国产福利在线观看精品| 美女扒开下面流白浆在线试听| 天天色天天操综合网| 91最新精品视频发布页| 国产成人啪视频一区二区三区| 激情国产精品一区| 欧美日韩午夜| 国产波多野结衣中文在线播放| 国模私拍一区二区| 国产欧美视频一区二区三区| 成人日韩精品| 在线观看国产精品日本不卡网| 国产麻豆aⅴ精品无码| 亚洲欧美另类色图| 久久久久亚洲Av片无码观看| 91视频精品| 亚洲热线99精品视频| 欧洲极品无码一区二区三区| 在线观看国产精品一区| 黄片在线永久| 亚洲欧美日韩中文字幕在线| 亚洲色中色| 日韩一级毛一欧美一国产| 天堂在线亚洲| 99久久精品国产麻豆婷婷| 国产成人福利在线视老湿机| 国产高清在线精品一区二区三区| 色呦呦手机在线精品| 亚洲精品不卡午夜精品| 欧美精品v| 67194在线午夜亚洲| 日韩在线观看网站| 欧美69视频在线| 国产流白浆视频| 国产三级精品三级在线观看| 日韩色图区| 国产精品人成在线播放| 亚洲日韩久久综合中文字幕| 无码AV日韩一二三区| 欧美国产视频| 在线观看亚洲精品福利片| 风韵丰满熟妇啪啪区老熟熟女| 亚洲中文字幕av无码区| 国产波多野结衣中文在线播放| 456亚洲人成高清在线| 国产男人的天堂| 国产浮力第一页永久地址| 成人午夜亚洲影视在线观看| 人妻出轨无码中文一区二区| 日韩123欧美字幕| 超清无码熟妇人妻AV在线绿巨人| 最新日韩AV网址在线观看| 欧美精品在线看| 欧美色99| 久久天天躁夜夜躁狠狠| 中文字幕在线观| 免费可以看的无遮挡av无码| 在线高清亚洲精品二区| 日本高清视频在线www色| 国产黄网永久免费| 中文字幕2区| 国产成人高清精品免费| 91成人精品视频| 91香蕉视频下载网站| 黄色成年视频| 国产区91| 精品视频一区二区观看| 国产又大又粗又猛又爽的视频| 成年人福利视频| 国产一级特黄aa级特黄裸毛片| 精品午夜国产福利观看| 午夜福利在线观看入口| 狠狠干综合|