999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討

2015-11-23 06:23:24胡為群祝利莉葉少挺彭一輝鄭可鋒
浙江農(nóng)業(yè)科學(xué) 2015年3期
關(guān)鍵詞:標(biāo)準(zhǔn)化資源農(nóng)業(yè)

胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒

(浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)

省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討

胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒*

(浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)

農(nóng)業(yè)資源屬性數(shù)據(jù)來(lái)源于諸多部門,在將其輸入存儲(chǔ)到計(jì)算機(jī)系統(tǒng)之前,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。根據(jù)浙江省和廣西壯族自治區(qū)農(nóng)業(yè)資源信息系統(tǒng)建設(shè)中遇到的問(wèn)題,對(duì)屬性數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程及數(shù)據(jù)標(biāo)準(zhǔn)化處理中數(shù)據(jù)編碼,行政代碼添加,缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理,數(shù)據(jù)轉(zhuǎn)換和驗(yàn)證等關(guān)鍵技術(shù)進(jìn)行探討。

信息系統(tǒng);農(nóng)業(yè)資源;屬性數(shù)據(jù);標(biāo)準(zhǔn)化

農(nóng)業(yè)資源是農(nóng)業(yè)生產(chǎn)的物質(zhì)基礎(chǔ)。農(nóng)業(yè)資源信息系統(tǒng)的開發(fā)與應(yīng)用是實(shí)現(xiàn)資源高效利用、科學(xué)規(guī)劃和可持續(xù)發(fā)展的有效途徑。利用先進(jìn)的信息技術(shù)和科學(xué)方法,可以為農(nóng)業(yè)資源的合理配置、高效利用和宏觀決策提供依據(jù)[1]。農(nóng)業(yè)資源信息系統(tǒng)通常涉及的屬性數(shù)據(jù)主要包括土地資源、水資源、氣候資源、農(nóng)業(yè)經(jīng)濟(jì)資源、人口與勞動(dòng)力資源等5個(gè)方面的數(shù)據(jù)。這些數(shù)據(jù)可能因調(diào)查過(guò)程中的工作失誤、地區(qū)間或年度間統(tǒng)計(jì)口徑不一致、抽樣方法或者測(cè)量方法不同等因素存在誤差或量綱不一致;也可能會(huì)在數(shù)據(jù)收集、錄入、轉(zhuǎn)換過(guò)程中出現(xiàn)錯(cuò)誤導(dǎo)致缺失、重復(fù)甚至錯(cuò)誤。因此,在將采集到的農(nóng)業(yè)資源信息屬性數(shù)據(jù)輸入存儲(chǔ)到計(jì)算機(jī)系統(tǒng)之前,必須對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,本文擬對(duì)此進(jìn)行方案探討。

1 屬性數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程

概括來(lái)講,屬性數(shù)據(jù)標(biāo)準(zhǔn)化處理的過(guò)程包括:數(shù)據(jù)生成、數(shù)據(jù)審查、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗(yàn)證等5大步驟[2-3]。

1.1 數(shù)據(jù)生成

將采集的數(shù)據(jù)統(tǒng)一采用格式化文本的數(shù)據(jù)存儲(chǔ)方法,統(tǒng)一數(shù)據(jù)字段,將所有相同意義字段的字段名稱、數(shù)據(jù)格式(包括數(shù)據(jù)類型,字段長(zhǎng)度)統(tǒng)一處理。使用統(tǒng)一的數(shù)據(jù)字典將數(shù)據(jù)表字段意義進(jìn)行統(tǒng)一定義。

1.2 數(shù)據(jù)審查

檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,字段值的內(nèi)容與調(diào)查要求是否一致,是否全面。此外,利用描述性統(tǒng)計(jì)分析,檢查各個(gè)字段的字段類型、字段值的最大值、最小值、平均數(shù)、中位數(shù)等,記錄個(gè)數(shù)、缺失值或空值個(gè)數(shù)等。

1.3 數(shù)據(jù)清理

針對(duì)數(shù)據(jù)審查過(guò)程中發(fā)現(xiàn)的明顯錯(cuò)誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)?shù)姆椒ㄟM(jìn)行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),以便后續(xù)的統(tǒng)計(jì)分析及預(yù)測(cè)分析能夠得出可靠的結(jié)果。當(dāng)然,數(shù)據(jù)清理還包括對(duì)重復(fù)記錄進(jìn)行的鑒別與刪除。

1.4 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)分析強(qiáng)調(diào)分析對(duì)象的可比性,但不同字段值由于統(tǒng)計(jì)口徑、計(jì)量單位等不同,往往會(huì)造成數(shù)據(jù)不可比。對(duì)一些統(tǒng)計(jì)指標(biāo)進(jìn)行綜合評(píng)價(jià)時(shí),如果統(tǒng)計(jì)指標(biāo)的性質(zhì)、計(jì)量單位不同,也容易引起評(píng)價(jià)結(jié)果出現(xiàn)較大誤差,再加上分析過(guò)程中的其他一些要求,因此需要在分析前對(duì)數(shù)據(jù)進(jìn)行相應(yīng)轉(zhuǎn)換。

1.5 數(shù)據(jù)驗(yàn)證

該步驟的目的是初步評(píng)估和判斷數(shù)據(jù)是否能夠滿足統(tǒng)計(jì)分析的需要,決定是否需要增加或減少數(shù)據(jù)量。一般可利用簡(jiǎn)單的線性模型,以及散點(diǎn)圖、直方圖、折線圖等圖形進(jìn)行探索性分析,或利用相關(guān)分析、一致性檢驗(yàn)等方法對(duì)數(shù)據(jù)的準(zhǔn)確性進(jìn)行驗(yàn)證,確保不把錯(cuò)誤和偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析中去。

上述5個(gè)步驟是一個(gè)逐步深入、由表及里的過(guò)程。先是將采集的數(shù)據(jù)統(tǒng)一生成格式化的文本,然后從表面上查找容易發(fā)現(xiàn)的問(wèn)題(如數(shù)據(jù)記錄個(gè)數(shù)、最大值、最小值、缺失值或空值個(gè)數(shù)等),接著對(duì)發(fā)現(xiàn)的問(wèn)題進(jìn)行處理,即數(shù)據(jù)清理,再就是提高數(shù)據(jù)的可比性,對(duì)數(shù)據(jù)進(jìn)行一些變換,使數(shù)據(jù)在形式上滿足分析的需要,最后則是進(jìn)一步檢測(cè)數(shù)據(jù)內(nèi)容是否能夠滿足分析需要,診斷數(shù)據(jù)的真實(shí)性及數(shù)據(jù)之間的協(xié)調(diào)性等,確保優(yōu)質(zhì)的數(shù)據(jù)進(jìn)入信息系統(tǒng)。

2 數(shù)據(jù)標(biāo)準(zhǔn)化處理的關(guān)鍵技術(shù)

2.1 數(shù)據(jù)編碼

數(shù)據(jù)的分類編碼是對(duì)數(shù)據(jù)資料進(jìn)行有效管理的重要依據(jù)。數(shù)據(jù)輸入計(jì)算機(jī)前,必須先按使用要求進(jìn)行分類。數(shù)據(jù)分類應(yīng)遵循唯一性、可擴(kuò)充性、易識(shí)別性、簡(jiǎn)單性、完整性的原則。通常省域農(nóng)業(yè)資源信息數(shù)據(jù)可分為5大類、8個(gè)一級(jí)庫(kù),見表1。大分類代碼多采用1~2位字母編碼,小分類采用1位數(shù)字編碼,一級(jí)代碼和二級(jí)代碼均采用2位數(shù)字編碼。標(biāo)識(shí)碼一般為空,如果出現(xiàn)歷年統(tǒng)計(jì)口徑不一致的情況,為了區(qū)分也可以采用。以對(duì)某地開展的人口調(diào)查為例,其數(shù)據(jù)編碼如表2所示,其中,P代表大分類“人口資源”,1為小類“人口”,后面為分級(jí)代碼。表中字段名由“表名-首字中文拼音全拼+其余拼音首字母”構(gòu)成,數(shù)字保持不變。

表1 農(nóng)業(yè)資源信息數(shù)據(jù)分類

表2 某地人口調(diào)查數(shù)據(jù)的編碼

2.2 行政代碼添加

由于數(shù)據(jù)服務(wù)層的數(shù)據(jù)表較多,多個(gè)數(shù)據(jù)表之前常具有主從關(guān)系,為了避免出錯(cuò),使它們保持關(guān)聯(lián)的一致性,在省域系統(tǒng)的所有數(shù)據(jù)表中都增加“行政代碼”字段,作為關(guān)聯(lián)的主鍵,當(dāng)數(shù)據(jù)在錄入和修改時(shí),使各表數(shù)據(jù)始終保持一致性。行政代碼分類采用現(xiàn)有的行政體系劃分方法,用6位數(shù)字表示,例如330122表示桐廬縣。

作為數(shù)據(jù)表的主鍵,不同表中的行政單位名稱常會(huì)存在排列順序不一致,行政單位名稱叫法不一致,如“杭州市”“杭州地區(qū)”“杭州”,或者隨著行政地區(qū)區(qū)域的變化,不同年份的行政代碼可能不一樣的問(wèn)題。為了解決這些問(wèn)題,建議在多個(gè)表之間共享一套代碼地區(qū)對(duì)照表。在本研究中,我們采用了Excel中“宏”的方法來(lái)實(shí)現(xiàn)。下面以W 20101水產(chǎn)品產(chǎn)量為例來(lái)說(shuō)明整個(gè)過(guò)程。

打開表W 20101,選擇工具→宏→Visual Basic編輯器。選擇文件→導(dǎo)入文件,選擇編寫好的代碼,如圖1所示,選擇2000年的數(shù)據(jù),代碼如下:

Attribute VB-Name=“模塊1”

Public Function code2000(ByVal str As String)

Select Case str

Case“浙江省”

code2000=“330000”

Case“杭州”

code2000=“330100”

Case“杭州地區(qū)”

code2000=“330100”

Case“杭州市”

code2000=“330100”

Case“余杭”

code2000=“330184”

Case“余杭縣”

code2000=“330184”

Case“余杭市”

code2000=“330184”

……

Case Else

code2000=“”

End Select

End Function

圖1 代碼選擇界面

選中導(dǎo)入的模塊,工具→宏,輸入宏名字,如a2000,點(diǎn)擊創(chuàng)建,再選擇工具→宏→選擇a2000,運(yùn)行,點(diǎn)擊保存,退出。

返回到表W 20101,使用trim函數(shù)把行政單位名稱前后空格刪除,插入一空列,找到2000年的數(shù)據(jù),從第一個(gè)行政單位“浙江省”開始,在空白單元格中輸入“=code2000(C898)”,其中“C898”為第一個(gè)行政單位所在的位置,下拉,直到2000年的數(shù)據(jù)結(jié)束。選中生成的行政地區(qū)代碼,選擇性粘貼為數(shù)值型,其他年份做法相同。

2.3 缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理

2.3.1 缺失數(shù)據(jù)處理

對(duì)于缺失數(shù)據(jù),通常由人工填寫,采用默認(rèn)值、平均值或者同類別平均值填補(bǔ)的方法完成。另有些數(shù)據(jù)可以通過(guò)數(shù)據(jù)轉(zhuǎn)換獲得,例如總?cè)丝跀?shù)可以通過(guò)農(nóng)業(yè)人口與非農(nóng)人口求和來(lái)完成。對(duì)于一些要求更精確的數(shù)據(jù),則可通過(guò)回歸分析、貝葉斯方法或決策樹推斷該記錄特定屬性的最可能取值,這類方法可以最大限度地利用現(xiàn)有的數(shù)據(jù)信息來(lái)推測(cè)遺漏數(shù)據(jù)值,因而效果最好。

2.3.2 噪聲數(shù)據(jù)處理

噪聲是指被測(cè)變量的隨機(jī)錯(cuò)誤或偏差,包括錯(cuò)誤的值或偏離期望的孤立點(diǎn)。可以用以下技術(shù)來(lái)平滑噪聲數(shù)據(jù),識(shí)別和刪除孤立點(diǎn)。

分箱方法:將存儲(chǔ)的值分布到一些箱中,通過(guò)考查“鄰居”來(lái)局部平滑存儲(chǔ)數(shù)據(jù)的值。如可以采用暗箱的平均值、中值或箱邊界值進(jìn)行平滑。

聚類:將類似的值組織成群或“聚類”,落在聚類集合之外的值視為異常數(shù)據(jù)。對(duì)于異常數(shù)據(jù),如果是垃圾數(shù)據(jù),則予以清除,否則保留作為重要數(shù)據(jù)進(jìn)行孤立點(diǎn)分析。

回歸方法:利用擬合函數(shù),如線性回歸、多元回歸等來(lái)平滑數(shù)據(jù)、幫助除去噪聲。

人機(jī)結(jié)合檢查方法:首先由計(jì)算機(jī)識(shí)別并輸出那些差異程度大于某個(gè)閾值的數(shù)據(jù),然后人工審核這些數(shù)據(jù),確定孤立點(diǎn)。這種方法比單純的人工檢查要快。

2.3.3 重復(fù)數(shù)據(jù)的處理

通過(guò)對(duì)行政地區(qū)代碼+年份進(jìn)行篩選,能夠發(fā)現(xiàn)重復(fù)的記錄,然后進(jìn)行刪除。

2.4 數(shù)據(jù)轉(zhuǎn)換和驗(yàn)證

數(shù)據(jù)轉(zhuǎn)換主要是為了實(shí)現(xiàn)數(shù)據(jù)分析的可比性,而對(duì)數(shù)據(jù)進(jìn)行的規(guī)格化處理,主要針對(duì)計(jì)量單位的差異,采用歸一化處理,例如農(nóng)作物播種面積單位用“公頃”,總產(chǎn)量單位用“噸”,單位面積產(chǎn)量單位用“千克”,日照時(shí)數(shù)用“小時(shí)”等。針對(duì)數(shù)據(jù)層級(jí)不同可采用數(shù)據(jù)匯總、泛化等方法實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換,例如通過(guò)各月降水量可以匯總得到年降水量,通過(guò)各月日照時(shí)數(shù)可以匯總得到全年日照時(shí)數(shù)等。

數(shù)據(jù)驗(yàn)證階段的任務(wù)是確認(rèn)數(shù)據(jù)的正確性與有效性,檢查數(shù)據(jù)的邏輯轉(zhuǎn)換是否對(duì)數(shù)據(jù)造成扭曲或偏差。根據(jù)不同的需要可供選擇的方法較多,比如可以通過(guò)極值來(lái)檢查數(shù)據(jù)是否超出范圍,通過(guò)求和來(lái)檢查合計(jì)值是否為各分項(xiàng)之和,還可以利用時(shí)間序列的預(yù)測(cè)值與實(shí)際值的比較來(lái)進(jìn)行檢驗(yàn)。即以現(xiàn)有數(shù)據(jù)為基礎(chǔ),利用各個(gè)變量自身發(fā)展情況的走勢(shì)進(jìn)行最優(yōu)化模擬,建立相應(yīng)的時(shí)間序列模型,對(duì)相應(yīng)指標(biāo)進(jìn)行預(yù)測(cè),得到該指標(biāo)在理論上應(yīng)該達(dá)到的數(shù)值,然后與實(shí)際數(shù)據(jù)相對(duì)比,以此評(píng)價(jià)實(shí)際數(shù)據(jù)與理論值的接近程度。

3 小結(jié)

屬性數(shù)據(jù)的標(biāo)準(zhǔn)化處理能有效地提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。標(biāo)準(zhǔn)化處理的方法多種多樣,筆者從實(shí)踐經(jīng)驗(yàn)出發(fā),形成了上述的省級(jí)農(nóng)業(yè)資源信息系統(tǒng)資源屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案,并在多個(gè)項(xiàng)目中得到了驗(yàn)證和應(yīng)用。由于屬性數(shù)據(jù)的準(zhǔn)確性、完整性直接影響著農(nóng)業(yè)資源信息系統(tǒng)的可靠性和可用性,而當(dāng)前統(tǒng)計(jì)工作中又存在諸多新的不確定因素和問(wèn)題,都可能影響屬性數(shù)據(jù)的質(zhì)量,因此,本文涉及的標(biāo)準(zhǔn)化處理方法也應(yīng)隨著實(shí)踐的發(fā)展不斷充實(shí)、完善。

[1] 陳旭,畢軍芳,仇天月,等.基于共享服務(wù)模式的農(nóng)業(yè)資源管理W ebGIS系統(tǒng)構(gòu)建[J].中國(guó)農(nóng)學(xué)通報(bào),2013,29(11):115-120.

[2] 王勝.關(guān)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量存在的問(wèn)題及其對(duì)策研究[J].現(xiàn)代經(jīng)濟(jì)信息,2010(24):206-208.

[3] 張新茹.論統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量問(wèn)題[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2005,15(17):124-125.

(責(zé)任編輯:高 峻)

S 126

A

0528-9017(2015)03-0425-03

10.16178/j.issn.0528-9017.20150344

2014-12-04

浙江省其他廳局項(xiàng)目(2011R28A60C01)

胡為群(1977-),女,助理研究員,碩士,從事農(nóng)業(yè)信息化工作。E-mail:hwq6629@sina.com。

鄭可鋒(1963-),男,研究員,碩士,主要從事農(nóng)業(yè)信息化工作。

文獻(xiàn)著錄格式:胡為群,祝利莉,葉少挺,等.省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討[J].浙江農(nóng)業(yè)科學(xué),2015,56(3): 425-428.

猜你喜歡
標(biāo)準(zhǔn)化資源農(nóng)業(yè)
國(guó)內(nèi)農(nóng)業(yè)
國(guó)內(nèi)農(nóng)業(yè)
國(guó)內(nèi)農(nóng)業(yè)
基礎(chǔ)教育資源展示
擦亮“國(guó)”字招牌 發(fā)揮農(nóng)業(yè)領(lǐng)跑作用
標(biāo)準(zhǔn)化簡(jiǎn)述
一樣的資源,不一樣的收獲
資源回收
標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
主站蜘蛛池模板: 美女被躁出白浆视频播放| 日韩欧美国产另类| 久久精品电影| 精品人妻一区无码视频| 久久伊人操| 成人精品免费视频| 国产99在线| 亚洲第七页| 在线亚洲精品福利网址导航| 亚洲不卡影院| 四虎精品国产AV二区| 亚洲精品无码在线播放网站| 欧美一区福利| 男人天堂伊人网| 亚洲中文字幕日产无码2021| 国产精品欧美亚洲韩国日本不卡| 久久午夜夜伦鲁鲁片无码免费| 成人欧美日韩| 中文字幕人妻av一区二区| 伊人成人在线视频| 怡春院欧美一区二区三区免费| 亚洲swag精品自拍一区| 色有码无码视频| 久久精品视频亚洲| 国内精品视频| 九九热精品视频在线| 国产成人久久777777| 麻豆精品视频在线原创| 午夜免费视频网站| 午夜小视频在线| 亚洲一道AV无码午夜福利| 男女男免费视频网站国产| 大陆精大陆国产国语精品1024| 久久这里只有精品免费| 美女视频黄频a免费高清不卡| 欧美日韩国产在线人成app| 婷婷激情亚洲| 99无码中文字幕视频| 久久久久国产一级毛片高清板| 国产亚洲精品无码专| 国产精品自拍露脸视频| 亚洲第一色网站| 亚洲成人在线播放 | 欧美一区二区啪啪| 亚洲视频免| 2048国产精品原创综合在线| 亚洲不卡无码av中文字幕| 日本精品影院| 九月婷婷亚洲综合在线| 2021精品国产自在现线看| 国产激爽爽爽大片在线观看| 五月激情综合网| 青青青草国产| 99久久精品国产综合婷婷| 久久精品国产电影| A级毛片无码久久精品免费| 精品国产三级在线观看| 久久国产亚洲欧美日韩精品| 亚洲a免费| 欧美日韩国产精品综合| 青青热久免费精品视频6| 日韩欧美中文字幕在线韩免费| 狠狠色综合网| 日韩国产黄色网站| 国产在线一二三区| 91网址在线播放| 国产91丝袜在线播放动漫| 国产乱人伦AV在线A| 重口调教一区二区视频| 久久久精品久久久久三级| 亚洲色图综合在线| 久久国产V一级毛多内射| 久久国产精品嫖妓| aⅴ免费在线观看| 四虎影视库国产精品一区| 亚洲高清资源| 国产丝袜无码一区二区视频| 成年人国产网站| 国产女人在线视频| 国产在线观看一区精品| 在线看AV天堂| 亚洲天堂网2014|