999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于“企業年度工作報告”淺析非結構化數據的處理和應用

2019-06-13 09:37:16王燁
經濟師 2019年4期
關鍵詞:處理應用

王燁

摘要:大數據時代,數據正在成為一種生產資料,一種稀有資產和新興產業。數據不僅是“副產物”。而是可被再次甚至加工的原料,一種可持續發展的生產資料,通過對其探索以實現更大價值。數據作為國家基礎性戰略資源,受到黨中央、國務院的高度重視,在當今經濟社會發展中大數據的作用不可小覷,黨的十八屆五中全會提出了“實施國家大數據戰略”.國務院也印發了《促進大數據發展行動綱要》,目的在于全面推動大數據的發展,意在建設數據強國。海量存儲空間和高速運算速度,將從“樣本數據采集”到“全量數據采集”變成現實,而這種轉變就要求政府及企業需要對現有積累的數據進行重新審視。

關鍵詞:非結構化數據 處理 應用

一、信息數據的分類構成及非結構化數據特征

在大數據發展的短短幾十年的時間中,政府和企業都積累了大量數據。從技術層面來分析這些積累的數據,可以將其分為三種類型:

結構化數據:即可以用數據庫存儲的數據,這類數據易于存儲,便于進行檢索、統計分析等操作。我們所使用的各類業務系統所產生的數據多為結構化數據,最適合進行大數據分析挖掘。

半結構化數據:具有一定的結構性,但是數據結構沒有形成統一的國際標準,沒有關系型數據庫的嚴格規范限制。半結構化數據多應用于現在的列式數據庫中,便于對大文本進行搜索。

非結構化數據:數據結構不規則或不完整,沒有預定義的數據模型。屬于不方便用數據庫二維邏輯表來表現的數據。

二、非結構化數據處理的重要性和技術難點

經相關機構調研發現,無論是政府還是企業多年所積累的信息數據,其中易于分析挖掘的結構化及半結構化數據僅占10%,多數積累的信息為非結構化數據,且這些數據每年都會按指數增長60%。政府投入大量資金用來分析結構化數據,卻忽略了其實非結構化數據同樣是蘊藏大量信息的寶庫。但要將其與大數據相融合,必須經過專業技術的處理、提煉。下圖為非結構化數據在處理過程中所遇到的技術難點:

可見,只有將非結構化數據轉換為結構化數據,才能獲取到價值更高、范圍更廣的信息數據。

三、非結構化數據處理的技術原理和主要處理步驟

非結構化數據的特點是格式多樣,數據標準也是多樣性的,在技術上非結構化信息比結構化信息更難標準化,必須通過技術手段將非結構化數據轉換成結構化數據并進行持久化存儲,才可充分挖掘其價值。根據數據處理的時效性要求,可以將針對數據處理的技術體系分為兩大類:

(一)基于Hadoop、Spark的實時流式解析處理方式

這種處理方式對數據處理的時效性要求相對較高。往往在產生數據的同時就要立即對其進行分析計算,并獲得最終結果。與這種技術相伴隨的有分布式處理計算、分布式存儲、內存數據庫等技術,都是用于提升實時處理效率所使用的。

(二)基于大數據解析技術的批量數據分析處理技術

這種處理方式對時效性要求不高,但對處理結果的精準度要求很高。對于政府及企業而言,利用第二種技術手段來處理留存和新增的非結構化數據更能節省時間成本并得到高質量的分析預測結果。針對基于大數據解析技術的非結構化數據處理技術,其主要處理流程包含了如下步驟:

步驟一:分析解析,定位有價值的數據信息,明確提取目標。

在對政府及企業所積累的非結構化數據進行解析前,先人工進行內容分析,定位到關鍵的、高價值的數據后再開始進行機器化解析處理,不但可以提升效率,獲取高價值信息數據,還降低了工作成本。

步驟二:確立數據標準。并生成對應的結構化、半結構化數據存儲模型。

只有高質量的數據才能夠確保大數據分析預測結果的準確性,因此,在步驟一中確立了需要提取的核心數據,接下來就需要為這些核心數據建立對應的數據標準,并依據標準建立對應的結構化及半結構化數據模型,利用關系型數據庫和NOSQL數據庫的約束關系來確保數據標準得到執行,從而保障數據的高質量。

步驟三:利用各類型大數據解析工具進行核心數據提煉存儲。在建立數據標準及存儲模型后,對各類非結構化數據進行解析,提煉出核心數據并保存到相應的數據庫中,針對不同類型的數據需要專業的大數據解析工具來進行數據的解析與提取。

步驟四:建立科學的、可持續發展的分析模型,并持久的對其進行優化改進。

從大量不毫無關聯、類型各異的數據中挖掘出有價值的數據,運用機器學習方法、人工智能方法或者數據挖掘方法進行深度分析,從中發現新的知識和規律,并將其運用到不同領域,發揮大數據的真正價值,最終得以改善社會治理、提高生產效率、推進科學研究。

四、“企業年度工作報告綜合管控平臺”對非結構數據化處理的應用實踐

國務院國有資產監督管理委員會(簡稱:國資委)所管理的企業眾多。全國約有各級企業近3萬家。根據國資委的管理要求,凡國資委下屬的、擁有獨立企業法人的企業均需填寫《企業年度工作報告》,并最終在一級企業進行匯總后統計交給國資委,以備國資委審查及歸檔。

企業年度工作報告一直以來以多為MSOffce文件形式的非結構化數據存在,每年報告總量近5000套,每份報告的字數約在20萬字。且均為人工手動填寫,無法生成格式化的信息數據,審核及統計工作也均需人工開展,耗費了大量人力資源,且上報的內容參差不齊,影響了國資委對下屬企業的掌控與了解。

針對上述現狀和管理的實際需要.國資委和中國中鐵組織開展了《國資委企業年度工作報告綜合管控云平臺》課題,其利用云技術為國資委及其下屬企業建設企業年報私有云平臺,國資委下屬企業可利用該平臺實現企業年度報告的任務劃分、填寫、審核、校驗、提交、匯總及最終上報工作,而國資委及一級企業可實現年報的匯總、審核、統計、分析工作;通過云平臺的建設,還將形成一個針對企業年報的大數據中心,并利用大數據技術對這些信息進行匯總及智能分析,幫助國資委更高效的管理審查企業的經營情況。

針對企業年度工作報告的內容特點和管理的實際,“企業年度工作報告綜合管控平臺”在技術手段上選用了基于大數據解析技術的批量數據分析處理技術:

(一)分析解析,定位有價值的數據信息,明確提取目標

一份年報少則幾百頁,多則上千頁,而每年所采集到的企業年報有上千份.如果對全部內容進行精準解析轉換。其工作量相當巨大。年報中的核心信息多為企業年度資金狀況、財務經營狀況等信息表格,這部分內容僅僅占年報體量的十分之一。因此選擇對該部分內容進行重點解析,而其余章節的內容轉換為半結構化信息進行保存以備后用。這種處理不但讓我們獲取了企業年報中的高價值信息數據,節省了后期軟件開發制作的成本,還節約了大量的工作時間。

(二)確立數據標準,并生成對應的結構化、半結構化數據存儲模型

全量數據采集需要全量數據源。但現實中很多數據源會帶來大量低質量數據。政府及企業必須要在確立數據標準的同時,建設結構化及半結構化的存儲模型對獲取的數據進行存儲.并利用數據清洗整理技術消除低質量數據,從而確保通過BI獲得更佳決策。在企業年度工作報告綜合管控平臺中。每年都會根據政策及工作方向的變化來重新對年報內容進行梳理,重新確定填報內容,并在此基礎上建立準確、兼容的數據規范標準,以確保所采集到的各類信息數據的質量及準確性。針對所采集到的歷年年報數據,利用平臺中的數據標準監測工具對數據進行全面的監測分析,及時發現不合規的低質量數據并進行有效清洗,確保數據的高質量。

(三)利用各類型大數據解析工具進行核心數據提煉存儲

原有企業年報大多為MicrosoftOffice格式,平臺組選擇了Apache的POI開源解析器來對企業年報信息進行提煉。POI提供API給Iava程序對該格式檔案進行讀、寫的功能,項目團隊在其基礎之上。利用多線程處理技術開發了批量年報解析器,針對不同年份、不同版本的Office文件均可進行信息解析和提取。平臺利用該套工具對企業年報信息進行解析和提煉.并最終形成了企業年報信息資源庫。

(四)建立科學的、可持續發展的分析模型,并持久的對其進行優化改進

在“企業年度工作報告綜合管控平臺”中,根據規律建立了包括同質企業經營比對模型、企業經營分析預測模型在內的多種智能模型,并不斷對其進行優化調整以確保其準確性。平臺也在嘗試建立全新的業務分析模型以幫助審計署更好的對企業進行監管。最終.平臺將實現在人工智能、分析預測模型的基礎之上,利用大數據展現技術通過圖形化、格式化的方式展現分析結果,并支持人工二次分析,讓分析過程更加高效,結果更加精準,最大化地挖掘出大數據的核心價值。

通過“企業年度工作報告綜合管控平臺”的建設,將數十年累計的近8萬份報告、約合160億字的非格式化信息數據轉換成為了半結構及結構化數據。其中含企業經營、財務、人員、會議、違紀、項目等相關格式化數據約1.2億條以及半結構化信息數據470G,且這些數據正在以每年10%的速度增長。這些數據將為政府管理和企業決策帶來重要的支撐。

五、結語

企業年度工作報告綜合管控平臺,是對大數據技術的勇敢探索和實踐。雖然現階段平臺本身還不完善,但未來隨著經驗的積累提升以及系統的不斷優化,它必將進發出大數據的核心力量.讓相關工作開展變得更加高效智能。

猜你喜歡
處理應用
影響油田污水處理水質因素分析
視頻后期剪輯制作中鏡頭時長的處理
戲劇之家(2016年19期)2016-10-31 18:38:40
聲樂演唱中藝術與情感的深入處理
戲劇之家(2016年19期)2016-10-31 18:04:18
東風4B型內燃機車C6級維修后冷卻風扇不動作原因及解決辦法
橋梁軟土基礎處理應用
多媒體技術在小學語文教學中的應用研究
考試周刊(2016年76期)2016-10-09 08:45:44
分析膜技術及其在電廠水處理中的應用
科技視界(2016年20期)2016-09-29 14:22:00
GM(1,1)白化微分優化方程預測模型建模過程應用分析
科技視界(2016年20期)2016-09-29 12:03:12
煤礦井下坑道鉆機人機工程學應用分析
科技視界(2016年20期)2016-09-29 11:47:01
氣體分離提純應用變壓吸附技術的分析
科技視界(2016年20期)2016-09-29 11:02:20
主站蜘蛛池模板: 国产福利拍拍拍| 国内精品久久人妻无码大片高| 114级毛片免费观看| 亚洲欧美精品一中文字幕| 国产在线视频导航| 亚洲swag精品自拍一区| 国产精品久久久久久影院| 亚洲色图欧美| 国产成人a在线观看视频| 四虎影视8848永久精品| 国产福利不卡视频| AV色爱天堂网| 亚洲无码精彩视频在线观看| 国产玖玖视频| 国产成人免费| 国产黄在线免费观看| 99久久人妻精品免费二区| 乱人伦视频中文字幕在线| 国产主播一区二区三区| 国产h视频在线观看视频| 国产精品网曝门免费视频| a级毛片免费看| 亚洲一区二区三区中文字幕5566| 一本大道AV人久久综合| 亚洲黄网在线| 免费毛片a| 亚洲va在线观看| 国产毛片基地| 精品日韩亚洲欧美高清a| 99久久国产精品无码| 久久精品人妻中文系列| 欧美高清三区| 国产伦片中文免费观看| 亚洲免费三区| 亚洲精品国产精品乱码不卞 | 日本91在线| 中文字幕在线视频免费| 日韩午夜伦| 亚洲一区无码在线| 精品国产免费观看一区| 日韩无码真实干出血视频| 国产精品护士| 亚洲第一天堂无码专区| 一本大道视频精品人妻| 亚洲最新地址| 亚洲免费毛片| 日本三区视频| 色综合久久综合网| 国产亚洲精品va在线| 国产午夜精品鲁丝片| 日本黄色a视频| 精品黑人一区二区三区| 欧美黄色网站在线看| 一级一毛片a级毛片| 成人在线观看不卡| 中文字幕有乳无码| 激情爆乳一区二区| 亚洲嫩模喷白浆| 五月婷婷综合在线视频| 波多野结衣中文字幕久久| 欧美色亚洲| 欧美在线综合视频| 亚洲无线视频| 91麻豆国产视频| 视频二区中文无码| 亚洲精品视频免费看| 55夜色66夜色国产精品视频| 亚洲av无码人妻| 色精品视频| 91无码视频在线观看| 亚洲男人天堂2018| 亚洲乱码视频| 凹凸国产熟女精品视频| 超清无码一区二区三区| 国产成人喷潮在线观看| 亚洲精品卡2卡3卡4卡5卡区| 国内a级毛片| 中国毛片网| 欧美国产成人在线| 中文精品久久久久国产网址| 99精品影院| 日韩av手机在线|