999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案信息進行大數據應用的初步實踐

2021-05-07 02:24:26朱夢玲
現代信息科技 2021年23期
關鍵詞:人臉識別

摘? 要:隨著大數據在各行業應用的廣泛深入,取得良好的成果,許多檔案行業學者對檔案信息在大數據應用方面進行了研究和實踐,通過采用人工智能技術對檔案信息進行預處理,如利用OpenCV算法對文本檔案進行OCR識別,采用ASR技術對音視頻檔案進行語音識別,采用人工智能技術進行人臉識別等。對獲得的數字化檔案信息采用隱馬爾科夫模型進行結構化,最后形成“一人一檔,一事一檔”等大數據應用實踐。

關鍵詞:OCR;語音識別;人臉識別;數據結構化;一人一檔;一事一檔

中圖分類號:TP39? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2021)23-0142-03

Preliminary Practice of Application of Big Data in Archival Information

ZHU Mengling

(Guangdong Yunxun Information Technology Co., Ltd., Huizhou? 516000, China)

Abstract: With the extensive and in-depth application of big data in various industries, good results have been achieved, many scholars in the archives industry have studied and practiced the application of big data in archives information. They preprocess archives information by using artificial intelligence technology, such as OCR recognition of text archives by using OpenCV algorithm, ASR (automatic speech recognition) technology is used for speech recognition of audio and video archives, and artificial intelligence technology is used for face recognition. The obtained digital archives information is structured by hidden Markov model (HMM), and finally forms big data application practices such as “one file for one person, one file for one thing”.

Keywords: OCR; speech recognition; face recognition; data structure; one file for one person; one file for one thing

0? 引? 言

我們國家在電子政務方面自動化、標準化、網絡化漸趨完善,每天都產生大量的反映政務活動的各種格式的電子檔案,結合國家對政府檔案行業“存量數字化、增量電子化”的要求,各地綜合檔案館積累了海量的電子檔案文件,為下一步利用這些海量的檔案信息資源進行政務大數據的應用實踐打下基礎。

隨著新一代信息技術的發展,尤其是人工智能和大數據技術的日漸成熟和廣泛應用,大數據技術已體現出有其廣闊的應用前景,在交通出行、安防、個性化信息推送、消費等各方面都有成功的應用,大數據也展示出了其巨大的商業應用價值,而檔案因其數據量龐大,格式多樣,存在跨時空、跨領域、跨行業的特點,涵蓋了政務活動、社會活動、經濟活動的方方面面,使檔案天然的具有大數據屬性,在此背景下,檔案的利用模式將發生重大變革,從被動用檔轉變成主動用檔。檔案信息資源的大數據應用場景將集中在歷史場景還原、人物和事件軌跡聚合、政務輔助決策等方面。

本文將從檔案信息資源在大數據應用中的“一人一檔”“一事一檔”等方面進行政務大數據應用實踐的探討,從技術準備和實踐路徑等方面進行概括,提出我們的檔案大數據應用思路和技術方案。

1? 技術準備

在檔案信息化的基礎上,將大數據技術和人工智能技術應用到檔案數據中,融合OCR文本識別、音視頻文件語音文本識別、聲像檔案人臉識別,對非結構化的電子檔案數據完成結構化處理,通過多維度的關聯匯聚,將相關檔案以時間軸和GIS空間結合,生動形象的展現出人物和事物的發展軌跡。

1.1? 傳統的數字化檔案文件經過OCR識別后形成文本數據

基于人工智能的OCR技術通常使用OpenCV算法庫,通過圖像處理和統計機器學習方法從圖像中提取文本信息,包括二值化、噪聲濾波、相關域分析、AdaBoost等。將檔案庫中的紙質檔案,通過掃描、系統掛接、圖像準備、文本識別、提取檔案信息、保存識別到的文本信息。由于OCR識別存在一定的誤差,系統要能夠允許對識別后的OCR文本做修改,以保證深度學習的準確率,同時為大數據分析打好基礎。OCR識別還可用于全文檢索等檔案模塊,在海量的檔案數據中,快速定位想要查找的檔案文件甚至文件段落,對檔案工作有很好的推動作用。

將上傳的PDF、OFD、Word等檔案文件進行OCR識別,形成文本,可查看以及粘貼復制,同時也能進行大數據檢索。OCR識別界面如圖1所示。

1.2? 音視頻檔案進行語言識別后形成文本數據

語音識別涉及的領域包括:數字信號處理、聲學、語音學、計算機科學、心理學、人工智能等,是一門涵蓋多個學科領域的交叉科學技術。基于人工智能的音視頻檔案語音識別就是讓系統對音視頻檔案進行音頻提取,提取后對原始音頻進行部分消除噪聲來增強語音信號,且按一定時間進行切割并生成音頻文件進行語音信號的特征提取,這一過程能更好地尋找語音的內在特征,然后再通過語言模型訓練,計算語言特征提取后的特征矢量與每個聲學模型的距離來進行模式匹配,最后通過語音模型語法規則進行語音匹配,輸出識別結果。

音視頻檔案語音識別的應用可以很好地解決地方口音、方言和少數民族語言帶來的音視頻檔案識別問題,且該應用識別音頻輸出的文本信息可用于檔案音視頻檢索,而不再僅限于傳統的著錄信息檢索,相比較傳統的檢索方式,應用音視頻文本檢索后,檢索效率可以有很大的提高,提高了檔案人員的工作效率也提高了公眾對檔案的利用率;通過音視頻關鍵字和OCR識別的文本檔案、通過互聯網收集的檔案信息一起進行大數據分析,這將會大大提高聲像檔案的利用率,提升檔案工作人員的工作效率。音頻檔案語音識別界面圖如圖2所示。

1.3? 聲像檔案提取人臉信息

局部二值模式(local binary pattern,LBP)的人臉識別方法源于紋理分析領域。它首先計算圖像中每個像素與其局部鄰域點在亮度上的序關系,然后對二值序關系進行編碼形成局部二值式,最后采用多區域直方圖作為圖像的特征描述。該方法在FERET人臉圖像數據庫上取得了很好地識別性能。人臉識別后將識別到的人臉保存在數據庫中,作為查詢匹配庫。采取提取人臉外部矩形框、人臉面部輪廓特征提取、計算人臉特征、比較人臉特征、判斷是否小于閾值等流程實現人臉識別和特征提取以及結果匹配,最終實現人臉檢索,其中計算人臉特征使用Resnet將人臉特征用128維向量標識,比較人臉特征采用計算歐式距離的方法。

根據以上人工智能算法提取人臉的特征數據、屬性數據,將聲像檔案中的人臉數據提取后結構化并匯聚整合,建立檔案人臉庫。檔案管理者也可通過對比檔案人臉庫,編輯標識人物姓名、身份、身體特征信息,完成聲像人物標注,形成描述統一、內容完備的人臉庫。建立人臉庫后再歸檔該人物聲像檔案可實現自動識別歸類,比如還原某位優秀共產黨員歷史時只需搜索該人臉或者姓名、身份等信息,該人物在庫中的所有相關聲像檔案立刻展現。與文本檔案OCR識別相結合,可形成人物鏈,可將該人物的文本檔案和聲像檔案相結合匯聚成個人檔案概覽。聲像人臉提取與檢索界面圖如圖3所示。

1.4? 數據要素提取和結構化

OCR識別完成了對檔案文本文件和音視頻文件轉換成可深入利用的數據,但這些數據均為原始的非關系型數據,要進行大數據分析和利用,需首先基于人工智能技術對這些非關系型數據進行結構化,使非關系型數據轉換成關系型數據庫。在結構化的過程中結合時空關系和人臉特征模型,構成更廣泛的人、事、時空的關聯性。

借助世界上最大的多語種語料庫,進行分詞粗分、細分、強制、合并、校正、詞性標注、命名實體識別、依存句法分析、成分句法分析、語義依存分析、語義角色標注、詞干提取、詞法語法特征提取、抽象意義表示等過程,提取人名、地名、事件等信息。使用隱馬爾科夫模型(Hidden Markov Model,HMM)作為語音信號的統計模型,采用前向-后向算法、Baum_Welch算法以及Viterbi解碼算法對檔案文件識別后的OCR文本進行中文分詞,對數據要素進行提取,提取后進行抽象意義表示,即完成數據要素的提取和結構化。數據要素提取和機構化相關圖示如圖4所示。

2? 實踐路徑

(1)經OCR和視頻文本識別后產生海量的文本數據,雖經過了檔案邏輯的多維編目、元數據的提取和標注等操作,但對事物內所包含的有機信息依然有限,要進行大數據應用,需先按照“人物、事件、時間、原因、結果”等主要要素,職務、單位、行為、場所、等細分要素進行結構化,對文本中所包含的主要要素、細分要素進行基于人工智能的自動識別和提取、聚合,完成數據清洗和預處理,建立龐大的關系型主動利用檔案大數據庫,提供了檔案大數據應用的堅實基礎和無限可能性。

(2)對檔案信息大數據最直觀的利用進行多維度組合分析,因檔案大數據完成了結構化,產生主要要素和細分要素相結合的多維度要素,有時空、事件、人物、單位機構等,可對各類要素多維度進行組合分析,使用諸如回歸、聚類、關聯值、異常值等數據挖掘方式,也可按照時空維度的方式,結合GIS地圖,可直觀立體地表現出事件所產生的時間和空間信息,涉及到人物時,可將關系型檔案大數據和人臉特征信息結合,建立起檔案大數據和圖片、音視頻的關聯關系。其中在聲像檔案進行拍攝時,可打開拍攝設備中記錄時間和GPS經緯度的參數,則可自動獲得產生聲像檔案時的時空要素。

(3)在數字檔案信息要素中,人物和事件是最為核心的要素,也是檔案最為直觀的分析對象,在結構化后,可使用聚類的方式對人物要素進行聚合,包括人名、職務、單位、行為等,結合聲像檔案中的人臉等要素,按時間軸線為主,GIS空間為表現形式,聚合成時空環境中的一人一檔,若要查看某位同志的職業升遷,則可通過一人一檔形成的時間軸,直觀地看出職位變動以及該人物參加的活動等;

也可按照事件進行檔案大數據利用,如“城市更新”“軌道建設”“鄉村振興”“疫情防治”等具體事件進行多維聚合,以時空為表現形式,形成一事一檔的利用模式。實踐路徑如圖5所示。實踐結果界面圖如圖6實踐結果圖。

3? 結? 論

信息技術的大范圍應用使得各類生產活動中所產生的數據量逐漸增多,這必定會為檔案管理工作帶來較大的難度,對于檔案事業來說,信息技術的普及及應用既是機遇又是挑戰,信息量和數據量的大幅度增長不僅會增加檔案管理負擔,還突出表現了原有檔案管理模式中的不足,在信息化的背景下,要求檔案管理工作根據當前的發展形勢進行創新與整改,全面提升檔案管理的信息化水平和管理效率,為人們提升更加高效的檔案服務。而在信息化的基礎上,應加大對檔案海量數據的分析力度,做到檔案大數據的主動用檔。檔案大數據的主動用檔的利用場景,不僅限于一人一檔及一事一檔,在歷史場景還原、政務輔助決策、事件和人物的規律性分析等方面均可發揮作用,在新一代信息技術,尤其是隨著人工智能技術和大數據技術的日漸成熟,對檔案的價值挖掘提供了無限的想象空間和可能性,“大數據+檔案”是形成主動用檔、智能用檔,讓檔案發揮更大利用價值的重要途徑。

參考文獻:

[1] 趙甲信.關于加快推進縣域檔案信息化建設工作步伐的幾點體會 [J].陜西檔案,2008(6):30.

[2] 趙鵬,李光.檔案工作落實科學發展觀的關鍵——實現檔案實物化管理向信息化管理的轉變 [J].山東檔案,2005(5):7-9.

[3] 陶水龍.大數據特征的分析研究 [J].中國檔案,2017(12):58-59.

[4] 陳菲.大數據視角下的檔案利用問題研究——由提高數據加工能力談起 [J].機電兵船檔案,2017(3):74-76.

[5] 王玲,張妍妍.大數據時代檔案工作面臨的大機遇與大挑戰 [J].蘭臺世界,2014(17):15-16.

作者簡介:朱夢玲(1997—),女,漢族,湖北黃岡人,工科學士學位,本科,研究方向:檔案大數據。

猜你喜歡
人臉識別
人臉識別 等
作文中學版(2022年1期)2022-04-14 08:00:34
揭開人臉識別的神秘面紗
學生天地(2020年31期)2020-06-01 02:32:06
人臉識別技術的基本原理與應用
電子制作(2019年14期)2019-08-20 05:43:34
人臉識別技術在高速公路打逃中的應用探討
基于(2D)2PCA-LBP 的人臉識別方法的研究
電子制作(2017年17期)2017-12-18 06:40:55
淺談人臉識別技術
人臉識別在高校安全防范中的應用
電子制作(2017年1期)2017-05-17 03:54:46
巡演完美收官 英飛拓引領人臉識別新潮流
人臉識別在Android平臺下的研究與實現
基于Metaface字典學習與核稀疏表示的人臉識別方法
主站蜘蛛池模板: 91网红精品在线观看| 99热这里只有精品国产99| 99久久精品免费视频| 老熟妇喷水一区二区三区| 国产打屁股免费区网站| 日韩毛片基地| a亚洲天堂| 亚洲欧美国产五月天综合| 少妇精品网站| 亚洲男人的天堂久久香蕉| 粗大猛烈进出高潮视频无码| 成人一级黄色毛片| 亚洲第一视频区| 五月婷婷中文字幕| 丝袜久久剧情精品国产| 久久久精品无码一二三区| 99re在线免费视频| 欧美精品成人| 亚洲人人视频| 免费毛片网站在线观看| 成人噜噜噜视频在线观看| 久久久久久午夜精品| 国内a级毛片| 色窝窝免费一区二区三区| 在线一级毛片| 久久精品最新免费国产成人| 欧美丝袜高跟鞋一区二区| 高h视频在线| 精品一区二区三区波多野结衣| 欧美人在线一区二区三区| 夜夜爽免费视频| 中文字幕天无码久久精品视频免费| 91精品小视频| 成人免费一级片| 一级毛片视频免费| 女人18毛片久久| 9久久伊人精品综合| 在线视频亚洲色图| 亚洲男人天堂久久| 国产成人高清精品免费| 一本大道无码高清| 又爽又大又黄a级毛片在线视频 | 99伊人精品| 99视频只有精品| 久久久成年黄色视频| 国产视频一区二区在线观看| 国产91蝌蚪窝| 成人国产一区二区三区| 福利视频久久| 成人噜噜噜视频在线观看| 亚洲欧美日韩中文字幕一区二区三区 | 有专无码视频| 国产精品毛片一区视频播| 欧美天堂在线| 精品少妇三级亚洲| 97久久超碰极品视觉盛宴| 日韩成人在线视频| 国产免费看久久久| 欧美亚洲欧美| 久久精品一品道久久精品| 青青草国产精品久久久久| 国产女同自拍视频| 无码视频国产精品一区二区| 人妻无码AⅤ中文字| 九九线精品视频在线观看| 国产亚卅精品无码| 女人18一级毛片免费观看| 国产福利小视频在线播放观看| 亚洲欧美精品在线| 国产亚洲高清在线精品99| 中日无码在线观看| 亚洲91精品视频| 亚洲综合一区国产精品| 一级毛片免费不卡在线视频| 欧美丝袜高跟鞋一区二区| www.91在线播放| 在线观看免费人成视频色快速| 免费无码又爽又刺激高| 一级毛片高清| 成人亚洲国产| 无码中文字幕乱码免费2| 新SSS无码手机在线观看|