999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI賦能:探索人工智能在檔案開放審核中的應用

2024-07-31 00:00:00于海娟
檔案天地 2024年7期

2023年,一款能聊天、會作詩的程序ChatGPT橫空出世,隨后一系列大語言模型產品如谷歌bard及國內百度文心一言、復旦大學Moss相繼推向市場,將人工智能(AI)技術推向了新一輪高潮,成為社會上最“火”的技術話題。人工智能呈現的深度學習、跨界融合、人機協同等新特征,使其在眾多領域應用中取得了突破性進展,為經濟社會發展注入了新動能。同時,AI的應用場景也越來越多,逐步走入老百姓的日常生活,如隨處可見的人臉識別、翻譯助手、服務機器人等。目前,我國政府正處于數字化轉型的關鍵期,檔案部門也在積極探索和尋找利用人工智能、大數據等新一代信息技術推進檔案管理模式變革的新途徑和新方法。人工智能應用于檔案管理的落地實踐過程中,當前最受關注且已真正實現成果轉換的是賦能檔案開放審核。

一、人工智能審核的現實依據

檔案開放審核工作量大,與現有人力資源矛盾突出。檔案開放審核是檔案開放利用的基礎,也是檔案工作中的難點問題,隨著新《檔案法》《國家檔案館檔案開放辦法》的實施,檔案開放審核越來越受重視。然而,目前檔案開放審核工作大部分停留在純人工審核階段,需要大量專業工作人員參與。依靠人工逐字逐句審核、判斷,工作量大,工作效率低,制約了檔案開放的進程。傳統的檔案開放審核模式已難以適應海量館藏檔案開放審核工作要求,急需技術變革,將開放審核人員從重復、繁重的腦力判斷工作中解放出來。

2019年,國家檔案局發布的《國家檔案局科技項目立項選題指南》中首次出現“人工智能”一詞。隨后幾年,AI+檔案應用研究一直出現在《選題指南》中。2022年和2023年度的《選題指南》更是將“AI+檔案開放審核”列為重點課題項目。在國家檔案局剛剛發布的2024年選題指南中,“檔案解密與開放的技術創新”“人工智能大模型應用”也是熱點議題。

加大開放力度已是檔案館的現實趨勢,各地檔案館都在積極制定開放審核辦法或引入技術手段加以落實,以更好地處理過程中的協同、權責優先等問題。人工智能檔案開放審核作為AI檔案應用場景落地的重要突破口,目前研發已經取得階段性成果,產生很多優秀案例。

自2019年以來,部分檔案館陸續通過課題研究結合試點應用的方式,開展了基于人工智能的檔案開放審核研究和應用實踐。比如,青島市檔案館“人工智能技術在檔案開放劃控中的應用”研究、江蘇省檔案館“基于語義分析的檔案館劃控開放智能鑒定的研究”、浙江省檔案館“基于NLP技術的檔案智能輔助開放審核研究”、安徽省檔案館“人工智能技術在檔案劃控上的應用研究”、福建省檔案館開展“基于數字檔案的人工智能檔案開放審核系統實現研究”、上海靜安區檔案館“AI+檔案開放審核關鍵技術研究及實踐應用”等。

二、人工智能審核實現路徑

通過文獻研究和案例分析不難發現,目前各單位已經研究建立的檔案開放審核模型都是基于本館的少數檔案數據訓練得出,能否適用于所有檔案尚有待驗證。實際上,目前市場上還沒有出現具有普適性、可以推廣應用的檔案智能開放審核系統或工具。但目前已有的實踐案例足以證明人工智能技術在我國檔案工作中的應用前景廣闊,也為我們探索實現人工智能審核提供了寶貴的實戰經驗。

實現人工智能審核的整體思路:首先使用通用OCR技術提取檔案全文,然后利用自然語言處理的中文分詞、詞性標注、關鍵詞提取、關鍵詞相似度分析、自動分類等技術,建立一種基于規則和語義驅動的開放審核模型,并且通過深度學習算法不斷對其進行訓練和學習,從而優化開放審核模型,協助檔案鑒定人員開展檔案開放審核工作,提出開放審核建議。其中涉及的一些關鍵技術和準備工作如下:

(一)文檔預處理

涉密文件篩查。按照有關規定,涉密文件不開放,首先要對預開放文檔進行涉密篩查,運用神經網絡、自然語言處理、深度學習等AI技術,智能識別文本中的密級標識,將檢出的涉密文件從開放審核隊列中剔除。

OCR識別。OCR是一種能夠將紙質文檔、圖片等中文、符號、數字等信息轉換為計算機可以識別處理的電子文本的技術,掃描的數字化副本經OCR識別后生成文本信息,為檔案開放審核做好數據準備。識別檔案文本時面臨著手寫體識別的難題,特別是大批20世紀五六十年代的手寫體檔案、歷史檔案,掃描圖像識別率很低。但是,隨著AI技術的發展,這一問題也并非不能解決,可以通過優化OCR的算法和使用更高精度的OCR引擎來提高識別率,并對極少量無法識別的數據采取手工標注的方式來進行補充。目前,中國第一歷史檔案館開發的滿文圖像識別軟件、科大訊飛OCR識別技術、中科院自動化研究所的手寫字掃描識別技術,能夠較準確地識別手寫字體。

文檔分類。從自然語言處理領域來看,檔案開放審核大致屬于“文本分類”問題,通過對文本與圖像內容進行智能分庫、敏感詞標注,輔助開放審核系統快速判斷文檔類型并與審核規則匹配,進一步提升開放審核效率。

(二)構建規則庫

規則庫基于本館館藏的敏感詞庫,如“會議記錄”“統計報表”“簡歷表”等;基于相關法律法規、專家經驗而積累的規則知識,如涉及個人隱私、科技科研、外事、非正式文件等不開放的情況,為下一步根據規則庫確定技術實現方法、配置規則與實施審核奠定了規則基礎。

福建省檔案館在審核中收集整理了近600個敏感詞,并聯動省公安廳網安部門吸收了部分當前網絡敏感、關鍵字詞,設計制定了開放審核檔案關鍵詞表,建立了檔案開放審核動態管理敏感詞庫;安徽省檔案館在實踐中構建了包括2000多個敏感詞的檔案劃控敏感詞庫、5000多條知識點的檔案劃控知識庫和2000多條規則的檔案劃控規則庫。

(三)優化開放審核模型

“人工”與“智能”到底是什么關系?關于這點最經典的回答是“無人工不智能”,這是因為在很多人工智能項目實施過程中往往需要花費大量的時間和精力完成對用于訓練AI數據的處理。智能檔案開放審核系統的成熟度取決于開放審核模型的成熟度,在開放審核過程中需根據人工審核反饋結果不斷優化模型,特別是針對誤差樣本進行強化訓練和迭代,不斷提高開放審核準確率。

總之,引入人工智能技術必然能極大地提升檔案開放審核工作效率,但在當前環境下仍然存在一些問題,如人工智能技術尚不成熟、沒有可套用的通用算法模型、開放審核模型開發難度大、投入成本高等,我們還需繼續強化智能審核技術的學習、調研,探索以合理適當的方式引入人工智能技術,推動館藏檔案的科學有序開放。

展望未來,隨著人工智能技術在文本乃至圖像、音視頻處理等方面的發展,將在智能庫房管理、資源建設、服務利用等方面,與檔案工作有更多相互結合的應用場景。這些都需要繼續深入探索研究,以新技術賦能檔案工作,充分發揮檔案數據資源要素的優勢,持續推動檔案工作服務中心大局和社會民生。

作者單位:河北省檔案館(河北省地方志編纂委員會辦公室)

主站蜘蛛池模板: 五月天在线网站| 亚洲专区一区二区在线观看| 亚洲国产成人精品青青草原| 伊人久综合| 国内精自视频品线一二区| 九九这里只有精品视频| 欧美综合一区二区三区| 少妇精品在线| 国产精品福利尤物youwu| 欧洲高清无码在线| 制服丝袜一区| 亚洲欧洲国产成人综合不卡| 456亚洲人成高清在线| 国产成人艳妇AA视频在线| 在线永久免费观看的毛片| 亚洲视频色图| 播五月综合| 农村乱人伦一区二区| 国产91无毒不卡在线观看| 小蝌蚪亚洲精品国产| 国产欧美视频综合二区| 久久人体视频| 综合色在线| 亚洲热线99精品视频| 青青热久免费精品视频6| 国产尤物在线播放| 五月婷婷激情四射| 五月激情婷婷综合| 国产中文一区a级毛片视频| 婷婷亚洲最大| 亚洲综合亚洲国产尤物| 亚洲区欧美区| 最新亚洲av女人的天堂| 无码粉嫩虎白一线天在线观看| 永久毛片在线播| 国产一区二区三区精品久久呦| 成人综合在线观看| 亚洲欧美色中文字幕| 国产精品99在线观看| 在线精品视频成人网| 亚洲香蕉伊综合在人在线| 国产一级一级毛片永久| 99精品影院| 国产剧情无码视频在线观看| 日韩毛片免费| 狠狠躁天天躁夜夜躁婷婷| 亚洲黄色网站视频| 亚洲国产天堂久久综合| 亚洲国产天堂久久综合226114| 1024国产在线| 国产视频欧美| 一级爆乳无码av| 国产在线91在线电影| 国模在线视频一区二区三区| 54pao国产成人免费视频| 天堂网亚洲综合在线| 日本人真淫视频一区二区三区| 福利小视频在线播放| 国产一级视频久久| 久久中文字幕av不卡一区二区| 亚洲综合久久成人AV| 亚洲系列无码专区偷窥无码| 亚洲精品视频网| 成人无码区免费视频网站蜜臀| 欧美成人在线免费| 国产日韩精品欧美一区喷| 国产电话自拍伊人| 九九线精品视频在线观看| 草草线在成年免费视频2| 久久99热这里只有精品免费看| 国产日本欧美亚洲精品视| 无码AV动漫| 亚洲无码精彩视频在线观看 | 91精品国产自产在线老师啪l| 久久综合伊人77777| 国产女人在线视频| 波多野结衣视频一区二区| 亚洲午夜福利精品无码| 国产激情无码一区二区免费| 日韩中文欧美| 中文无码毛片又爽又刺激| 日韩免费中文字幕|