999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據化和文本檢索技術的檔案資源智能聚類研究

2023-09-24 01:06:42葉亞芬上海泰宇信息技術股份有限公司原德巍溫州市檔案館
浙江檔案 2023年8期
關鍵詞:信息

葉亞芬/上海泰宇信息技術股份有限公司 原德巍/溫州市檔案館

如何將海量檔案數據資源進行有效的開發利用,是檔案工作實現整體智治和轉型發展的重要舉措之一。為進一步縱深推進檔案工作數字化改革,充分發揮檔案存史資政育人的功能,溫州市檔案館開拓“深度融合、多維立體、創新賦能”的思路,錨定“激活館藏檔案”的目標導向,以服務大局、服務社會、服務于民為根本途徑,開展基于數據化和文本檢索技術的檔案資源智能聚類研究,主要以檔案資源數據化和標簽化為基礎,以需求為導向,提供個性化、精準化的數據檢索、數據聚類、數據挖掘、成果輸出等服務,最大程度上激活館藏檔案,面向不同用戶提供利用服務,建設智慧檔案管理平臺,積極打造全域智慧檔案管理生態圈。

1 主要研究內容

項目研究以“數字賦能、改革破題、創新驅動”為總基調,以館藏檔案信息資源建設為基礎,充分“盤活”館藏檔案,實現國家綜合檔案館主動面向各類用戶,響應各類跨行業、目標模糊的系統性復雜檔案利用需求,快速精準提供針對性強、內容豐富充實、利用價值高的檔案信息資源,服務數字化改革和各項中心工作。具體研究內容有:以館藏檔案數據化為基礎,構建檔案數據標簽信息體系;以激活館藏檔案為根本,建立多維檔案數據聚類模型;以建立數據集合為引擎,開發館藏系統檔案智能聚類功能;以提供精準檔案服務為目標,建立檔案數據開發利用協作工作機制。

2 主要研究成果

本項目研究基于數據化和文本檢索技術的檔案資源智能聚類研究,以檔案資源數據化和標簽化為基礎,在溫州市檔案館現有數字檔案館系統功能基礎上,引入OCR、文本挖掘、文本檢索等技術,針對各類跨行業、目標模糊的系統性復雜檔案利用需求,突破傳統“線性檢索”方式,對館藏檔案資源進行“條目信息”和“標簽信息”多維度檢索,實現“網狀檢索結構”,深入挖掘檔案信息,智能聚類檢索結果,參考“全宗+主題”模式對檢索結果進行整理,編輯摘要說明,最大化回應利用需求,并通過積累利用實例,逐步建立健全檔案多維數據集合,在檔案服務新戰略新跨越上求突破,發揮檔案價值,為經濟社會發展提供優質高效的檔案服務。

2.1 完成館藏檔案結構化處理,形成檔案數據標簽信息

2.1.1 奠定檔案數據基礎。基于溫州市檔案館館藏檔案資源,將檔案數字化全文轉換成通用的利用格式,并通過OCR技術進行全文識別提取,分析檔案數據內容,進行檔案數據結構化處理,為檔案多維度智能檢索奠定基礎。

2.1.2 構建三大標簽體系。即構建“靜態標簽”“動態標簽”“關系型標簽”三大標簽數據分析處理應用體系。其中“靜態標簽”設立1.2億個,每個靜態標簽都可根據檔案數據自身的一些特色來定義,如題名、責任制和來源等條目信息。靜態標簽主要用于滿足常規數據分析的需求;“動態標簽”主要是關聯數據信息,是檔案形成之后隨著時間波動、傳播影響等因素產生的多種數據標簽,如涉及的人物、時間、事件主題等;“關系型標簽”則通過技術手段深入挖掘數據內在關系,促進檔案數據與利用需求深度融合,滿足利用者多元化的需求。

2.1.3 形成自動分類模型。結合三大標簽體系屬性,運用分詞庫和規則庫,綜合使用統計學、大數據算法形成自動分類模型。第一步利用自動分類技術對檔案數據做預處理,將數據傳送至ETL節點,第二步經過多輪ETL處理服務體系完成檔案特征抽取,第三步智能提取摘要,組建檔案標簽信息。

2.2 開發館藏系統檔案智能聚類功能

對館藏檔案資源“條目信息”“標簽信息”和全文進行多維度檢索,深入挖掘檔案信息,形成智能聚類檢索結果,同時參考全宗模式對檢索結果進行分類整理,建立多維檔案數據集合。

館藏系統檔案智能聚類主要功能如下:

2.2.1 數據處理與標簽

通過ETL數據清洗功能,實現檔案數據純凈化的同時進行結構化處理。與此同時經過結構化的數據,擁有“靜態標簽”“動態標簽”“關系標簽”等多類標簽,系統可通過數據標簽快速進行同維度數據組合篩選。

2.2.2 詞庫建設與完善

一是詞庫的建設。通過知識圖譜技術,對現有館藏檔案內容按“主題+維度”模式進行數據分析,經過人工梳理、篩選,在基礎詞庫內進行“增、刪、改”操作,進一步優化館藏基礎檢索詞庫。

二是詞庫的完善。通過人工智能技術,快速繪制全網知識圖譜,將與新詞中相關的詞匯進行智能推薦,形成新詞庫。同時對生成的新詞庫加持到現有館藏詞庫中,進一步鞏固詞庫建設。

2.2.3 智能檢索與聚類

通過分布式檢索引擎及詞關系引擎、實體關系引擎,支持基于高效索引的多維度智能檢索,如通過“人物”“事件”“專題”“地點”等規則,支持用戶對數據聚類規則進行相應配置,檢索結果可按相關度、時間等分類排序。在此基礎上,系統根據檢索規則將關聯性極高的檔案數據進行自動類聚,同時自動保存、輸出數據集合。

2.2.4 成果審核與補充

對最終形成的檔案數據集合進行人工審核,支持對檔案數據集合的補充、刪除等操作,從而確保成果聚類數據的有效性、全面性、完整性。

2.2.5成果輸出與利用

通過“主題+維度”檢索模式,結合利用需求,輸出多維數據集合,并以知識圖譜展示所相關聯數據。檔案數據集合利用實現檔案數據集合的分類查看、在線閱覽、打印、下載、整體打包導出功能。

2.3產出多維、有序的檔案數據集合

本項目覆蓋溫州市檔案館館藏檔案信息資源375余萬件,通過3輪人工審核、分析、清洗,形成詞庫“黑白名單”,進一步精簡維度及檢索詞。“數字化改革”“碳達峰碳中和”“共同富裕”“公民全生命周期”4個專題,經過3次聚類模型優化,維度精簡優化過程分別為:52個、35個、26個,檢索詞精簡優化過程分別為1126個、472個、169個。經過滾動式優化后,聚類數據集合從第一輪的100多萬件,到第二輪為5.4萬件,第三輪為1000余件檔案數據。同時形成涵蓋專題、維度、檢索詞、檔號、題名、全宗號、年度、責任者、文件編號、開放審核標志、密級及摘要等條目信息及全文信息的多維、有序的檔案數據集合。

在本項目研究的基礎上,溫州市檔案館“先行先試”,以建立健全檔案信息聚類為引擎,擴面建設全域檔案信息聚類成果庫,實現檔案館主動面向各類用戶,響應各類跨行業、目標模糊的系統性復雜檔案利用需求,快速精準提供針對性強、內容豐富、利用價值高的檔案信息資源,從而更高效地服務數字化改革和各項中心工作。

檔案資源智能聚類整體架構

3 研究創新點

3.1 建立檔案數據開發利用協作工作機制

3.1.1 融合全市檔案系統“115”人才、檔案信息化專家、檔案業務骨干等“工匠”型人才,同時積極吸納其他相關系統的專家,組建溫州市檔案信息資源開發利用專家組。專家組成員主要參與課題研究、項目評審、開發利用等工作,并在學術引領、智囊參謀等方面發揮積極作用,為全市檔案事業轉型升級和高質量發展提供智力支持。

3.1.2 以點擴面提升服務效能。以溫州市檔案館為中心,輻射市域各級檔案館(室),以“一盤棋”“一條鏈”“一張網”布局,建立檔案數據開發利用協作工作機制,充分開發利用檔案信息資源。同時結合多類型聚類成果,持續建立并完善專屬“數據集市”,通過檔案一體化信息平臺、檔案編研成果等多種平臺(渠道),為黨委政府和社會各界提供檔案信息資源“大餐”,大幅度提升數字檔案館主動服務能力,提升黨政機關、社會公眾對數字檔案的滿意度。

3.2 構建“1+N+X”檔案數據聚類模型

3.2.1 以黨委政府和社會各界對檔案數據利用提出的需求為導向,以“數字化改革”“碳達峰碳中和”“共同富裕”“公民全生命周期”4個專題為例,構建“1+N+X”數據聚類模型(即1個主題,N個維度,X個檢索詞)。通過檔案數據開發利用協作工作機制,遞進式開展聚類維度、檢索關鍵詞的梳理和確立等相關工作,其中“公民全生命周期”專題聚類模型從“1+52+386”精簡到“1+11+79”,實現從粗放型向精細型轉變,為其他專題數據聚類模型奠定扎實基礎。

3.2.2 基于“1+N+X”數據聚類模型,研究并編制檔案數據聚類工作方案,多層次確立數據聚類主題,完善相應聚類維度及檢索詞。其中數據聚類主題的建立,主要有兩個方面:主動建,即結合館藏檔案內容按政治、經濟、文化、教育、民生等維度建立基礎類、專題類、記憶類等主題,深度挖掘檔案信息資源,讓館藏檔案“活”起來。按需建,即區分不同利用對象,采用“按需選題”的檔案數據聚類模型,關注利用者的個性化需求,逐步實現檔案數據聚類“圍繞中心”與“適應個性”兼容并重。

3.2.3 結合聚類維度詞庫形成的分類模型,對館藏檔案數據進行自動標注,即為檔案建立數據標簽,激活檔案屬性,實現“物以類聚”,從而進一步提升檔案數據利用和分析效果。與此同時,數據標簽的添加,為下一步利用NLP自然語言技術學習樣本數據,建立新的文本分類模型,實現對增量的檔案數據進行自動推理和分析,形成檔案數據自動歸集到相應主題、相應維度的應用場景。

3.2.4 完成聚類工作流程,實現滾動式聚類效應,提升數據聚類精度。主要分三步走:第一步,基于初步聚類產出成果,組織專業技術人員進行審核、分析研判,去蕪存菁,優化聚類維度和檢索詞,形成新詞庫。同時根據新詞進行第二次聚類。第二步,為確保聚類成果與實際需求的一致性,結合第二次聚類成果數據,提交需求方或相關單位審核、確認,并結合確認結果及反饋意見建議進行第三次優化,并通過關鍵詞定位等技術,采用“人工+智能輔助”方式編輯摘要性說明。第三步,結合第三次聚類成果做好輸出、提交利用等工作,及時跟蹤利用反饋情況,建立聚類成果全生命周期服務模式。

4 研究意義和應用價值

大數據時代,檔案館的核心競爭力在很大程度上會取決于將檔案信息資源轉化為信息和知識的速度與能力。具有“五位一體”功能的國家綜合檔案館作為海量資源的存儲信息中心和信息服務中心,必須主動創新,推動檔案工作向“知識化、信息化、技術化、市場化”變革,利用大數據技術實現戰略發展以滿足未來需求。

溫州市檔案館建設館藏檔案綜合管理系統的同時,開發檔案數據智能聚類功能模塊,為項目研究提供了必要的理論基礎、研究基礎。本項目建設集合數據挖掘技術,“盤活”館藏檔案,逐步形成“三類”數據聚合。一是基礎類。即構建政策庫、名人庫、組織沿革庫等通用型數據集合。二是專題類。即圍繞中心工作、重點工作、專項工作,開展專題類數據聚合。如“數字化改革”“碳達峰碳中和”“共同富裕”“公民全生命周期”等類型主題;三是記憶類。如家庭經濟、民俗文化、傳統戲劇等類型主題,即深挖家庭工業、專業市場、小城鎮、供銷員等專用型數據集合,構建特色庫。可實現以更開放的結構,推動檔案資源的深挖和利用,科學區分層次、準確實施定位,使項目成果更具普適性,為下一步的推廣應用打下扎實基礎。

近年來,溫州市檔案館秉持主動服務、靠前服務、精準服務精神,積極探索檔案資源智能聚類研究,激活館藏檔案信息資源,深化迭代數字檔案資源匯聚共享,把“被動服務”轉變成“主動服務”,推進檔案工作整體智治和轉型發展,在“溫州模式”的引領下,踐行小檔案實現大服務。本項目形成的館藏檔案數據聚類工作模式、智能聚類功能以及數據標簽體系等研究成果,不僅適用于各級檔案館激活館藏檔案信息資源,提升檔案精準服務能力;同樣也為各級黨政機關、企事業單位激活數據潛能,打造“數據倉”“數據集市”提供了思路和模板,具有較強的可復制性、可推廣性和可借鑒性。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美精品v日韩精品v国产精品| 欧美精品亚洲精品日韩专区| 国产一区二区三区在线观看视频 | 狠狠干综合| 欧美日韩国产综合视频在线观看 | 中文字幕一区二区视频| 亚洲天堂在线免费| 四虎成人在线视频| 91口爆吞精国产对白第三集| 黄色网站不卡无码| 亚州AV秘 一区二区三区| 国产成人精品无码一区二| 国产一级毛片高清完整视频版| 欧美在线导航| 日本爱爱精品一区二区| 深夜福利视频一区二区| 成人免费午间影院在线观看| 国产打屁股免费区网站| 亚洲精品国产日韩无码AV永久免费网 | 亚洲综合色吧| 青青极品在线| 国产亚洲欧美在线专区| 亚洲午夜国产片在线观看| 亚洲网综合| 超清人妻系列无码专区| 国产97视频在线| 国产成人在线小视频| 色婷婷国产精品视频| 亚洲国产日韩一区| 国产亚洲高清在线精品99| 亚洲国产成人综合精品2020| 亚洲国产成人超福利久久精品| 都市激情亚洲综合久久| 欧美成人手机在线观看网址| 白浆视频在线观看| 亚洲AV人人澡人人双人| 免费女人18毛片a级毛片视频| 国产香蕉在线| 最新国产你懂的在线网址| 一级爱做片免费观看久久| 欧美区国产区| 色男人的天堂久久综合| 高潮爽到爆的喷水女主播视频| 国产极品粉嫩小泬免费看| 精品国产一区91在线| 欧美日韩国产成人高清视频| 久久国产香蕉| 欧美成人综合视频| 18禁黄无遮挡免费动漫网站| www亚洲天堂| 亚洲无码电影| 国产成人高清精品免费5388| 制服丝袜在线视频香蕉| 美女被操黄色视频网站| 亚洲综合中文字幕国产精品欧美| 美女一级免费毛片| 欧美不卡视频在线观看| 又污又黄又无遮挡网站| 日韩精品无码免费一区二区三区 | 国产精品久久久精品三级| www.91在线播放| 国产微拍精品| 亚洲欧美日韩动漫| 欧美日韩高清| 色男人的天堂久久综合| 99在线小视频| 久久免费看片| 538国产视频| 五月天天天色| 中文无码日韩精品| 国产精品99久久久久久董美香| 老汉色老汉首页a亚洲| 五月天福利视频| www精品久久| 免费国产高清视频| 黄色国产在线| 亚洲免费播放| 久久精品欧美一区二区| 中文字幕日韩视频欧美一区| 美女高潮全身流白浆福利区| 精品欧美视频| 亚洲国产精品久久久久秋霞影院|