趙可心
(鐵嶺縣中心醫院,遼寧 鐵嶺 112000)
2002年11月25日國家檔案局頒發的《全國檔案信息化建設實施綱要》提出,“十五”期間,“適應國家信息化建設和檔案事業發展的要求,把檔案信息化納入國家信息化建設的總格局。加快推進檔案資源數字化、信息管理標準化、信息服務網絡化的進程,促進檔案事業持續快速健康發展,為改革開放和現代化建設服務”。2016年,《全國檔案事業發展“十三五”規劃綱要》強調,“積極響應數字中國建設,加快推進信息技術與檔案工作深度融合。采用大數據、智慧管理、智能樓宇管理等技術,提高檔案館業務信息化和檔案信息資源深度開發與服務水平。”2021年頒布的《“十四五”全國檔案事業發展規劃》指出,“十四五”期間,“加強國家檔案數字資源規劃管理,逐步建立以檔案數字資源為主導的檔案資源體系。”“加快推進對重要檔案數字化成果進行文字識別和語音識別。”
通過對以上三個綱要關于檔案資源數字化的解析,不難發現,我國的檔案數字化目標是漸近的、層層深入的。第一階段,將檔案信息化納入發展進程;第二階段,“十三五”期間,推進信息技術與檔案工作深度融合。第三階段,“十四五”期間,加快檔案資源數字轉型。加強國家檔案數字資源規劃管理,逐步建立以檔案數字資源為主導的檔案資源體系。大力推進“增量電子化”,促進各類電子文件應歸盡歸,電子檔案應收盡收,市地級以上國家檔案館全部具備電子檔案接收能力,電子檔案在檔案資源體系中占比明顯提升[1]。繼續做好“存量數字化”,加快推進對重要檔案數字化成果進行文字識別和語音識別。同時,提出了“推進檔案信息資源共享平臺建設。各省(自治區、直轄市)綜合檔案館加強本區域檔案信息資源共享平臺建設,實現本區域各級綜合檔案館互聯互通,推動共享平臺向機關等單位延伸,促進檔案信息資源館際、館室共建互通,推進檔案信息資源跨層級跨部門共享利用。加大跨區域檔案信息資源共享平臺建設力度,擴大“一網查檔、異地出證”惠民服務覆蓋面的發展目標。醫療檔案是我國檔案資源體系的重要組成部分,其數據化程度的高低,直接影響我國醫療技術發展的快慢,直接關系我國人民健康水平提高的快慢。在5G時代的偉大進程中,如何從我國醫療檔案管理的實際出發,建立具有真正意義上的數據化、信息化、語義化結構管理平臺,實現醫療檔案利用的智慧化,則是本文研究的核心所在[2]。
目前,我國的檔案信息化是建立在馮慧玲、張輯哲關于“檔案信息化建設是指,運用信息技術提高檔案工作現代化水平,重新思考檔案管理的新情況、新原則與新理論,確立網絡環境中檔案管理與檔案服務的基本框架與基本方法,實現檔案信息的社會化服務”基礎上的。在當時的歷史條件下,是符合實際具有先進意義的。但是歷經近20年的發展,信息技術實現了歷史性突破,我國的檔案信息化也進入智能化發展階段。但是從目前全國的檔案信息化情況看,均處在數字化發展階段,即采用數據庫、數據壓縮、高速掃描等技術,將紙質文件、聲像文件等形成圖像文件,建立數字檔案圖形數據庫,以實現文件調閱的計算機化。
在技術層面,我國檔案系統主要采用的是數字掃描和全文著錄技術,只是實現了檔案存儲形態由紙質存儲向電子化存儲形態的變革,建立起了基于圖片模式的數字化數據庫,形成了目錄關聯的數字檢索系統,實現了已掃描入庫檔案的電子化利用。這一變革是革命性的,它改變了千百年來以紙質檔案實現對外服務的局面,使得檔案管理和利用步入了信息化的初級軌道。但是,就目前我國的檔案資源體系建設情況與智慧城市、智慧社會、智慧地球建設的目標相距甚遠,與我國《“十四五”數字經濟發展規劃》關于“深化政務數據跨層級、跨地域、跨部門有序共享。建立健全國家公共數據資源體系,統籌公共數據資源開發利用,推動基礎公共數據安全有序開放,構建統一的國家公共數據開放平臺和開發利用端口,提升公共數據開放水平,釋放數據紅利”的遠景目標還有很大差距。由此可見,在大數據時代,5G落地和《“十四五”全國檔案事業發展規劃》全面實施的大背景下,建設智慧社會、智慧城市,實現智慧服務,大力推進的智慧醫療檔案智慧服務將成為歷史的必然[3]。
我國的醫療檔案管理仍處在電子化與數字化管理的中間階段,不具備智慧服務的基本條件。在這種形勢下,如何加快醫療檔案的數字化發展進程,實現醫療檔案數字化、數據化、語義化,進而實現醫療檔案的智慧服務。進而達到“我想利用檔案,不用我去找,自動地就能推送過來,這就需要做一件更重要、工作量也更大,意義和價值更大的事情,那就是把檔案數據化”。在如此的大背景下,采用哪些信息技術來實現檔案資源數據化呢?一是采用OCR光學識別技術、二是采用檔案語義組織技術、三是采用挖掘技術[4]。
隨著5G時代的到來,智慧中國建設戰略的實施,智慧城市走向互聯化步伐的加快,智慧醫療、智慧檔案的呼聲日益高漲。由此催生了采用新一代信息技術,依托信息技術賦能智慧城市建設,成為時代發展新趨勢。根據我國數字經濟發展戰略規劃的要求,我國的醫療檔案資源就是要實現從傳統的紙質業態向數字業態,乃至數據態的轉變,進而為智慧社區和智慧服務生活圈建設提供專業化、市場化檔案資源,提高智能化服務能力。在國家檔案局舉辦的區塊鏈技術視頻專題講座上,國家檔案局局長陸國強指出:“我們要進一步提高認識,增強工作的責任感和緊迫感,積極運用好新一代信息技術,加快實現檔案信息化戰略轉型。緊密圍繞貫徹國家信息化發展規劃、大數據戰略、數字中國戰略、新基建部署,加強檔案領域戰略規劃對接,抓住機遇推動新一代信息技術在檔案管理中的應用,在‘十四五’時期實現以信息化為核心的檔案管理現代化必須取得突破。”作為醫療檔案資源體系建設,如何實現戰略轉型,那就是要從醫療檔案的數據化做起,進而實現醫療檔案資源從粗粒度向細粒度的初步轉化,進而建立全新的數據化檔案數據服務模式[5]。
檔案數據化則將“0”“1”等離散的比特(bits)進行再組織,形成結構化、標準化、開放性、可通用的數據對象,并基于數據對象的不同形態與類別開展相應的機器操作活動[4]。也就是說,通過光學符號識別技術(OCR)對已經實現數字化的圖形化著錄檔案進行基于全新著錄模式的可識別的文字轉化,最終達到從圖形化到電子化乃至文本化的轉變,使之成為電腦可以識別的文字本體,其核心是建立可以列標計算的數據,但仍做不到機器可理解。目前,我國個別的省級醫院的部分醫療存量檔案開展了光學符號識別,進行了相應的著錄工作,形成了相當數量的可通用的數據對象,建立起了能夠實現某一病種病歷的個體檔案的數字化館內查詢。這種數據模式的建立,只是檔案智能服務數據體系建設的第一步,使檔案數據得以被機器可理解、可操作,使電腦的網絡的自動關聯、利用成為可能[5]。
“檔案語義組織是借鑒語義網中信息資源組織的基本原理,對檔案的內容語義、背景語義、結構語義進行向內組織和向外組織的過程,是推進檔案數據化的核心環節。”在談及語義關聯的實現步驟前,我們有必要簡單介紹一下語義關聯技術的內涵。語義關聯技術是基于Web3.0的主要技術應用,是一種在不同應用、企業、社區之間共享和重用數據的通用框架。檔案語義組織是借鑒語義網中信息資源組織的基本原理,對檔案的內容語義、背景語義、結構語義進行向內組織和向外組織的過程,是推進檔案數據化的核心環節。通過語義標注和元數據語義增強,檔案的內容、背景與結構得以轉化為隱藏語義的結構化數據,通過明確化的概念模型建立起這些數據之間的語義關系,再通過機器可理解的形式化語言來表達這些語義和語義關系,從而構建起一個富含結構、語義和關聯的機器可理解的數據網絡[6]。
基于語義網和語義關聯技術原理,在醫療檔案智慧服務數據體系建設中,其核心是通過概念模型的建立,實現醫療檔案的全面語義關聯。根據醫療檔案的異構化特征,一是建立同一病種個體醫療檔案之間的關聯關系,即以病種名稱為統領,建立統一的同一性關聯關系,也就是說,將具有相同屬性特征的醫療數字檔案資源聚合在一起,形成具有特定癥候屬性的醫療檔案聚合單元;二是建立隸屬性關聯關系。即以醫療檔案的形成者為核心,以病種為主軸,以醫療實施者、治療方案、治療效果、康復情況、病人存活周期等建立起一整套結構化檔案數據關聯;三是以國家病種分類表為核心,建立醫療檔案數據管理系統,將某醫院對某一病種的專業治療能力,尤其是對特種病的治療技術與力量等數據進行關聯。例如,肺移植手術雖然每年全國僅有200多例,因其數量少,難度大,技術要求高,目前全國只有36家具備肺移植手術資質。在為肺移植醫療檔案建立語義關聯時,就要以具有資質的醫院為關聯要素和隸屬關系要素進行關聯,然后再將檔案的其他要素相互關聯,形成一個要素聚合,為社會利用提供全方位的信息源;四是建立相似性關聯。相似性關聯是指,數字醫療檔案之間具有某種內容、性征、癥候、詞匯、語義相近或相同的互為表里的關系。在這一關聯數據結構聚合時,要求以醫療檔案中的詞語表述為核心進行細粒度的數據拆分,在相同詞匯、語句、字段間建立關聯關系。例如,尿毒癥醫療檔案中的酸中毒、特殊性呼吸、患者呼出的氣體有尿味、肺水腫、纖維素性胸膜炎或肺鈣化等病變癥狀進行數據關聯,建立尿毒癥狀聚合數據庫,將治療方法、方案、療效、康復周期進行數據關聯,為醫生的診斷治療提供借鑒[7]。
檔案數據化的目的是將粗粒度數據轉為細粒度數據,形成數據聚合資源,進而實現對檔案數據資源的深度挖掘與開發奠定資源性、無差異化、向全社會開放的基礎數據,就是在云計算的作用下,將數據挖掘管道中各個節點連接起來,形成完整的數據挖掘體系,進而實現挖掘的科學化、運行的有序化。“通過挖掘技術,能夠挖掘出檔案的潛在價值和潛在用戶,挖掘出用戶的潛在需求,從而大大提高檔案的價值。”數據挖掘技術是指借助一定的手段對已知數據加以分析、整合,從而獲取到其內在的信息的一種技術。數據挖掘技術的實質是一種檢索技術,通過大數據算法、語義組織、語義關聯實現對檔案數據的查全率和查準率。在對醫療檔案的挖掘技術中,主要是將Web挖掘技術和Web3.0語義網技術有機結合,通過語義關聯對醫療檔案展開內容挖掘、結構分詞挖掘、記錄挖掘、文本挖掘、分詞挖掘和特征挖掘,進而將數據化醫療檔案變成可被電腦全文檢索、任意組合、全部關聯、重新生成的數據,并對數據進行關聯分析、聚類分析,闡明疾病發生規律,使大數據算法成為提煉知識、總結規律,成為賦予人類智慧醫療服務的利器[8]。
隨著大數據時代的到來,醫療檔案智慧服務與智慧中國建設同步展開,但是囿于信息技術應用途徑的制約,醫療檔案智慧服務的技術發展路徑成為制約其發展瓶頸。本文從醫療檔案智慧服務入手,闡述了引入光學符號識別技術、語義關聯技術、挖掘技術最終實現醫療檔案數據化的發展路徑,意在通過醫療檔案的全面數據化,實現醫療檔案從粗粒度管理向細粒度管理的過渡,為實現醫療檔案數字化服務、智慧服務提供借鑒[9-12]。