吳蔚
福建醫科大學附屬第一醫院黨委宣傳部,福建福州 350000
醫院電子檔案是寶貴資源,我國在該類資源建設方面仍存在諸多不足:①重保存,輕服務;②檔案資源分散,信息孤島;③數據格式不統一;④缺乏與用戶粘合度的個性服務[1-5]。
對于醫院電子檔案用戶畫像,在國內外的相關研究有:趙建建[6]分析了檔案用戶畫像行為特征,給出運用群體用戶畫像指導資源融合和共享的實現方法,提升了檔案資源的整合效果,但是該方法存在設計簡單、智能化程度低等不足。周林興等[7]從用戶畫像角度,剖析智能化檔案信息服務價值、運行邏輯等,為實現高質量、智能化檔案服務建設提供思路,但是其未給出具體的技術路線。張亞兵[8]闡述了用戶畫像的數據獲取方法以及畫像模型的框架構建,這對于畫像模型的構建具有指導意義,但是其未給出具體的技術實現路線。此外,基于用戶畫像的個人隱私安全研究、基于知識圖譜的知識挖掘等成果相繼出現。在國外,醫院電子檔案信息化建設水平較高,近幾年來,先后出現了檔案服務機器人、智能服務推薦等一批先進的研究成果。
該文從研究方案角度,對用戶畫像及其應用進行詳細闡述,旨在為新一代信息背景下的我國電子檔案信息化建設提供參考。
用戶畫像的概念最早是由Alan Copper[9]提出,其實質是綜合用戶特征、行為和偏好,對真實用戶或用戶群體的虛擬刻畫。近些年,用戶畫像受到了人們的極大關注,目前關于用戶畫像的概念界定、構成要素和構建技術基本成熟,它被廣泛應用于電子商務、廣告推薦、銀行客戶管理、學校師生管理等活動。我國檔案智能信息管理中的難題是如何準確地捕獲用戶的需求,而對檔案用戶實施精準的畫像能夠為解決這一難題提供有效的技術手段。圖1 是醫生用戶群體的畫像的可視化展示實例,畫像中特征關鍵字的大小體現了用戶關注的重要程度,即字體越大越能體現該用戶群表現出的特征或行為。

圖1 醫生用戶群體的畫像可視化示例
檔案用戶畫像目標是為了描述人、理解人,這是畫像最大的目標,在為目標對象畫像時,常用的描述方式可以分為兩種:①非形式化的手段,例如醫院管理活動中形成的大數據中的語音、文本,都是非形式化的;②形式化的手段,例如醫院患者就醫卡、患者的病案、醫務人員的信息等,當面對這些海量復雜的信息時,需要對它們進行一系列的信息抽取、數據標準化和規則化、邏輯關系表達和抽象、知識挖掘等處理及科學計算,建立一套標準的知識體系。與此同時,需要一套數據化、符號化、形式化的方式來描述知識體系。因此,在進行用戶畫像研究時,需要使用到大數據的統一表示及數據標準處理技術、信息抽取與多分類技術、數據挖掘機器學習技術以及評估預測模型建立技術等[10]。在使用和發展這些技術時,目前已有圖模型表示與建模方法、基于注意力的數據分類方法、支持向量機、深度學習算法等都為畫像的研究提供了良好的條件,也有著豐富的理論依據。深度融合大數據與機器學習算法,形成新型人工智能應用,從而在對海量教育數據分析的基礎上,快速地實現數據間的知識挖掘和預測。針對教育原始大數據,對奇異值分解、主成分分析經典方法進行集成和創新研究,以此提高算法對剪裁教育海量數據的無效特征、降低數據維度的計算能力;選擇適用于多模態檔案大數據的分類和方法,適時運用深度學習算法,以迭代演化的形式,最終形成完整的大數據智能處理體系。以此不斷地提高多模態數據統一表示模型的質量,進而提升面向檔案大數據的分析與知識挖掘能力。項目技術原理的直觀描述見圖2。

圖2 用戶畫像技術原理
針對醫院電子檔案用戶畫像技術及其應用研究,重點需要解決面向大數據的異構多源大數據統一表示及數據標準化處理技術、檔案用戶畫像信息抽取與多分類關鍵技術以及用戶的綜合評估預測模型構建技術的問題,其中采用圖模型表示多元關系及建立適用于檔案用戶畫像的知識圖譜將是檔案信息智能化建設任務中非常有特色的一項工作[11]。
為構建基于醫院電子檔案用戶的畫像模型及其應用系統,需要著重開展的研究內容為:①多源異構多模態數據的統一表示及數據標準化技術研究;②基于醫院大數據的用戶畫像信息抽取與多分類算法研究;③數據可視化技術研究;④用戶綜合評估預測技術研究[12]。
按照數據標準規范建立、數據采集、科學建模過程、用戶像及應用的研究思路,下面對4 個研究階段所采取的總體技術路線作簡要介紹。
①構建檔案大數據應用標準。根據我國大數據特點,依據大數據應用要求,建立完整的數據存儲、交互、傳輸等一系列數據處理的規范體系。
②數據采集處理。構建多種類型數據的采集接口,然后利用SFFT、插值補償法等技術,對原始數據做清洗、過濾、校正、補全等數據質量檢測和優化操作。接著嚴格按照檔案大數據的規范標準,對數據進一步的格式規范、脫敏處理、安全保護處理。最后形成多種主題的數據集,為上層的模型構建與應用提供服務。
③科學建模過程。通過系統化數據采集,采用科學方法建立數據模型,包括語義分析、詞匯判斷、實體抽取、關聯挖掘、實體連接等操作,最終建立用戶畫像知識圖譜和多主題數據模型。
④用戶畫像模型與應用。在第2 步基礎上,進一步對提取低層次數據特征,選擇高層次特征,進而構建多維結構模型,據此研構用戶畫像。同時,根據病例分析、醫生技能評估、個性化服務推薦等功能需求,構建多個主題應用模型,并把模型遷移至實際應用中。具體的研究總體策略見圖3。

圖3 用戶畫像技術及精準服務應用研究策略
(1)用戶畫像分類體系的細分。給誰畫像,畫什么像,為什么畫這個像,畫像的分類和預期結果是怎么樣的,這些問題都不是系統完全自動產生的。當然,在大數據足夠多的程度下,可形成客戶的關鍵信息畫像,但是現在應用更為廣泛的是人工+系統結合的用戶畫像,即人工設計畫像的方向和體系。這樣的優勢是體系化和結構化,應用性更強,比如要進行檔案內容敏感畫像、借閱時間敏感畫像等。即應當對分類體系進一步細分,獲取用戶敏感的主要對象,基于這些分析后,可以把細分后的敏感類別單獨分析,這在一定程度上能夠幫助建立完整的檔案敏感體系[13]。
(2)畫像特征的重要性區分。當確立了畫像的方向,即確定了需要的數據信息和力度。客戶畫像的數據要做到真實、可關聯應用、存在一定的周期可供偏好類模型構建。在眾多屬性中,各個屬性的重要性必然有差別,應充分使用數據挖掘方法,發掘電子檔案中的屬性。從用戶的角度出發,有多個角度需要綜合考慮[14]。
(3)特征處理與特征選擇。在特征處理階段,需要篩選部分主要特征數據,對于單表數據,重點工作是數據缺失處理、冗余剔除、特征數據編號等;對于多表數據,主要工作是求和合并計數特征、最大值合并定性特征、生成新的特征屬性、多表連接等[15]。當數據預處理完成后,需要選擇有意義的特征輸入機器學習的算法和模型進行訓練。根據特征選擇的形式又可以將特征選擇方法主要分為Filter 和Wrapper 兩種,但該文重點推薦使用以分類錯誤率為評價函數的前向浮動選擇SFFS 算法來進行特征選擇。在此基礎上,可選用SFFS 選出來的avg_score 得分最高的特征集,此特征集可被作為檔案用戶畫像的最終特征源[16]。
(4)用戶標簽及其關系挖掘。檔案用戶標簽是指用戶對于檔案的注意力,例如病檔診斷報告敏感用戶是指醫生用戶對于診斷結果關注度較高的人群,因此,對于該類用戶敏感度研究,是通過分析用戶多種多樣的查詢行為,如查詢次數、醫生用戶職稱情況等,反映該類用戶對病案診斷結果的敏感程度的差別,并使用數據挖掘技術的量化手段,構建預測模型,對診斷結果敏感特性進行刻畫[17]。在具體研究過程中,對此可以通過構建模型來分析,可從如下3 個方面進行考慮:①選擇適當的模型。在得到好的屬性后,針對數據的特征,如離散值眾多等特點,選用適當的模型進行預測;在比較各個模型的優劣后,選擇較為合適的模型進行細致的調參,這是有效辨別敏感用戶的另一種方式[18]。②多個維度分析建模。可以從多個角度入手來分析,并建立模型,例如抽取用戶檔案使用時間進行研究,構建閱讀時間分析模型,從中分析用戶的行為。③不同模型的集成。不同模型具有不同的偏好,當從多個角度用不同的模型對問題進行預測,由此就可以得到多個具有不同偏好、對結果具有不同偏差的模型,利用這些模型,并讓各模型互相糾正,這可以大幅提升用戶標簽及其關系的挖掘精度,從而有利于提高用戶畫像模型的質量[19]。
該文從當代信息技術視野下,以我國醫院電子檔案管理和用戶需求為出發點,面向未來,重點闡述了醫院電子檔案用戶畫像的重要性和必要性,進而簡要概述了用戶畫像的基本概念和相關的構建技術,接著詳細論述用戶畫像技術及其精準服務的建設路線,并給出各個階段需要完成的技術工作內容,最后重點闡述了檔案畫像技術及應用中的關鍵問題。
綜上所述,在該文提出的用戶像技術及其應用研究策略中,使用的技術新穎,采用信息類項目的工程化建設流程和框架,可操作性強。文中提出的方法可為當代醫院電子檔案智能化信息管理系統的構建提供借鑒。