賴 昕 范美玉
(廣州中醫藥大學第二附屬醫院 廣州 510120)
近年來國家、地方一直大力支持中醫藥學科建設和中醫藥信息化建設,發布《國家中醫藥管理局關于加強中醫藥重點學科建設的指導意見》《國務院關于印發中醫藥發展戰略規劃綱要(2016-2030年)的通知》等文件。廣州中醫藥大學第二附屬醫院是全國中醫系統擁有重點專科/學科最多的醫院之一[1],也是廣東省高水平醫院建設“登峰計劃”的首批重點醫院,研究型醫院的定位明確,學科建設的信息資源管理與利用需求日益增多。在數據科學時代,信息呈現爆炸式增長態勢,碎片化信息越來越多,對傳統的信息收集、處理、利用方法提出挑戰[2]。目前大數據技術應用存在數據價值密度低、數據欺騙性、機器學習陷阱等難點[3-4]。近年來小數據思維[5]逐漸引起國內圖書情報領域廣泛關注,出現科研用戶小數據[6]、讀者小數據[7]、智庫用戶小數據[8]等方面研究,反映出科學數據的多面性。小數據與大數據既有相通也有差異,如前者以個體為對象,重點在于深度[9],后者則側重于某領域大范圍、大規模的數據,重點在于廣度。根據研究對象的差異有針對性地采用兩種理論都可以獲取數據規律和價值。因此針對學科用戶特點,本文擬從小數據視角討論醫院優勢學科信息資源建設,闡述小數據概念、分類、獲取與集成管理以及基于小數據的學科信息資源建設策略。
小數據(Small Data)一詞最早由Deborah Estrin于2014年提出[5]。Deborah Estrin及團隊認為用戶小數據是其日常行為活動的全部表征,通過對個體數據的全方位收集、監測、跟蹤,能得到用戶在不同時間段的個人健康狀況信息,從而為個性化決策提供依據[10],在精準醫學、預測建模和多靶點整合醫學干預等方面[11]展現出潛在應用優勢。
國內小數據研究不多,主要集中在圖書情報領域:小數據用于圖書館個性化、精準信息服務[12-13];小數據用于檔案用戶挖掘、檔案資源利用[14-15];科研小數據融合研究[16]等。針對小數據內涵,李立睿和鄧仲華[6]提出科研用戶小數據是個體研究工作者在項目推進過程中全部行為和狀態的數字記錄集合,主要涵蓋個體基本信息、行為記錄、習慣偏好、情緒變化、性格特點、研究問題等;刁羽[8]認為智庫用戶小數據是基于用戶某個歷史時間段利用個性化智庫型信息服務過程中產生的思維活動、需求表達及利用行為等數據的集合;曹霞[17]提出小數據是一種基于個人或單個團隊的新興數據,是有選擇性、可靠、可控、增值的數字化信息,包括與分析對象有關的基本特征數據、行為模式數據、情景感知數據、社會關系數據等。
泛在信息環境下,信息的來源、載體、可獲取的渠道呈現多元化趨勢。隨著云計算、大數據、物聯網等技術在各領域的應用,信息行為向現代化、多樣化、數據化、智慧化方向發展。多維、全面、動態的小數據思維正與當前信息環境相適應。通過跟蹤、記錄、研究各角度、各時間段、各類型學科人員小數據,構建具有個性化特征的數據資源庫和信息管理系統,可以解析、預測個體行為特征、關系網絡、決策需求等并根據動態變化進行實時調整。
學科小數據來源于學科本身和學科人員。數據量小、易采集,降低計算機設備與技術要求、減少投入成本,彌補了大數據投入成本高的缺點。同時學科小數據能夠有效彌補大數據個性化、針對性弱的短板,使得決策更加精準。此外一般不同屬性的小數據采集、處理和利用是在相對封閉環境中進行,能夠避免大數據無限度地采集和監測個人信息,有效實現學科用戶個體數據隱私保護。
4.1.1 學科人員線上線下信息行為小數據 借閱館藏紙質書與期刊、訪問館藏電子數據庫資源、館際互借和文獻傳遞、參加院內講座和論壇等行為是學科人員個性化小數據的主要來源。獲取這些數據的方法如下:通過圖書館信息管理系統導出數據;通過文獻傳遞服務群,借助文本數據分析工具對聊天記錄文件進行活躍人群、活躍時間段、用戶科室分布、文獻主題領域、文獻傳遞完成情況等方面的分析;借助網絡爬蟲獲取學科人員訪問圖書館官方網站的痕跡數據,借助開源Web日志分析工具進行流量分析、離站鏈接數量分析、頁面瀏覽次數分析、訪問時間分析等;通過圖書館工作記錄和數據庫公司提供的資源使用情況,統計館際互借和文獻傳遞數據、參加院內講座和論壇的人員數據等。
4.1.2 學科人員基本信息與需求小數據 基本信息數據主要包括年齡、性別、學歷、專業、職稱、職務、研究方向、發表論文、出版專著、參與課題、申請專利、性格特點、學科建設主要分工、工作階段性目標等。這些小數據適合采用封閉式(如職務)與開放式(如工作階段性目標)問題結合的簡單問卷調查收集。在數據獲取時,根據問卷初稿抽取數名學科內各職稱和崗位有代表性的人員進行預調查,如情況良好則進行下一步,如有問題將返回重新完善設計問卷內容。預調查完成后將在學科內進行正式問卷調查。學科人員網絡或媒體信息行為搜尋偏好與習慣、學科建設工作中遇到的問題和心理狀態、希望從學科服務人員處獲得的參考咨詢意見與服務、對學科建設工作中的困惑與意見等則是學科人員業務需求數據,適合通過半結構化訪談獲取。
4.1.3 學科信息溝通與服務中產生的小數據 學科人員與其他工作人員進行信息互通時也會產生交互、情境小數據,如學科政策文件解讀、學科建設階段性任務布置、學科績效指標、學科人員變動與分工調整、院內信息系統設置與平臺使用方法、電子資源使用與投稿咨詢、學科人員對信息系統與信息服務的使用感受與反饋,以及所有對學科人員提供的學科服務數據等。這部分數據可通過院內即時消息平臺、企業微信、郵件等渠道獲取,也可在學科建設工作中實時使用電子工具記錄與保存。
4.1.4 學科人員自身產生的灰色數據 關注學科人員自身產生的未公開數據,包括未發表的論文、紙質手稿、科研推導數據、實驗步驟數據、長尾數據、科研進展記錄、項目階段報表、病例分析、研討筆記、會議記錄、閱讀筆記、研討心得等。廣州中醫藥大學第二附屬醫院已搭建機構知識庫,向用戶設置開放個人存儲空間。用戶具有上傳數據、數據訪問自控等權限。學科人員選擇公開部分不涉及醫院內部私密信息的灰色數據,可以被采集作為學科小數據。
4.2.1 預處理 由于真實環境與活動較復雜、數據獲取方式有限等原因,小數據存在數據噪聲問題。因此必須先對數據進行預處理,減少數據噪聲,提升價值密度和可用性。主要方式有:(1)清洗。針對因填寫不規范、隱私保護等產生的數據缺失、重復等情況,采取刪除重復數據、補充缺失數據、去除異常數據等操作。(2)變換。由于原始數據來源不一、類型多樣、采集方式不同,原始數據無法滿足學科建設分析需求,需要采取變量派生、變量轉換、數據標準化等方法加以轉換。(3)規約。出于對一般數據處理標準、數據價值和現實資源的綜合考量,在保證原有數據完整性與有效性的基礎上,采用維規約、數量規約等方式以有效降低數據規模、精簡數據量。(4)其他處理。其他必需的預處理操作。
4.2.2 利用與安全 數據利用可通過統計、分析、歸類等方法實現:使用Excel或EpiData軟件錄入預處理的數據后導入SPSS軟件進行統計與分析;按照數據類型和主要內容將整理后的統計結果以不同模塊進行萃取、歸類。此外由于采集的小數據中含有用戶身份特征數據,涉及用戶隱私,數據安全尤為重要。因此可以對數據庫登錄進行權限設置,對所存儲數據進行安全保護,避免信息泄露。
信息資源建設理論認為信息資源系統功能的發揮取決于各種信息資源的質量與構成[18]。因此醫院優勢學科建設的信息資源配置必須既關注質量也關注結構。通過小數據可從以下兩方面優化資源配置:一是將學科人員行為與需求數據作為購買紙質文獻的參考。采編館員此前一直是從供應商提供的目錄中直接選購紙質文獻,文獻整體利用率低,造成空間和資金浪費。可通過統計學科人員借閱行為,向學科人員征集薦購內容,整理學科人員平時關注、正在研究的主題及學科發展趨勢獲得小數據,并在此基礎上采購最新、最前沿、最適應讀者需求的文獻,既踐行了精準采購[19]和讀者決策采購[20],又節省了經費。二是網絡時代數字資源不斷普及,大眾閱讀習慣隨之改變,應增加館藏電子資源。根據學科人員對信息資源的需求比例和利用率等數據分析,適當調整電子和紙質文獻的比例,試用、購買部分學科小眾電子資源。當然紙質圖書在系統性、深閱讀、文化傳承等方面有不可比擬的重要性,尤其適應中醫院保存大量古籍的需要。
根據學科人員小數據特征偏好開展個性化信息資源推薦,具體建議如下:一是根據學科人員的不同需求特點選擇推薦內容。網絡信息獲取行為習慣:如為更傾向于使用手機瀏覽的用戶推薦專業APP和公眾號,為偏向于閱讀紙質文獻的用戶推薦紙質新書或期刊。關注領域:如針對關注學科政策的用戶推薦相關網站和評述文獻,對專注臨床研究的人員則推薦臨床試驗登記注冊網站,對更關注學科前沿動態的人員推薦相關新聞動態和頂級期刊編譯等。業務問題:如針對用戶文獻檢索問題,推薦數據庫檢索講座、教學文檔、官方用戶手冊等;針對文章投稿問題可以推薦相關領域的期刊網站、征稿要求、同行投稿論壇和帖子等;針對數據分析問題可以推薦相關軟件工具以及安裝包、使用教程、參考范例等。二是系統地針對某個項目的進程或者個人需求將館藏和網絡資源進行篩選、整合、編輯,進行定期推送和動態更新。三是通過對學科人員個人小數據的挖掘與關聯分析,建立個體興趣預測與發現模型。
深度開發信息資源是為醫院優勢學科建設提供精準知識服務的重要手段,也是小數據高價值密度和決策相關性的最大體現。基于學科人員小數據可以從以下幾方面進行信息資源開發:一是提供嵌入式信息服務,全程跟蹤具體項目或學科人員個人動態變化,對其信息需求進行實時檢索、加工、傳遞。二是設置預測性信息服務,如挖掘學科前沿熱點、繪制學科知識圖譜、對相關學科文獻進行編研、對未來學科政策進行趨勢分析等。三是尋找學科建設可能的競爭對手或對標單位,對其各項情況進行檢索、統計、分析進而形成競爭情報,輔助學科人員決策。四是積極開發院內機構成果庫,完善模塊設施、提高界面友好度、增加應用功能等。在機構庫建立優勢學科門戶模塊,促進學科人員對本單位優勢學科建設成果的了解。五是構建小數據資源庫,部分已經深度開發的信息資源,經過加工整理成為具有可復用性的知識,由信息人員進行匯總、分類、存儲后,學科人員隨時查看和下載使用。
學科用戶小數據是用戶在某個時間段內進行學科建設相關的思維活動、需求表達及行為方式等數據集合,呈現碎片化、個性化、多樣化的特點[8]。在小數據采集、存儲、分析和利用的全生命周期中,如何保證數據的準確性、可獲取性、安全性、適度共享和合規使用是高質量學科建設與服務的關鍵,因此有必要開展學科信息資源治理[21]。這不僅能夠幫助更有效地管理數據,而且能降低用戶差異化服務成本,促進高質量數據的生成。標準化是數據有效管理和共享的前提和重要基礎,貫穿數據全生命周期[22],總體應借鑒國內外科學數據管理標準、建設標準及實踐經驗,尤其是衛生健康信息標準。在采集階段根據應用場景的不同制定相應采集規則,包括采集的深度、廣度、范圍、清洗顆粒度、轉換格式等,為數據挖掘奠定良好的基礎。在存儲階段要降低數據噪聲,如統一數據存儲格式,保證數據質量,增強數據可用性。在分析階段根據研究的差異化需求,確定挖掘的角度、層次、顆粒度等問題。學科小數據是以用戶為核心的個人數據集合,個人隱私保護問題尤為重要[23]。因此在學科小數據的全生命周期管理過程中,不僅要嚴格遵循《中華人民共和國個人信息保護法》《中華人民共和國數據安全法》等數據安全法律法規,而且要重視個人的知情同意。在具體實施中,應推動技術與管理并行,一方面要借助數據安全技術限定人員權限、防泄漏,另一方面提高用戶的小數據知識產權保護意識,建立小數據管理與使用制度并適時更新,營造安全的數據全生命周期管理生態環境等。
隨著國家高校一流學科建設的深入推進和現代醫院高質量發展,越來越多的醫院管理者已經認識到優勢學科建設長遠戰略的作用。學科信息資源貫穿于學科建設和發展的全過程,是學科建設體系不可或缺的基礎配置。基于小數據,通過了解學科人員的個性化行為與需求,圖書館能夠掌握優勢學科信息資源建設方向,從資源配置、推薦、開發等方面開展具體工作。目前關于學科小數據的研究不多,在實踐中還有諸多問題,如需要哪些信息技術支撐,如何采集到更有利用價值的小數據,如何存儲、分析和處理多層次的小數據,小數據隱私保護問題等。未來還需要展開進一步研究與工作,力求為“十四五”期間醫院優勢學科建設提供完善的資源保障,積極配合高校一流學科建設步伐,推動實現醫院高水平發展。
歡迎訂閱 歡迎賜稿