999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據清洗“DEAN”流程的健康信息領域研究熱點探測

2018-12-08 11:17:26潘瑋鄭鵬黃錦泉
現代情報 2018年10期

潘瑋 鄭鵬 黃錦泉

〔摘 要〕[目的/意義]了解我國健康信息領域研究熱點,提升研究熱點識別的準確性。[方法/過程]論文首先構建了數據清洗“DEAN”流程,在此基礎上以CNKI和萬方數據庫收錄的2004-2017年健康信息領域文獻數據為研究對象,運用Citespace Ⅴ軟件對健康信息領域的研究熱點進行識別。[結果/結論]研究共探測出我國健康信息領域六大研究熱點,并對是否運用“DEAN”流程識別出的研究熱點結果進行對比分析,發現運用“DEAN”流程能夠提升研究熱點識別的準確性。

〔關鍵詞〕數據清洗;DEAN;健康信息;研究熱點

DOI:10.3969/j.issn.1008-0821.2018.10.011

〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)10-0073-05

〔Abstract〕[Purpose/Significance]The purpose of this paper was to understand the research hotspots of the health information researches.[Method/Process]The Data cleaning process named“DEAN”was constructed firstly,and published articles on health information during 2004-2017,which were recorded in the database of CNKI and WanFang,were chosen to be analyzed in this paper.[Result/Conclusion]By applying the software of Citesapce Ⅴ,the paper found Six research hotspots on the areas of health information.Meanwhile the paper compared the results of two cases that applied“DEAN”process or not,and found“DEAN”process could improve the accuracy of research hotspot identification.

〔Key words〕data clean;DEAN;health information;research hotpot

健康信息指與公眾、患者及其家屬有關的醫學和健康相關信息[1]。健康信息的來源較為復雜,可源自專業人士(如醫生)、非專業人士(如家庭成員或朋友)和媒體(如網絡、電視等)[2]。隨著網絡技術的發展,健康信息在互聯網上的快速增殖,使得患者趨向于首先通過網絡獲取自身狀況的健康信息,而不是第一時間尋求專業人士的幫助[3]。2016年10月發布的《中國網民科普需求搜索行為報告》顯示:健康與醫療主題占百度搜索所有主題的57%,成為最受關注的科普主題[4]。由此可見健康信息對優化公眾健康管理及改善公眾健康意識意義重大[5]。因此全面把握健康信息領域研究熱點,對健康信息的深入研究至關重要。

目前已有學者進行了健康信息領域研究熱點識別的相關研究,如吳浩等對網絡健康信息的研究熱點進行了分析[6]。陳娟等對國內外健康信息領域的演進路徑和研究熱點進行了比較研究[7]。Wang Y等對6個國家的區域健康信息網絡的研究熱點和演進路徑進行了比較分析[8]。上述研究均是以國內外文獻數據庫健康信息研究相關文獻為數據源,通過關鍵詞頻次分析及共現分析,識別國內外健康信息研究領域或其子領域的研究熱點,具有較好的實用價值,但是與大多數利用關鍵詞共現方法識別領域研究熱點的研究類似,上述研究對于研究熱點識別過程中數據清洗過程的描述不夠全面系統,而數據清洗的效果將直接決定研究熱點識別的準確性。基于此,筆者首先構建數據清洗的“DEAN”流程,對關鍵詞數據進行全面系統的清洗,在此基礎上對健康信息領域研究熱點進行識別,以提升結果準確性。

1 數據清洗的“DEAN”流程

1.1 基本環節

數據清洗的“DEAN”流程的基本環節如圖1的所示。

“DEAN”源自數據清洗的4類對象,即重復記錄(Duplicates)、錯誤記錄(Errors)、同義關鍵詞(Alias)和干擾關鍵詞(Noises)的英文首字母組合。關鍵詞的準確性和頻次是影響關鍵詞共現方法識別領域研究熱點結果準確性的兩個重要因素。“DEAN”4類對象及其對關鍵詞準確性和頻次產生影響的具體機理為:

1)Duplicates

Duplicates指數據庫中所有字段均相同,或有些字段不同,但題名且關鍵詞字段相同,或存在包含關系的文獻記錄。主要包括:①數據庫內的重復記錄,可由于數據庫更新、維護失誤所致,或是題名及關鍵詞字段相同的論文被兩種以上期刊同時收錄所致。②多數據庫重復記錄,多見于使用多數據庫作為數據來源時,由不同數據庫收錄相同文獻所致。Duplicates可增加關鍵詞的頻次,可能導致本不是研究熱點的關鍵詞被識別為研究熱點。

2)Errors

Errors指不符合檢索需求的記錄。主要包括:①文獻類型錯誤,如檢索出的會議通知、編者按及廣告等不符合檢索需求的類型的記錄。②由檢索策略導致的錯誤,如檢索出的不相關的記錄。Errors可降低關鍵詞的準確性,可能降低聚類的準確性,進而影響研究熱點的歸納和整合。

3)Alias

Alias指表示相同概念的關鍵詞。主要包括:①語法異構,如英文單詞的大小寫及單復數。②語義異構,如全稱與縮寫及同義詞。Alias可降低表示同一概念的關鍵詞的頻次,可能導致本該作為研究熱點被識別的主題最終未被識別。

4)Noises

Noises指干擾研究熱點識別結果的關鍵詞。主要包括:①子網絡(Subnetwork)。構建關鍵詞共現網絡時可能會出現多個子網絡。受聚類算法所限,每次只能選取規模最大的子網絡進行聚類[9]。其它子網絡所包含的關鍵詞則被視為干擾關鍵詞。②低頻關鍵詞。高于某一閾值的關鍵詞將作為研究熱點被識別,低于該閾值的關鍵詞則被視為干擾關鍵詞。Noises可分散研究人員注意力,可能干擾核心關鍵詞的歸納和整合。

1.2 實現方案

針對“DEAN”流程的基本環節,擬定各環節的實現方案,各環節需要運用的軟件及其功能如表1所示。

2 數據來源與方法

2.1 數據檢索與清洗

選擇CNKI和萬方期刊數據庫作為數據來源,通過專家咨詢制定相應的檢索策略。CNKI期刊數據庫的檢索策略為:((關鍵詞=健康信息)(模糊))OR((題名=健康信息)(精確)),期刊來源類別選擇“核心期刊”和“CSSCI”,檢索時間截至2017年11月,共檢索文獻173篇。萬方期刊數據庫的檢索策略為:題名或關鍵詞為“健康信息”,檢索時間截至2017年11月,以“北大核心”為限定條件,共檢索文獻200篇,以CSSCI為限定條件,共檢索文獻73篇。將檢索出的446文獻以Refworks格式導出,作為原始研究的原始數據。按照表1的數據清洗方案對原始數據進行清洗,得到研究所需的樣本數據,供進一步分析使用。

2.2 方法與工具

運用關鍵詞共現方法識別健康信息領域研究熱點。共同出現在一篇文獻中的兩個關鍵詞之間存在一定的內在聯系,且共同出現的次數越多,則聯系越緊密。由于關鍵詞是對文獻內容的濃縮和精煉,因此在對共現關鍵詞進行聚類的基礎上,對核心關鍵詞之間的關系進行梳理和整合,能夠識別出特定領域的研究熱點[10]。

Citespace Ⅴ軟件是陳超美博士開發的文獻信息分析及可視化軟件,能夠實現運用關鍵詞共現方法識別特定領域的研究熱點[11]。具體步驟為:1)將清洗后得到的樣本數據導入Citespace Ⅴ軟件;2)“Time Slicing”設置為2004-2017年,“Years Per Slice”設置為1年,“Term Source”選擇Keywords Plus,“Node Types”選擇Keyword,“Selection Criteria”選擇“Top N Per Slice”,設置為200,“Pruning”選擇Pathfinder;3)運行Citespace Ⅴ軟件,得到可視化圖譜;4)選擇“聚類”功能,得到研究熱點圖譜。

3 結 果

3.1 數據清洗結果

依據“DEAN”流程數據清洗方案對原始數據進行清洗的結果如表2所示。

3.2 研究熱點識別結果

得到健康信息領域研究熱點圖譜,如圖2所示。在圖2中,相互獨立的幾何圖形為應用聚類算法得到的不同類團,可以表示健康信息研究領域的不同子領域。節點和標簽字體的大小與關鍵詞的頻次成正比,且只顯示頻次≥4的關鍵詞的標簽。

由圖2可知,健康信息領域的研究熱點包括以下幾個方面:第一,健康信息素養研究,主要包括健康信息素養的影響因素,老年人、糖尿病患者健康信息素養狀況,圖書館在提升公共健康信息素養中的功能和作用,健康信息素養現狀下的信息服務等研究。第二,健康信息搜尋研究,主要包括網絡健康信息搜尋行為研究,用戶個性化健康信息搜尋等研究。第三,新媒體環境下的健康信息傳播研究,主要包括新媒體環境下健康信息的獲取、利用及效果評價等研究。第四,健康信息管理研究,包括運用信息系統及現代信息技術對用戶健康信息進行存儲、分析及利用等研究。第五,大數據環境下的健康信息分析與應用,包括互聯網、社交媒體健康信息分析與應用,健康信息隱私管理等研究。第六,健康教育研究,主要包括農村居民、孕產婦等群體的健康信息需求調查基礎上的健康教育策略研究。

4 討 論

本研究運用Citespace Ⅴ軟件,對未使用“DEAN”數據清洗流程情況下的健康信息領域研究熱點進行識別,如圖3所示,所有參數與使用“DEAN”流程時保持一致。

對比研究熱點的識別效果可知,圖2比圖3的優勢體現在以下4個方面:

1)研究熱點地位更加均衡

圖3中代表“健康信息”的節點和標簽地位過于突出,而圖2中代表各研究熱點的節點和文字標簽總體上看較為均衡,究其原因在于原始數據中過多的重復記錄造成了頻次靠前研究熱點的放大效應,以“健康信息”為例,在原始數據中其頻次達到了140次,而經過Remove Duplicates環節后,其頻次降到了83次。因此“去重”可以有效地降低偏倚,改善識別效果。

2)研究熱點識別結果更加準確

圖3顯示了“山東省”、“優秀期刊”和“綜合質量”這3個研究熱點,明顯與健康信息研究領域相關性較低,究其原因在于原始數據內有一條以“綜合質量、優秀期刊、山東省、健康信息”等為關鍵詞的某期刊獲獎通知文獻記錄,且該通知在該期刊的不同期次重復刊登,使得“山東省”、“優秀期刊”和“綜合質量”這3個關鍵詞累積頻次達到23次、23次和22次,從而被識別為研究熱點,而經過Erase Errors環節后,上述記錄被作為錯誤記錄予以刪除,在圖2中不再被展示出來。因此“勘誤”能夠去除錯誤研究熱點,改善識別效果。

3)新研究熱點的涌現

圖2中涌現了“新媒體”、“用戶”和“公共”等新研究熱點,究其原因在于對原始數據中不一致的關鍵詞進行了合并。經過“Merge Alias”環節后,一方面增加了新的關鍵詞,如將“QQ”、“微信”和“朋友圈”整合為“新媒體”等;另一方面某些關鍵詞的頻次得到了增加,如通過將“在線健康信息”整合為“網絡健康信息”使后者的頻次從5次增加到8次。因此“合并”可以發掘潛在的研究熱點,改善識別效果。

4)研究熱點識別結果更加清晰

與圖3相比,圖2展示的研究熱點結果更加清晰,究其原因在于對原始數據進行了降噪處理。經過“Reduce Noises”環節,對關鍵詞頻次小于4次的關鍵詞標簽進行了隱藏。因此“降噪”能夠去除造成干擾的噪聲關鍵詞,改善識別效果。

5 結 論

目前,共詞分析方法已廣泛應用于領域研究熱點的識別研究,但是對運用該方法所識別的研究熱點的準確性和有效性進行驗證方面存在著明顯的薄弱[12]。本研究提出的“DEAN”數據清洗流程能夠提升研究熱點識別的準確性和有效性,具體體現在研究熱點地位更加均衡;研究熱點識別結果更加準確;新研究熱點的涌現;研究熱點識別結果更加清晰4個方面。在運用“DEAN”數據清洗流程的基礎上,識別出健康信息領域的6大研究熱點,包括:健康信息素養研究;健康信息搜尋研究;新媒體環境下的健康信息傳播研究;健康信息管理研究;大數據環境下的健康信息分析與應用;健康教育研究。

參考文獻

[1]National Network of Libraries of Medicine.Consumer Health Information:A Workshop for Librarians Providing Health Information to the Public[EB/OL].http://nnlm.gov/priorities/topics/consumer-health,2017-12-30.

[2]Rose I D,Friedman D B.We Need Health Information Too:A Systematic Review of Studies Examining the Health Information Seeking and Communication Practices of Sexual Minority Youth[J].Health Education Journal,2013,72(4):417-430.

[3]Tan S L,Goonawardene N.Internet Health Information Seeking and the Patient-Physician Relationship:A Systematic Review[J].Journal of Medical Internet Research,2017,19(1):e9.

[4]科普中國.中國網民科普需求搜索行為報告(2016年第二季度)[EB/OL].http:/ /www.kepuchina.cn /notice /201611 /t20161103_43467.shtml,2016-11-03.

[5]付少雄,胡媛.大學生健康信息行為對實際健康水平的影響研究——基于健康素養與健康信息搜尋視角[J].現代情報,2018,38(2):84-90.

[6]吳浩,涂嘉玲,趙文龍.網絡健康信息研究熱點分析[J].現代預防醫學,2015,42(5):847-851.

[7]陳娟,石習敏,楊均雪,等.國內外健康信息領域演進路徑、熱點前沿比較研究——基于科學知識圖譜的可視化分析[J].現代預防醫學,2017,44(1):110-115.

[8]Wang Y,Zheng J,Zhang A,et al.Visualization Maps for the Evolution of Research Hotspots in the Field of Regional Health Information Networks[J].Inform Health Soc Care,2017,43(56):1-21.

[9]Barirani A,Agard B,Beaudry C.Competence Maps Using Agglomerative Hierarchical Clustering[J].Journal of Intelligent Manufacturing,2013,24(2):373-384.

[10]邱均平,溫芳芳.近五年來圖書情報學研究熱點與前沿的可視化分析——基于13種高影響力外文源刊的計量研究[J].中國圖書館學報,2011,37(2):51-60.

[11]Chen C.CiteSpace Ⅱ:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the Association for Information Science & Technology,2009,57(3):359-377.

[12]楊麗,張彤彤,周文杰.共詞分析識別研究熱點的效標關聯效度研究:基于自然語言處理[J].圖書與情報,2018,(1):15-19.

(責任編輯:陳 媛)

主站蜘蛛池模板: 亚洲—日韩aV在线| 人人艹人人爽| 中日韩欧亚无码视频| 日韩a级片视频| 久久国产香蕉| 91久久偷偷做嫩草影院免费看| av尤物免费在线观看| 女人爽到高潮免费视频大全| 亚洲天堂久久新| 99人体免费视频| 国产精品视频系列专区| 国产麻豆福利av在线播放| 日韩色图区| 72种姿势欧美久久久久大黄蕉| аⅴ资源中文在线天堂| 午夜无码一区二区三区| 久久黄色影院| av在线手机播放| 亚洲人成色在线观看| 久99久热只有精品国产15| 四虎在线观看视频高清无码| 狠狠干欧美| 91精品国产自产91精品资源| 日韩欧美国产另类| 久久永久精品免费视频| 国产激情在线视频| 国产打屁股免费区网站| 欧美无专区| 国产爽爽视频| 国产福利在线免费| 成人精品免费视频| 青青青亚洲精品国产| 扒开粉嫩的小缝隙喷白浆视频| 成人福利在线视频免费观看| 国产免费黄| 国产精品手机在线观看你懂的| 人人91人人澡人人妻人人爽| 国产三级国产精品国产普男人| 亚洲欧美日韩精品专区| 久久久噜噜噜| 99视频精品全国免费品| 再看日本中文字幕在线观看| 久久国产拍爱| 久久性妇女精品免费| 国产亚洲高清视频| 在线一级毛片| 午夜无码一区二区三区在线app| 免费在线a视频| 亚洲国产成人综合精品2020| 国产原创演绎剧情有字幕的| 伊人天堂网| 国产高清色视频免费看的网址| 最新国语自产精品视频在| 亚洲91精品视频| 九九精品在线观看| www亚洲精品| 久久人搡人人玩人妻精品| 亚洲无码高清一区二区| 亚洲AV无码一区二区三区牲色| 久久亚洲国产最新网站| 好久久免费视频高清| 久久伊伊香蕉综合精品| 成人国产精品一级毛片天堂| 国产精品永久不卡免费视频| 国产一区二区影院| 国产91av在线| 99久久国产自偷自偷免费一区| 国产精品无码AⅤ在线观看播放| 亚洲一级毛片免费观看| 天天综合网亚洲网站| 偷拍久久网| 欧美日韩免费在线视频| 思思热在线视频精品| 99久久精品国产麻豆婷婷| 色屁屁一区二区三区视频国产| 欧美亚洲激情| 色网站在线视频| 欧美国产在线一区| 国产成人三级在线观看视频| 国产美女丝袜高潮| 亚洲AV一二三区无码AV蜜桃| 一本色道久久88|