999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2Vec和句法分析對心血管防控知識分類應用

2022-07-25 02:51:26趙艷斌張朋柱
上海管理科學 2022年3期

趙艷斌 張朋柱

文章編號:1005-9679(2022)03-0119-07

摘要:對健康知識抽取關鍵信息并進行有效分類,是提高用戶檢索和使用相關防控知識效率的關鍵。首先,搜集得到的大量有效的心內健康知識,進行了有效的數據預處理和人工標注。其次,基于Word2Vec的skip_gram訓練模型搭建了文本詞向量。接著,根據知識分類的詞性、句法的特點,利用句法分析將抽取出來的關鍵內容進行了有效分類。實驗結果顯示該方法在健康知識分類上有效,分類的精確率能夠達到80%以上,能夠很好地實現對健康知識的三分類。該分類方法為用戶使用健康知識提供了指引,也為探討知識質量和研究方向提供了有效的分類統計基礎。

關鍵詞:文本分類;Word2Vec;句法分析;健康防控知識;用戶應用

中圖分類號:TP301

文獻標志碼:A

Researchoncardiovascularhealthknowledgeclassificationbasedonword2vecandsyntacticanalysis

ZHAOYanbinZHANGPengzhu

(AntalCollegeEconomicsManagement,ShanghaiJiaoTongUniversity,Shanghai200030,China)

Abstract:Howtoextractkeyinformationfromhealthknowledgeandclassifyiteffectivelyisthekeytoimprovetheefficiencyofusers'retrievalanduseofrelevantpreventionandcontrolknowledge.Firstly,alargenumberofeffectiveknowledgeaboutthehealthofheartdiseaseiscollected,andcarriedoutdatapreprocessingandmanualannotation.Secondly,thewordembeddingsisconstructedbasedonword2vec'sskipgramtrainingmodel.Then,accordingtothecharacteristicsofpartofwordandsyntaxofknowledgeclassification,thekeycontentextractediseffectivelyclassifiedbysyntacticanalysis.Theexperimentalresultsshowthatthismethodiseffectiveintheclassificationofhealthknowledge,theaccuracyrateofclassificationcanreachmorethan80%.Itcanperfectlyachievethethreeclassificationofhealthknowledge.Thisclassificationmethodnotonlyprovidesguidanceforuserstousehealthknowledge,butalsoprovidesaneffectivestatisticalbasisforknowledgequalityandresearchdirection.

Keywords:textclassification;Word2Vec;syntacticanalysis;healthknowledge;applicationguidelines

近年來,我國心血管病致死率率不斷攀升,至2018年現有患者2.9億人,心血管疾病高居死亡原因首位。不正確的生活、飲食習慣是導致心血管疾病的主要原因,而傳播健康知識是改變患者健康行為的基礎,因此需要相關的心內防控科學知識方案來引導人們。

對于健康知識的用戶即患者、醫生和相關保健預防的人群來說,健康網站上的信息紛繁復雜,評價標準不一。用戶想對疾病進行防控時,卻不知如何篩選最相關的知識、判斷該方案是否具有可操作性以及如何實施。此外,對于相關研究人員來說,如何評判健康網站也是一個重要的問題,需要對健康網站上的知識信息進行評判。出于對用戶需求的滿足,對健康知識進行分類,并作為網站評判的標準,是十分有必要的。

文本分類是按照預先設定的規則將文本智能化切分、定類的分類方法。目前,針對中文文本的分類研究已取得一些成果,主要的分類方法有KNN最近鄰分類、樸素貝葉斯分類、SVM支持向量機等。但是由于中文的句法結構復雜等特征,這些不考慮具體語法、語義的機器學習方法很難達到較高的準確率。為了彌補這些不足,逐漸又結合句法語義分析進行分類,Katz等人把文本用(主謂賓)三元組表示。

由于目前對健康知識分類的文獻不多,本文針對性地提出了一種根據Word2Vec構建詞向量抽取關鍵詞句并依據句法分析進行分類的方法,分類的準確率達到80%~90%。本文將防控知識分類,清晰了方案知識的可操作性、整理知識之間的關系,為用戶應用提供了基礎。

1文獻綜述

自2000年以來,隨著互聯網的飛速發展,健康網站為用戶提供了大量相關的健康知識。目前如健康網站39健康網、中華康網、尋醫問藥網,均是中國優質醫療保健信息與在線健康服務平臺。在對健康網站用戶調查中,有70%左右的用戶認為在網上獲取健康信息比較方便,對健康、防病、營養知識的需求均占20%以上,但是對網站上信息的不滿意率達41.03%,集中在健康網站的信息分類、可操性和有效性方面。

國內外對健康信息、健康網站研究的文獻,大致可以分為對健康信息的質量/可使用性、傳播性、對用戶的影響和對在線健康網站評價等方向。對健康信息傳播性、用戶行為已有不少文獻做了研討,如探究健康用戶關系網絡動態演化、用戶回帖行為影響機制等。

對于健康社區/網站而言,健康知識的質量和可信性會影響到用戶采納及服務體驗。自20世紀末,國內外逐步對健康網站信息服務質量評價建立了多種評價方法和評價標準。Wilson提出了五種評價標準,在其用戶評價標準指南中,NetScoring共包括49個健康評鑒指標,可分為健康信息的可信度、內容等八大類。

而對健康信息本身質量評價/可使用性研究的文獻缺少相應可靠的評斷方法。這就導致用戶在閱讀健康信息時無法判斷該信息是否完備、可操作,加上冗余重復的知識,很容易導致用戶不知道如何采用,大大降低了健康知識的實用性。此外,很多標的如食鹽、雞蛋黃等都有明顯的食用范圍,一些食材還有特有的操作方法。這些問題的存在,都會造成實用性大打折扣。

2相關工作

2.1Word2Vec詞向量方法

Hinton1986年提出了用神經網絡進行分布式表征。2003年,Bengio提出了一個三層神經網絡模型,在訓練語言模型的同時得到了詞向量基本模型neuralnetworklanguagemodel(NNLM)。Word2Vec是Mikolov提出的一種神經網絡語言模型,有CBOW和Skip_gram訓練模式。CBOW訓練模型是由該預測的特征詞的上下文詞向量輸入來輸出得到該特征詞的詞向量,數學表達式為

P(Wt|∑(Wt-k,Wt-k+1,…,Wt+k-1,Wt+k))。Wt為目標詞匯,通過上下文k大小窗口的詞預測其出現的概率,結構如圖1所示。

Skip_gram是給定當前詞的詞向量來預測對應上下文的詞向量,數學表達式為

P(∑(Wt-k,Wt-k+1,…,Wt+k-1,Wt+k)|Wt),結構如圖2所示。

兩個訓練模型中,Skip_gram模型訓練時間較長、精度更高,所以本文采用此模型,窗口k為5。

2.2句法分析

句法分析中句法結構(主謂賓定狀補)和依存結構(遞進、轉折、從屬等)是目前研究最廣泛的兩類文法體系。句法分析確定語句中的“主謂賓定狀補”等語法成分,并分析語法成分之間的關系,以此確定句法結構或詞匯間依存關系。句法分析,可進行語義分析、語句傾向、答案抽取等,適用于復雜結構的較長語句,以及缺少大量標注樣本的情況,目前以哈工大ltp、StanfordParser句法分析工具為代表。當前句法分析難度還很大,準確度為80%~90%。

3實驗

3.1數據來源

本文數據是在健康管理系統開發過程中,于文獻、醫學期刊等搜集而來。由于所參與的國家基金研究方向為心血管疾病防控,因此數據以心內防控知識為主。其中,健康網站39健康網、中華康網、尋醫問藥網,擁有豐富內容與龐大用戶。經過去重、清洗共獲得551條數據,每條數據長度為5~200字,屬于較短文本。

3.2分類依據

預防與管控的邏輯知識是指如何從收集到的健康知識出發,針對知識條目中的標的物進行方案的實施和操作。當然針對不同精確度的健康知識,所需要的標的物實施程度也不同。所以,在方案實施階段,根據知識方案的量化性、可操作性,可將知識方案劃分為三種類型:定性知識、定量知識、實施知識。根據每條知識所含元素的不同,可以將其劃分為不同層級的知識管理方案。

3.2.1三種知識的作用劃分

定性知識的作用主要是傳遞出標的評價,如某事物的正負情感(宜、不宜)給人在整體上的認知,如“控制飲酒”。該條知識就很明確地傳遞出對于“飲酒”是負向的情感傾向。其中,“飲酒”是動詞+名詞構成的賓語,“控制”是動詞,構成了句子的謂語,整個句子為謂賓結構。

定量知識的標的在執行或者判斷中所涉及的程度或者數量也進一步量化,以便給人更直觀、具體的信息,如“每天不超過100g葡萄酒為宜”。該條知識就在控制飲酒的負向情感上進一步量化,給出了“不超過100g”的量化標準。

實施知識就是一個可以執行的方案,而定性知識只知道標的和情感,定量知識有標的、情感量化后的實施范圍,但是缺少實施條件和實施順序等。因此,在實施知識中實施條件(時間、地點等)和實施順序(多并列語句)就需要加入幫助確定標的操作方法,如“空腹、睡覺前或感冒時,不宜飲酒。此外時間,控制飲酒,每日飲酒20~70g、每周飲酒5~7杯,以每天不超過100g葡萄酒為宜”。

3.2.2三種知識劃分標準

定性知識:名詞是標的,形容詞、動詞是核心,只有簡單的定性判斷,如“多吃、少吃、多喝”等。

定量知識:名詞是標的,形容詞、量詞是核心,通過形容詞進行定性、量詞規范范圍,如“每日/飲酒/20~70g,每天/吃/5~10g/干品黑木耳”。

實施知識:動詞(如何實施)、并列語句(多條分句,實施次序)是核心,狀語成分(時間、地點、先后順序)是實施動作的說明,量詞(實施范圍)是精度補充,如“赤小豆/適量/,浸泡/半日【后】,【同】粳米/100克,煮粥。每日/1次”。

3.2.3三種知識辨析

首先,對其中一條知識進行關鍵詞句抽取,可得:“速度:最好保持每分鐘60~80米的速度;時間:每天堅持走路30~60分鐘,并長期堅持;放松:運動后要讓雙腳徹底放松,可用熱水熱敷,并由下至上按摩雙腿。”

其次,進行句法分析:“【速度】:最好/保持/每分鐘60~80米的/速度/;【時間】:每天/堅持走路/30~60分鐘/,【并】長期堅持;【放松】:運動后/要讓雙腳/徹底放松,可用/熱水/熱敷/,【并】由下至上/按摩/雙腿。”

該知識具有多個并列的分句,其中還有表示并列、遞進的語詞,具有明顯的實施順序,進而整體上具有可操作性。同時,存在數量詞,提供了實施的精度、范圍,所以劃分為實施知識。

3.3詞向量搭建

文本通過jieba分詞、去停用詞等數據預處理,表示成為向量形式。然后通過向量的余弦相似度計算,抽取關鍵詞、關鍵語句,以便對其有效信息進行句法分析。

余弦相似度計算公式:

simidarity=cos(A,B)=A·B‖A‖‖B‖=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2

其中,A和B表示文本中詞語對應的詞向量。

3.4句法分析分類

由3.2中劃分標準可知,三種知識的劃分需要從詞性分析、句法分析兩個方面出發。首先,根據無數量詞“m”劃分出來定性知識,在有量詞的語句中,需要進一步分析句法結構和語義角色,即根據關鍵的語義角色如各個動作等,判斷這些動作之間是否有并列語句關系“COO”進行劃分。如角色之間有“COO”等并列、順接等語句順序關系,則說明是一套可以實施的動作方案。此外,加上對關鍵的語義角色/實體的句法結構進行分析,如都是同一類型ADV(狀中結構)等,即劃分到實施知識,反之則為定量知識。圖3使用哈工大社會計算與信息檢索研究中心研制的語言技術平臺(LTP)繪制而成,該條知識中便存在“COO”等并列、順承等語句關系,且“清洗”“加水”“火燒”等的語義角色均為動作A1、A2,與“梗米”形成了順承的“動賓”句法結構。

算法1為句法分析分類算法。

輸入:文本text

輸出:分類class

ifm(量詞符號)intext的分詞詞性列表:

class=定性知識

else:

class=定量知識

text句法分析抽取角色

forroleintext的關鍵角色列表:

ifrole_head(連接的前角色)intext的關鍵角色列表and兩角色連接關系==‘COO’:

ifrole的尾節點角色intext的關鍵角色列表and兩角色連接關系==‘COO’:

if角色的語義角色類似:

class=實施知識(語句具有順承關系)

elifrole_head的尾節點intext的關鍵角色列表and兩角色連接關系==‘COO’:

if角色的語義角色類似:

class=實施知識(語句具有并列關系)

else:

pass

整個實驗流程如圖4所示。

4結果與分析

4.1分類結果

以來源于文獻、醫學著作等權威性高的110條健康知識作為訓練數據,以來源于健康網站的441條數據作為測試集。由前節可知,定性知識、量化知識到實施知識的劃分門檻升高,因此所包含的數量也應逐漸減少。而從統計數據來看,定性知識、量化知識、實施知識分別有230、151、60條,各層級比例符合推測。

數據的分類已經過多人人工標注,以保證準確性,分類結果的混淆矩陣如表2所示。

本文參照使用精確率P、召回率R、F值來評價模型,結果如表3所示。計算得出的精確率均在86%以上,召回率也在71%以上,F值在78%以上,較高的F值說明搭建的模型具有良好的分類效果。尤其是定性知識、定量知識的分類具有85%及以上的精確率、召回率和F值,其分類效果顯著。

精確率P=TP/(TP+FP)。TP表示將正類預測為正類的數目,FP表示將負類預測為正類即誤報的數目。

召回率R=TP/(TP+FN)。TP表示將正類預測為正類的數目,FN表示將正類預測為負類即漏報的數目。

F=P×R×2/(P+R)。F綜合了P和R的結果,F較高則說明實驗方法比較有效。

4.2健康知識分類統計

通過上述劃分系統,對現在已有的健康知識根據分類和來源網站進行劃分,展示、對比如表4所示。在心內疾病方面,39健康網所擁有的健康防控知識最多,共計224條,能給使用者帶來最豐富的管理方案;尋醫問藥網的實施知識占比最高,其心內疾病防控建議中多數為飲食菜譜等可以實施的詳細方案,所以能給用戶帶來最可行的健康方案。

5分類結果實際應用

5.1健康知識關鍵詞應用

在Word2Vec詞向量搭建過程中,獲得了每條知識的關鍵詞,通過合并、去重、去除無關詞,可以得到由幾百條防控知識所構成的詞庫。在這個關鍵詞庫中,頻數越高,代表該標的在心內防控上的可靠性越高。如表5出現的top10標的中,山楂、蜂蜜等作為頻數較高的知識標的,多次出現代表其可靠性相對較高。

在CNKI中以“山楂”和“心血管”為關鍵詞進行搜索,共有79篇文獻在山楂對心血管疾病的防控作用上進行了探討。在吳瞻邑等的文獻中詳細列出了山楂在治療心血管疾病方面的進展,山楂提取物已被用于心血管健康的營養補救劑,可以改善動脈粥樣硬化相關疾病。同理,以“維生素”和“心血管”為關鍵詞,共搜到276篇相關文獻。

因此,根據本文分詞后的關鍵詞分析,頻次越高,相關的文獻研究越多,確定性越高,用戶可以選擇頻次高的標的作為最值得準備的措施。同理,研究人員等可以選擇頻次較高、相關文獻數量較少的標的作為研究方向,以發現標的防控心血管疾病的機制。

5.2健康知識分類應用

以同一標的串聯的不同分類的健康知識為例,如表6所示,可清晰地看出來,實施知識能為用戶提供最有效的信息、最清晰的方法指引。但是一方面,對于網站來說,健康知識錄入時存在疏忽,對文本內容把控不嚴謹。另一方面,用戶很難直接有效的判定出這三類知識。所以,本方法很好地根據文本句法結構分類,以便網站和用戶清晰明白該方案知識是否可以實施。因為對于藥物和標的來說,合適范圍、條件方法才能使方案產生作用。

6總結與展望

本文針對繁雜的心內疾病健康知識提出了對其分類的現實需求,為人們提供在日常生活中進行防控的方案。在分類時,針對較短文本使用了Word2Vec詞向量模型,并根據分類的現實意義提出了結合句法分析的算法模型。分類的精確率、召回率、F值均很高,為健康知識分類提供了良好的分類方法。

應用分類結果,可以對各個主流健康網站的健康知識進行分析,從而為人們挑選知識較多或者實施方案較多的網站提供了選擇依據,也可作為該網站的一種評價機制。此外,在進行本文分類后,將算法結果應用到實際中。一方面,醫生等研究人員可以根據健康知識的關鍵詞庫來選定有關心血管疾病與標的之間的作用作為研究方向,用戶也可以選擇高頻詞作為健康防控的關鍵入手。其次,針對前文中提出的用戶在實際應用中遇到的問題,本文進行關鍵詞句的抽取,能為用戶提供最關鍵、有效的信息;對健康方案進行分類,能夠很清晰地指引該方案是否可以具體實施、如何實施,以避免在不合適的用量范圍內、不合適的操作方法下進行使用,從而大大提高健康知識的有效性。

當然,本文還存在研究拓展空間,如有的實施方案只是有效的經驗或者建議,不存在實證性研究的基礎。本文通過算法對知識進行有效分類,可以此為基礎初步給出較為粗略的可靠性評判標準和方法,但如何鑒別實施知識的有效性、可靠性,及其醫學原理是研究者可以關注的方向。

參考文獻:

[1]國家心血管病中心.中國心血管病報告2018[R].北京:中國大百科全書出版社,2019:1.

[2]世界衛生組織.心血管疾病[EB/OL].https://www.who.int/topics/cardiovascular_diseases/zh,2020-02-28.

[3]李新蕊,陳惠.不同階段高血壓性腦卒中患者健康知識及行為水平分析[J].中國衛生工程學,2019,18(6):858-860.

[4]劉強.文本的特征提取及KNN分類優化問題研究[D].廣州:華南理工大學,2009.

[5]丁世濤,盧軍,洪鴻輝,等.基于SVM的文本多選擇分類系統的設計與實現[J].計算機與數字工程,2020,48(1):147-152.

[6]KATZB,LINJ.Selectivelyusingrelationstoimproveprecisioninquestionanswering[C].ProceedingsoftheEACL-2003WorkshoponNaturalLanguageProcessingforQuestionAnswering,2003:43-50.

[7]徐明,彭玉華,馬朝霞.利用網絡資源發展健康教育初探[J].中國健康教育,2002(10):52-53.

[8]俞文敏,王杰,周宏宇,等.健康需求者對健康類網站的知識需求調查[J].護理學雜志,2009,24(9):86-87.

[9]劉萌萌,鄧朝華.在線健康社區用戶參與行為綜述[J].醫學信息學雜志,2018,39(11):15-19.

[10]吳江,李姍姍,周露莎,等.基于隨機行動者模型的在線醫療社區用戶關系網絡動態演化研究[J].情報學報,2017,36(2):213-220.

[11]劉璇,汪林威,李嘉,等.在線健康社區中用戶回帖行為影響機理研究[J].管理科學,2017,30(1):62-72.

[12]JONATHANBJ,BRYANNB.EvaluationofeHealthwebsitesforpatientswithchronickidneydisease[J].AmericanJournalofKidneyDiseases,2004(1).

[13]HINTONGE.Learningdistributedrepresentationsofconcepts[C]//Proceedingsoftheeighthannualconferenceofthecognitivesciencesociety.1986,1:12.

[14]YOSHUAB,REJEAND,PASCALV,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch(JMLR),3:1137-1155,2003.

[15]MIKOLOVT,CHENK,CORRADOG,etal.Efficientestimationofwordrepresentationsinvectorspace[C]//ICLRWorkshop,2013.

[16]MIKOLOVT,SUTSKEVERI,CHENK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//InternationalConferenceonNeuralInformationProcessingSystems.CurranAssociatesInc.2013:3111-3119.

[17]CHEWX,LIZH,LIUT.LTP:AChineseLanguageTechnologyPlatform.InProceedingsoftheColing2010:Demonstrations.2010.08,pp13-16,Beijing,China.

[18]吳瞻邑,由璐,劉素穩,等.山楂抗心血管系統疾病的研究進展[J].中國食物與營養,2019,25(4):67-71.

[19]FORDE,ADAMSJ,GRAVESN.Developmentofaneconomicmodeltoassessthecost-effectivenessofhawthornextractasanadjuncttreatmentforheartfailureinAustralia[J].BMJOpen,2012,2(5):e001094-e001094.

[20]KOCHE,MALEKF.Standardizedextractsfromhawthornleavesandflowersinthetreatmentofcardiovasculardisorders-preclinicalandclinicalstudies[J].PlantaMedica,2011,77(11):1123-1128.

收稿日期:2020-04-09

基金項目:國家自然科學基金資助項目“大數據驅動的全景式個性化心血管健康管理研究”(91646205);國家自然科學基金創新研究群體項目“運營與創新管理”(71421002);上海交通大學中央高校基本科研業務費資助項目“基于大數據的醫患匹配及其和諧關系研究”(16JCCS08)

作者簡介:趙艷斌(1991—),男,河北邯鄲人,碩士研究生,主要從事健康數據挖掘、健康風險預測;張朋柱(通信作者),男,教授,博導,博士,研究方向為智能健康管理、大數據創新導航等,E-mial:pzzhang@sjtu.eu.cn。

主站蜘蛛池模板: 欧美成一级| 99视频精品在线观看| 激情乱人伦| 亚洲视频免| 免费A级毛片无码无遮挡| 国产资源免费观看| 中文字幕免费播放| 免费在线看黄网址| 亚洲性影院| 日韩大乳视频中文字幕| 91无码人妻精品一区| 欧美午夜一区| 亚洲男人的天堂久久香蕉| 色综合五月婷婷| aaa国产一级毛片| 欧美黑人欧美精品刺激| 最新国产精品第1页| 久热中文字幕在线观看| jizz亚洲高清在线观看| 欧美激情伊人| 久久综合国产乱子免费| 人与鲁专区| 视频二区亚洲精品| 国产国产人成免费视频77777| 国产午夜在线观看视频| 精品1区2区3区| 日本久久网站| 国产99欧美精品久久精品久久| 国产亚洲精品va在线| 激情国产精品一区| 国产熟睡乱子伦视频网站| 九色视频线上播放| 亚洲欧美日韩中文字幕在线一区| 少妇高潮惨叫久久久久久| 老色鬼久久亚洲AV综合| 国产精品自在拍首页视频8| 亚洲国产日韩在线观看| 夜夜操国产| 亚洲无码久久久久| 影音先锋亚洲无码| 澳门av无码| 性做久久久久久久免费看| 波多野结衣无码视频在线观看| 永久免费av网站可以直接看的 | 特级精品毛片免费观看| 欧美在线伊人| 久久国产精品77777| 88国产经典欧美一区二区三区| 不卡无码网| 无码精品福利一区二区三区| 99久久人妻精品免费二区| 人妻一区二区三区无码精品一区| 欧美国产另类| 国产一区二区精品福利| 免费国产在线精品一区| 91精品专区| 亚洲欧美成人综合| 69av免费视频| 欧美精品另类| 国产午夜福利亚洲第一| 欧美一区二区三区国产精品| 亚洲欧美日韩成人高清在线一区| 99热国产这里只有精品无卡顿"| 超薄丝袜足j国产在线视频| 亚洲精品第一在线观看视频| 一区二区偷拍美女撒尿视频| 国产在线91在线电影| h视频在线播放| 亚洲一本大道在线| 手机永久AV在线播放| 午夜视频日本| 精品一区二区三区无码视频无码| 久久国产精品国产自线拍| 久久精品人人做人人| 国产真实乱了在线播放| 国产精品专区第1页| 波多野结衣一区二区三区88| 亚洲欧美日韩成人在线| 亚洲精品色AV无码看| 免费A∨中文乱码专区| 色婷婷在线影院| 久久综合丝袜长腿丝袜|