999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進TF-IDF算法的牛疾病智能診斷系統

2021-02-25 07:48:18杜永興牛麗靜李寶山
計算機應用與軟件 2021年2期
關鍵詞:關鍵文本癥狀

杜永興 牛麗靜 秦 嶺 李寶山

(內蒙古科技大學信息工程學院 內蒙古 包頭 014010)

0 引 言

計算文本相似度是研究疾病智能診斷的一種重要的方法。目前VSM空間向量模型和TF-IDF方法提取關鍵詞技術廣泛應用在人病智能導醫系統中。林予松等[1]采取了用戶關注度來計算癥狀的權重,設計了人工智能導醫系統。徐奕楓等[2]提出基于疾病類間分布的癥狀權重改進算法,改善了傳統TF-IDF算法提取疾病的效果,取得了不錯的成績。Teshnehlab等[3]首先通過主成分分析減少特征,然后使用基于深度神經網絡算法對結腸癌分類,其分類準確度為0.6。Cheng[4]通過物聯網和人工智能自動化設計一個可以及時解決動物園里的動物身體出現異常情況的系統,幫助動物管理員更系統地管理照顧動物。以上系統的設計都有著顯著的成果,但它們需要用戶在系統中選擇相應的癥狀,不能實現對用戶所輸入的文本內容進行理解。在設計中實現理解用戶輸入內容的復雜度遠高于直接選擇癥狀。在對用戶描述進行關鍵詞提取時,用傳統的TF-IDF算法在疾病的關鍵詞提取中并未考慮到提取的權重比較高的關鍵詞是否能合理地表示某種疾病。

針對上述問題,本文提出改進的TF-IDF算法,并將該算法應用在牛的疾病診斷系統中。首先用已有的方法對用戶的輸入的文本內容進行分詞、提取關鍵癥狀詞。然后采用向量空間模型VSM將提取的關鍵詞用向量的形式表示,用余弦定理計算用戶輸入的關鍵詞向量和已有的疾病關鍵詞向量的值作為疾病的相似度。最后進行可信度的計算,推斷出牛所患的疾病。應用該算法提取的關鍵癥狀詞可以比較合理地表示疾病的癥狀,提高了系統的性能,使得該系統有效地實現了對牛所患疾病及時的診斷和治療,對牧戶在畜牧業的管理上也起到一定的指導和決策作用。

1 數據來源

應用Python框架和手工錄入方式獲取了451種關于牛的疾病,采用jieba分詞[5]和手工整理的方式對病因、癥狀、診斷、治療和預防等屬性拆分,并將其對應的癥狀進行規范化處理,構造關鍵癥狀詞語料庫。

2 方法設計

2.1 空間向量模型及相似度計算

目前常用空間向量模型的方法來衡量兩個文本之間的相似度[6]。向量空間模型(VSM)是把輸入的文本和已有的文本都轉換成向量的形式進行計算,提高了文本內容的計算性和可操作性,同時該模型也是目前應用最為成熟和廣泛的模型之一[7-8]。

假設某用戶描述用D(Document)表示,首先運用自然語言處理已有的技術對用戶的描述進行分詞、去停用詞、計算權重、提取關鍵癥狀詞。特征項一般由癥狀關鍵詞組構成,指在文檔中能反映用戶描述的基本語言單位,用T(Term)表示。用戶描述和關鍵癥狀特征可以使用集合表示為D(T1,T2,…,Tn),其中Tk是關鍵癥狀特征詞(1≤k≤n)。生成向量空間模型的流程如圖1所示。

圖1 生成向量空間模型的流程

利用空間向量模型將文本內容轉換成向量可以這樣表示:對用戶輸入的文本m中的每個詞,用Wi,m表示m中第i個詞的權重,m=(W1,m,W2,m,…,Wt,m)表示用戶輸入文本m的詞權重向量;同理,用Wi,n表示已有文本n中第i個詞的權重,用n=(W1,n,W2,n,…,Wt,n)表示已有文本n的詞權重向量,然后通過余弦定理計算m和n之間的相似度值作為兩個文本之間的相似度[9-11]。其中癥狀權重W是根據TF-IDF原理計算出來。在本系統中m表示帶匹配的疾病,n表示用戶輸入的描述。相似度計算如下:

(1)

2.2 TF-IDF算法分析及改進

在利用VSM計算兩種疾病的相似性度時,最重要的步驟是用TF-IDF算法計算關鍵癥狀詞的權重,提取關鍵詞[12-13]。TF-IDF算法的原理是TF×IDF,其中TF表示某個癥狀詞在文檔出現的頻率,計算中發現像“的”“了”等這些不重要的停用詞出現的次數比較高。為避免這種問題,引入逆文檔頻率IDF。包含當前詞的文檔個數越多,IDF的值越小,說明該詞越不重要。其主要思想是如果某個特征項在一個文本中出現頻率很高,且在其他文本中出現很少,說明此特征項具有很好的類別區分能力,應該給予較高的權重[14]。TF計算如下:

(2)

式中:Cin表示疾病特征詞i在n種描述中出現的次數;Mn表示n種描述中總癥狀詞數。IDF計算如下:

(3)

式中:將每個描述看成一個文檔,N為文檔總數;n為包含某項癥狀詞的文檔總數。TF-IDF計算公式如下:

TF-IDF=TF×IDF

(4)

將傳統的TF-IDF算法應用在提取牛疾病的關鍵癥狀詞時,發現“帶有”“比較”“基本”“而”等詞計算出來的權重很高。顯然這些詞作為疾病的關鍵癥狀是不合理的。分析原因如下:在計算某一種疾病的關鍵癥狀時,將同一種疾病的不同種醫案描述作為不同的文檔來計算關鍵癥狀。此時的用戶描述除了停用詞出現的次數比較多之外,剩下的是癥狀描述,比如“精神倦息”“不反芻”等癥狀詞,雖然很重要但是由于在每個用戶描述中幾乎都有出現,根據TF-IDF原理就把此類經常出現的癥狀詞當成停用詞處理了。針對上述問題,本文提出基于改進的TF-IDF算法,可以有效解決這個問題。改進的TF-IDF計算式如下:

(5)

式中:Wij代表第j種疾病的i個癥狀。首先通過傳統的算法算出關鍵詞的權重,然后將提取的關鍵詞和牛疾病癥狀詞典進行匹配。如果該詞在癥狀詞典中,則將該詞相應的權重乘以10;如果該詞不在癥狀詞典中,保留其原始的權重不變。最后將關鍵詞的權重重新排序,選擇權重較高的前20個關鍵詞作為疾病的關鍵癥狀詞。使每種疾病的關鍵癥狀權重更具有代表性,實現了相同癥狀在不同疾病占有不同的權重,更適用于疾病診斷。

2.3 可信度計算

單純將相似度作為最后的結果返回給牧民是不夠準確的。把可能度和相似度相結合作為疾病可信度計算結果,然后將可信度的結果按照從高到低的次序返回給牧民,增強結果的可靠性。可能度的計算使用的是不確定的推理,當用戶輸入描述時,將相應的癥狀權重相加。可能度的計算如下:

kndj=W1jx1+W2jx2+…+Wijxn

(6)

式中:kndj代表患某種疾病的可能度。將選中的疾病索引到對應的權重進行加權求和,最后進行可信度的計算如下:

CF=αkndj+βsim(m,n)α+β=1

(7)

式中:α取0.2,β取0.8進行最后的可信度計算。

2.4 系統設計流程

牛的疾病診斷系統主要運用智能化方式輔助獸醫診斷。牧民在使用此系統時,輸入相應癥狀的文本內容,系統首先會對輸入的文本內容進行理解,然后計算出輸入內容與系統內所有疾病的相似度,最后計算可信度。將查詢結果按照可信度從大到小的返回給牧民,并給出相應的診療方案。牛疾病智能診療系統主要包括自然語言處理、疾病匹配處理、疾病可信度計算三個部分。具體系統設計流程如圖2所示。

圖2 牛的疾病診斷流程

3 實 驗

3.1 實驗環境和實驗數據

實驗的運行環境為Windows XP操作系統,CPU主頻3.7 GHz,內存16 GB,數據庫Microsoft MySQL 2018,開發工具為PyCharm 2018,編程語言為Python。實驗數據采取隨機抽取30頭牛的病歷樣本進行實驗驗證,且這些疾病獸醫已經給出正確的診斷結果。

3.2 評價指標

為驗證改進后的算法在牛疾病診療系統中的準確率和可信度,本文采用基于傳統的空間向量模型的相似度算法和本文提出改進的TF-IDF算法進行對比實驗。實驗采用隨機抽取30頭牛的病歷樣本進行實驗驗證,采用S@n(success atn) 方法進行結果評測[15],其表示正確疾病推薦結果在前n個推薦結果中所占比重。

3.3 結果分析

將實驗數據采用S@n方法進行結果評測,兩種算法的對比結果如表1所示。可以看出,當n取1、2、3時,本文算法的正確率明顯高于傳統算法。

表1 算法準確率對比

通過上述計算相似度及可信度的方法,使用兩種算法對同一實驗數據計算出相似度和可信度的對比如圖3和圖4所示。可以看出,改進算法相似度和可信度較傳統算法都有提高,其中可信度平均提高約4個百分點,說明本文算法在牛疾病診斷中更具有可行性。

圖3 相似度結果對比圖

4 結 語

針對傳統TF-IDF算法提取關鍵詞不能合理地描述疾病的關鍵癥狀,本文提出一種改進的TF-IDF算法提取關鍵癥狀詞并設計了牛疾病智能診斷系統。通過實驗對比驗證了該算法的有效性。該方法的不足是在提取關鍵癥狀詞時依賴疾病癥狀詞的語料庫。下一步研究將重點考慮在不依賴疾病癥狀詞語料庫的基礎上更加智能地實現疾病診斷。

猜你喜歡
關鍵文本癥狀
Don’t Be Addicted To The Internet
有癥狀立即治療,別“梗”了再搶救
保健醫苑(2022年1期)2022-08-30 08:39:40
高考考好是關鍵
可改善咳嗽癥狀的兩款藥膳
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
夏季豬高熱病的癥狀與防治
獸醫導刊(2016年6期)2016-05-17 03:50:35
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久久久亚洲精品成人网| 午夜激情福利视频| 日韩福利在线视频| 免费无码在线观看| 国产精品手机在线播放| 日韩精品亚洲精品第一页| 国产青青操| 久久精品66| аⅴ资源中文在线天堂| 欧美一区二区福利视频| 毛片最新网址| 欧美精品1区2区| 亚洲国产精品日韩欧美一区| 婷婷六月天激情| 2021国产精品自产拍在线观看| 久久99国产综合精品女同| 伊人成色综合网| 在线播放真实国产乱子伦| 欧美一区二区啪啪| 全裸无码专区| 国产免费羞羞视频| 亚洲欧洲日韩综合| 久久国产高清视频| a级毛片免费网站| 亚洲欧美另类日本| 国产18在线播放| 狠狠做深爱婷婷久久一区| 欧美午夜视频在线| 伊人激情久久综合中文字幕| 免费一级毛片在线观看| 91人妻日韩人妻无码专区精品| 亚洲天堂视频网站| www.亚洲一区二区三区| 99这里只有精品免费视频| 国产成人高清精品免费5388| 色成人亚洲| 亚洲国产欧美国产综合久久 | 欧美一级在线| 国产成人一二三| 美女潮喷出白浆在线观看视频| 91在线高清视频| 香蕉伊思人视频| 亚洲天堂视频在线免费观看| 亚洲国产精品无码AV| 国产又爽又黄无遮挡免费观看| 性欧美精品xxxx| 欧美国产视频| 中文字幕日韩视频欧美一区| 久久精品aⅴ无码中文字幕| 在线精品欧美日韩| 中文无码精品A∨在线观看不卡| 91免费国产在线观看尤物| 国产91小视频在线观看| 日本免费一级视频| 国产午夜福利亚洲第一| 人妻丰满熟妇啪啪| 人妻精品久久久无码区色视| 精品视频福利| 三上悠亚一区二区| AV在线天堂进入| 国产黑丝视频在线观看| 露脸国产精品自产在线播| 丝袜国产一区| 狠狠色噜噜狠狠狠狠色综合久 | 亚洲色中色| 午夜一级做a爰片久久毛片| 国产成人av一区二区三区| 91麻豆国产在线| 国产拍在线| 在线人成精品免费视频| 国产日本视频91| 激情在线网| 国内精品视频| 东京热一区二区三区无码视频| 99这里只有精品免费视频| 亚洲综合经典在线一区二区| 日韩无码一二三区| 国产精品丝袜视频| 国产成人久久777777| 欧美人人干| 国产欧美自拍视频| 26uuu国产精品视频|