基于B/S 結(jié)構(gòu)的中醫(yī)藥信息采集系統(tǒng)

2013-08-29 09:38:56倪晨邱鵬曹慧

山東科學 2013年4期

倪晨，邱鵬，曹慧

(山東中醫(yī)藥大學理工學院，山東濟南 250355)

隨著中醫(yī)藥研究的不斷深入，與醫(yī)藥有關(guān)的各領(lǐng)域不斷產(chǎn)生大量的信息，傳統(tǒng)人工查找信息的方式已經(jīng)無法適應信息的急劇增長的速度。利用計算機技術(shù)快速獲取醫(yī)藥信息，是實現(xiàn)中醫(yī)藥信息現(xiàn)代化的必要手段。利用信息技術(shù)，對海量數(shù)據(jù)進行分析處理，提高經(jīng)驗轉(zhuǎn)化為概念和知識的速度，縮短中醫(yī)醫(yī)生積累經(jīng)驗的過程及促進中醫(yī)藥學的跨越式發(fā)展具有重要意義。

本文介紹的中醫(yī)藥信息采集系統(tǒng)，利用相應的信息技術(shù)，并針對特定的網(wǎng)站，其自定義的任務配置能夠批量而精確地抽取因特網(wǎng)目標頁中的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)，并轉(zhuǎn)化為結(jié)構(gòu)化的中醫(yī)藥信息記錄，保存在本地數(shù)據(jù)庫中，用于內(nèi)部使用或外網(wǎng)發(fā)布，實現(xiàn)中醫(yī)藥信息的快速獲取。

1 系統(tǒng)總體設計方案

1.1 系統(tǒng)需求分析

1.1.1 用戶需求

(1)針對傳統(tǒng)人工查找信息方式的缺陷，系統(tǒng)力求為用戶提供方便、高效、實用的功能。

(2)信息存儲介質(zhì)由有形的紙質(zhì)轉(zhuǎn)變?yōu)闊o形的數(shù)據(jù)庫，信息存儲方便、不易丟失。

1.1.2 性能需求

(1)數(shù)據(jù)精確性:數(shù)據(jù)要求必須精確、可靠、真實。進行操作請求時(如:查找、刪除、修改、添加)，應保證輸入數(shù)據(jù)與數(shù)據(jù)庫數(shù)據(jù)匹配。而在滿足用戶請求時，系統(tǒng)應保證所響應數(shù)據(jù)的查全率與查準率。

(2)安全性:要求提供身份驗證，只允許通過身份驗證的用戶使用本系統(tǒng)。并且通過驗證可以確認用戶身份，即確認用戶是否為系統(tǒng)管理員，只有系統(tǒng)管理員才可以對軟件進行數(shù)據(jù)的添加、刪除和修改操作，而普通用戶只能進行瀏覽數(shù)據(jù)等基本操作。

(3)時間特性:為滿足用戶對高效的要求，數(shù)據(jù)的響應時間、更新處理時間、數(shù)據(jù)轉(zhuǎn)換與傳輸時間、運行時間都應在1～2 s 之內(nèi)。

1.1.3 可行性分析

(1)技術(shù)可行性:系統(tǒng)采用的開發(fā)工具如MyEclipse、JAVA、SQL Server2000 等技術(shù)都已經(jīng)非常成熟，加上開發(fā)軟件的強大功能性與易用性，開發(fā)系統(tǒng)在技術(shù)上是完全可行的。

(2)操作可行性:系統(tǒng)提供完全圖形化的界面，操作簡單方便，用戶只需熟悉基本的電腦操作，無需進行專門的培訓，就可以滿足各層次的用戶需求。

1.2 系統(tǒng)的總體結(jié)構(gòu)設計

中醫(yī)藥信息采集系統(tǒng)主要是由管理維護、信息采集、新信息發(fā)布3 個子模塊構(gòu)成。3 個子模塊通過規(guī)范的數(shù)據(jù)結(jié)構(gòu)相聯(lián)系，但又具有相互獨立的特性，有利于分布式部署。系統(tǒng)總體功能模塊圖見圖1。

常規(guī)雙心鉆頭普遍存在擴孔鉆進效率低、擴孔能力差、擴孔后井徑不規(guī)則、扭矩波動幅度大、橫向不平衡力幅值大等問題，難以適應深井定向隨鉆擴孔鉆進[3-5]。其中，常規(guī)雙心鉆頭的總體橫向不平衡力常常超過鉆頭軸向力的20%[2,6-7]，在鉆井過程中會導致鉆頭領(lǐng)眼段切削齒磨損嚴重不均勻，而個別切削齒的提前失效會影響鉆頭的徑向布齒，降低鉆頭的切削效率，致使鉆頭領(lǐng)眼段切削齒的壽命提前終結(jié)。因此，需增強鉆頭的穩(wěn)定性以提高鉆頭的鉆進效率。本文將對定向隨鉆擴孔PDC鉆頭結(jié)構(gòu)優(yōu)化設計展開相關(guān)研究，以提高其穩(wěn)定性。

圖1 系統(tǒng)總體功能模塊圖Fig.1 System total function module

(1)管理維護模塊:包括用戶信息管理與醫(yī)藥信息管理兩個子模塊。用戶信息管理模塊的功能是實現(xiàn)對用戶的管理，對用戶信息進行添加、刪除和修改，該功能是實現(xiàn)操作權(quán)限驗證的重要環(huán)節(jié)，也保證了數(shù)據(jù)的唯一性。醫(yī)藥信息管理模塊主要實現(xiàn)對醫(yī)藥信息的管理，對中醫(yī)藥信息進行添加、刪除和修改，該模塊功能的實現(xiàn)既可以消除記載繁瑣、查找困難的問題，也方便對中藥信息的備份、攜帶，同時還具有不易遺失的優(yōu)點。

(2)信息采集模塊:負責采集用戶需求的信息。用戶通過綜合管理系統(tǒng)設置好規(guī)則后，在采集時便由信息采集系統(tǒng)類讀取規(guī)則并解釋成采集動作，采集動作按照一定的規(guī)范來對互聯(lián)網(wǎng)上的信息進行采集。這個系統(tǒng)是整個軟件的核心部分，所有有價值的信息都通過該系統(tǒng)來獲得，無效信息也是由這個系統(tǒng)來進行過濾，采集的智能化也是由該系統(tǒng)進行提供和實施。(3)信息發(fā)布模塊:該模塊主要實現(xiàn)醫(yī)藥信息的發(fā)布，對存儲在數(shù)據(jù)庫中還沒有發(fā)布的中藥信息進行發(fā)布、修改和添加。該功能的實現(xiàn)，可以方便普通用戶快速瀏覽已經(jīng)發(fā)布好的中醫(yī)藥信息。

1.3 主要功能模塊設計

信息采集模塊是中醫(yī)藥信息采集系統(tǒng)的核心，本文將信息采集模塊分為中藥名稱采集與中藥內(nèi)容采集兩個過程。中藥名稱采集過程是根據(jù)指定的目標網(wǎng)址，獲取此網(wǎng)頁中的中醫(yī)藥名稱信息，然后自動把信息保存到數(shù)據(jù)庫，也可以選擇性地通過Excel 導出;中藥內(nèi)容獲取過程是通過中藥名稱采集過程采集得到的URL 地址，進一步采集中藥的詳細信息，并把信息保存到數(shù)據(jù)庫或通過Excel 導出。信息采集的過程如圖2 所示。

圖2 信息采集過程圖Fig.2 Illustration of information collection process

2 系統(tǒng)開發(fā)平臺及關(guān)鍵技術(shù)

本系統(tǒng)基于B/S(Browser/Server，瀏覽器/服務器模式)架構(gòu)［1］，將MyEclipse 作為編程環(huán)境，采用主流的JAVA 編程語言與SQL Server 2000 數(shù)據(jù)庫，并結(jié)合了JavaScript、Ajax［2］、Xml 等技術(shù)進行開發(fā)研制。

MyEclipse 企業(yè)級工作平臺是對Eclipse IDE 的擴展，利用它我們可以在數(shù)據(jù)庫的開發(fā)、發(fā)布及應用程序服務器的整合方面極大的提高工作效率。JavaScript［3］是專為制作Web 網(wǎng)頁而量身定做的一種簡單的編程語言，它使得網(wǎng)頁和用戶之間實現(xiàn)了一種實時性、動態(tài)性、交互性的關(guān)系，使網(wǎng)頁包含更多活躍的元素和更精彩的內(nèi)容。Ajax 是一種創(chuàng)建交互式網(wǎng)頁應用的網(wǎng)頁開發(fā)技術(shù)，通過Ajax，JavaScript 可在不用重載頁面的情況下與Web 服務器交換數(shù)據(jù)，使因特網(wǎng)應用程序變得更完善、更友好。擴展標記語言xml 是一種簡單數(shù)據(jù)存儲語言，使用一系列簡單的標記描述數(shù)據(jù)，是當前處理結(jié)構(gòu)化文檔信息的有力工具。數(shù)據(jù)庫采用SQL Server 2000［4］，它具有高度的可伸縮性和可靠性，利用其管理磁盤存儲功能，可將數(shù)據(jù)負載平衡到磁盤陣列中，并且可利用并行線程來提高數(shù)據(jù)訪問速度。

3 系統(tǒng)的設計與實現(xiàn)

3.1 數(shù)據(jù)庫設計

根據(jù)系統(tǒng)功能設計的要求以及功能模塊的劃分，系統(tǒng)數(shù)據(jù)庫主要由以下4 個數(shù)據(jù)表構(gòu)成:

(1)管理員信息表:USER 表用于存儲管理員ID、姓名及其密碼。用戶在登錄時通過檢索用戶信息表來驗證用戶信息是否正確。

(2)藥物信息管理表:Manage 表用于存放藥物名稱、藥理作用、功能主治、用法等信息，根據(jù)指定需求從該表中選取信息用于發(fā)布或瀏覽。

圖3 系統(tǒng)數(shù)據(jù)庫模型E-R 圖Fig.3 E-R chart of system database model

(4)藥物URL 地址信息表:URL 表用來保存獲取得到的藥物ID、藥物名稱網(wǎng)址、藥物名稱及發(fā)布時間等信息。

系統(tǒng)數(shù)據(jù)庫的建模采用“實體-關(guān)系方法”(Entity-Relationship Approach)。根據(jù)實體-關(guān)系建模原理并結(jié)合表間完整性約束進行關(guān)聯(lián)，建立的系統(tǒng)數(shù)據(jù)庫模型的E-R 圖見圖3。

圖4 主要函數(shù)實現(xiàn)過程圖Fig.4 Illustration of implementation process of the main function

3.2 信息采集關(guān)鍵程序的實現(xiàn)

3.2.1 主要函數(shù)實現(xiàn)過程

信息采集部分是中醫(yī)藥信息采集系統(tǒng)的核心模塊，其主要函數(shù)實現(xiàn)的過程是:依據(jù)指定網(wǎng)址獲取網(wǎng)頁內(nèi)容生成html 文件;解析html 文件為xml［5］文件;文件輸出，轉(zhuǎn)化為DOM［6］樹;利用XSL 語言從xml 文件中提取出目標內(nèi)容。其過程如圖4 所示。

3.2.2 關(guān)鍵代碼實現(xiàn)

4 系統(tǒng)測試描述

以藥品資訊網(wǎng)(http://www.chemdrug.com)為數(shù)據(jù)源，在Win7 操作系統(tǒng)+IE8 瀏覽器+帶寬2MB/s 的測試環(huán)境下，對系統(tǒng)的各個模塊進行了反復的測試，測試結(jié)果體現(xiàn)了系統(tǒng)的準確、安全、高效等特性。下面主要描述信息采集模塊的測試結(jié)果:以管理員的身份登錄后，對目標網(wǎng)址進行了信息的采集，首先測試單位時間采集到的數(shù)據(jù)量，然后測試采集單位數(shù)據(jù)量需要的時間。測試結(jié)果顯示，數(shù)據(jù)的響應時間、更新處理時間、數(shù)據(jù)轉(zhuǎn)換與傳輸時間、運行時間都在3～4 s 之內(nèi)，體現(xiàn)了系統(tǒng)的高效性;系統(tǒng)提供完全圖形化的界面，操作簡單方便，用戶只需熟悉基本的電腦操作，無需進行專門的培訓，可以滿足各層次的用戶需求，體現(xiàn)了系統(tǒng)的普適性。由測試結(jié)果可以得出:該系統(tǒng)可以實現(xiàn)對中藥信息快速、方便的采集并對采集到的信息進行有效的管理，具有一定的實際應用價值，同時對于彌補傳統(tǒng)人工查找信息的方式存在的缺陷也具有一定的參考價值。

5 討論

中醫(yī)藥科技信息的共享與應用對中醫(yī)藥現(xiàn)代化的發(fā)展具有至關(guān)重要的作用。然而目前有關(guān)中醫(yī)藥的信息數(shù)據(jù)庫還不是很完善，為促進中醫(yī)藥信息數(shù)字化、促進中醫(yī)藥信息共享服務及促進中醫(yī)藥現(xiàn)代化發(fā)展，需要我們在現(xiàn)有的基礎上充分利用數(shù)據(jù)挖掘等技術(shù)，建立更加符合信息全面、更新及時、資源共享等現(xiàn)代要求的數(shù)據(jù)庫。本系統(tǒng)實現(xiàn)了對中藥信息的快速采集及有效管理，測試結(jié)果可行。但系統(tǒng)還存在一定的不足之處，比如中醫(yī)藥信息采集系統(tǒng)并沒有實現(xiàn)服務器、客戶端之間數(shù)據(jù)的動態(tài)交互，所以沒有達到遠程實時監(jiān)控的目的。另外，系統(tǒng)只能傳送與用戶需求有關(guān)的數(shù)據(jù)更新，但傳輸延遲還無法被控制在一定的時間內(nèi)，即沒有達到實時性要求，而在實際情況下實現(xiàn)這一點是很困難的，還需要進一步的研究。

［1］鄭雷雷，宋麗華，郭銳，等.B/S 架構(gòu)軟件的安全性測試研究［J］.計算機技術(shù)與發(fā)展，2012，22(1):221 -224.

［2］仰燕蘭，金曉雪，葉樺.ASP.NET AJAX 框架研究及其在Web 開發(fā)中的應用［J］，2011，28(6):195 -198.

［3］王暾.基于JavaScript 的網(wǎng)頁重定向作弊技術(shù)研究［J］.2012，40(3):86 -88.

［4］宋曉峰，陳博清.SQL Server 2000 中文版基礎教程［M］.北京:人民郵電出版社，2011.

［5］馮進，丁博，史殿習，等.XML 解析技術(shù)研究［J］.計算機工程與科學，2009，31(2):120 -124.

［6］張瑞雪，宋明秋，公衍磊.逆序解析DOM 樹及網(wǎng)頁正文信息提?。跩］.計算機科學，2011，38(4):213 -215.