倪晨,邱鵬,曹慧
(山東中醫藥大學理工學院,山東 濟南 250355)
隨著中醫藥研究的不斷深入,與醫藥有關的各領域不斷產生大量的信息,傳統人工查找信息的方式已經無法適應信息的急劇增長的速度。利用計算機技術快速獲取醫藥信息,是實現中醫藥信息現代化的必要手段。利用信息技術,對海量數據進行分析處理,提高經驗轉化為概念和知識的速度,縮短中醫醫生積累經驗的過程及促進中醫藥學的跨越式發展具有重要意義。
本文介紹的中醫藥信息采集系統,利用相應的信息技術,并針對特定的網站,其自定義的任務配置能夠批量而精確地抽取因特網目標頁中的半結構化與非結構化數據,并轉化為結構化的中醫藥信息記錄,保存在本地數據庫中,用于內部使用或外網發布,實現中醫藥信息的快速獲取。
1.1.1 用戶需求
(1)針對傳統人工查找信息方式的缺陷,系統力求為用戶提供方便、高效、實用的功能。
(2)信息存儲介質由有形的紙質轉變為無形的數據庫,信息存儲方便、不易丟失。
1.1.2 性能需求
(1)數據精確性:數據要求必須精確、可靠、真實。進行操作請求時(如:查找、刪除、修改、添加),應保證輸入數據與數據庫數據匹配。而在滿足用戶請求時,系統應保證所響應數據的查全率與查準率。
(2)安全性:要求提供身份驗證,只允許通過身份驗證的用戶使用本系統。并且通過驗證可以確認用戶身份,即確認用戶是否為系統管理員,只有系統管理員才可以對軟件進行數據的添加、刪除和修改操作,而普通用戶只能進行瀏覽數據等基本操作。
(3)時間特性:為滿足用戶對高效的要求,數據的響應時間、更新處理時間、數據轉換與傳輸時間、運行時間都應在1~2 s 之內。
1.1.3 可行性分析
(1)技術可行性:系統采用的開發工具如MyEclipse、JAVA、SQL Server2000 等技術都已經非常成熟,加上開發軟件的強大功能性與易用性,開發系統在技術上是完全可行的。
(2)操作可行性:系統提供完全圖形化的界面,操作簡單方便,用戶只需熟悉基本的電腦操作,無需進行專門的培訓,就可以滿足各層次的用戶需求。
中醫藥信息采集系統主要是由管理維護、信息采集、新信息發布3 個子模塊構成。3 個子模塊通過規范的數據結構相聯系,但又具有相互獨立的特性,有利于分布式部署。系統總體功能模塊圖見圖1。
常規雙心鉆頭普遍存在擴孔鉆進效率低、擴孔能力差、擴孔后井徑不規則、扭矩波動幅度大、橫向不平衡力幅值大等問題,難以適應深井定向隨鉆擴孔鉆進[3-5]。其中,常規雙心鉆頭的總體橫向不平衡力常常超過鉆頭軸向力的20%[2,6-7],在鉆井過程中會導致鉆頭領眼段切削齒磨損嚴重不均勻,而個別切削齒的提前失效會影響鉆頭的徑向布齒,降低鉆頭的切削效率,致使鉆頭領眼段切削齒的壽命提前終結。因此,需增強鉆頭的穩定性以提高鉆頭的鉆進效率。本文將對定向隨鉆擴孔PDC鉆頭結構優化設計展開相關研究,以提高其穩定性。

圖1 系統總體功能模塊圖Fig.1 System total function module
(1)管理維護模塊:包括用戶信息管理與醫藥信息管理兩個子模塊。用戶信息管理模塊的功能是實現對用戶的管理,對用戶信息進行添加、刪除和修改,該功能是實現操作權限驗證的重要環節,也保證了數據的唯一性。醫藥信息管理模塊主要實現對醫藥信息的管理,對中醫藥信息進行添加、刪除和修改,該模塊功能的實現既可以消除記載繁瑣、查找困難的問題,也方便對中藥信息的備份、攜帶,同時還具有不易遺失的優點。
(2)信息采集模塊:負責采集用戶需求的信息。用戶通過綜合管理系統設置好規則后,在采集時便由信息采集系統類讀取規則并解釋成采集動作,采集動作按照一定的規范來對互聯網上的信息進行采集。這個系統是整個軟件的核心部分,所有有價值的信息都通過該系統來獲得,無效信息也是由這個系統來進行過濾,采集的智能化也是由該系統進行提供和實施。(3)信息發布模塊:該模塊主要實現醫藥信息的發布,對存儲在數據庫中還沒有發布的中藥信息進行發布、修改和添加。該功能的實現,可以方便普通用戶快速瀏覽已經發布好的中醫藥信息。
信息采集模塊是中醫藥信息采集系統的核心,本文將信息采集模塊分為中藥名稱采集與中藥內容采集兩個過程。中藥名稱采集過程是根據指定的目標網址,獲取此網頁中的中醫藥名稱信息,然后自動把信息保存到數據庫,也可以選擇性地通過Excel 導出;中藥內容獲取過程是通過中藥名稱采集過程采集得到的URL 地址,進一步采集中藥的詳細信息,并把信息保存到數據庫或通過Excel 導出。信息采集的過程如圖2 所示。

圖2 信息采集過程圖Fig.2 Illustration of information collection process
本系統基于B/S(Browser/Server,瀏覽器/服務器模式)架構[1],將MyEclipse 作為編程環境,采用主流的JAVA 編程語言與SQL Server 2000 數據庫,并結合了JavaScript、Ajax[2]、Xml 等技術進行開發研制。
MyEclipse 企業級工作平臺是對Eclipse IDE 的擴展,利用它我們可以在數據庫的開發、發布及應用程序服務器的整合方面極大的提高工作效率。JavaScript[3]是專為制作Web 網頁而量身定做的一種簡單的編程語言,它使得網頁和用戶之間實現了一種實時性、動態性、交互性的關系,使網頁包含更多活躍的元素和更精彩的內容。Ajax 是一種創建交互式網頁應用的網頁開發技術,通過Ajax,JavaScript 可在不用重載頁面的情況下與Web 服務器交換數據,使因特網應用程序變得更完善、更友好。擴展標記語言xml 是一種簡單數據存儲語言,使用一系列簡單的標記描述數據,是當前處理結構化文檔信息的有力工具。數據庫采用SQL Server 2000[4],它具有高度的可伸縮性和可靠性,利用其管理磁盤存儲功能,可將數據負載平衡到磁盤陣列中,并且可利用并行線程來提高數據訪問速度。
根據系統功能設計的要求以及功能模塊的劃分,系統數據庫主要由以下4 個數據表構成:
(1)管理員信息表:USER 表用于存儲管理員ID、姓名及其密碼。用戶在登錄時通過檢索用戶信息表來驗證用戶信息是否正確。
(2)藥物信息管理表:Manage 表用于存放藥物名稱、藥理作用、功能主治、用法等信息,根據指定需求從該表中選取信息用于發布或瀏覽。

圖3 系統數據庫模型E-R 圖Fig.3 E-R chart of system database model
(4)藥物URL 地址信息表:URL 表用來保存獲取得到的藥物ID、藥物名稱網址、藥物名稱及發布時間等信息。
系統數據庫的建模采用“實體-關系方法”(Entity-Relationship Approach)。根據實體-關系建模原理并結合表間完整性約束進行關聯,建立的系統數據庫模型的E-R 圖見圖3。

圖4 主要函數實現過程圖Fig.4 Illustration of implementation process of the main function
3.2.1 主要函數實現過程
信息采集部分是中醫藥信息采集系統的核心模塊,其主要函數實現的過程是:依據指定網址獲取網頁內容生成html 文件;解析html 文件為xml[5]文件;文件輸出,轉化為DOM[6]樹;利用XSL 語言從xml 文件中提取出目標內容。其過程如圖4 所示。
3.2.2 關鍵代碼實現

以藥品資訊網(http://www.chemdrug.com)為數據源,在Win7 操作系統+IE8 瀏覽器+帶寬2MB/s 的測試環境下,對系統的各個模塊進行了反復的測試,測試結果體現了系統的準確、安全、高效等特性。下面主要描述信息采集模塊的測試結果:以管理員的身份登錄后,對目標網址進行了信息的采集,首先測試單位時間采集到的數據量,然后測試采集單位數據量需要的時間。測試結果顯示,數據的響應時間、更新處理時間、數據轉換與傳輸時間、運行時間都在3~4 s 之內,體現了系統的高效性;系統提供完全圖形化的界面,操作簡單方便,用戶只需熟悉基本的電腦操作,無需進行專門的培訓,可以滿足各層次的用戶需求,體現了系統的普適性。由測試結果可以得出:該系統可以實現對中藥信息快速、方便的采集并對采集到的信息進行有效的管理,具有一定的實際應用價值,同時對于彌補傳統人工查找信息的方式存在的缺陷也具有一定的參考價值。
中醫藥科技信息的共享與應用對中醫藥現代化的發展具有至關重要的作用。然而目前有關中醫藥的信息數據庫還不是很完善,為促進中醫藥信息數字化、促進中醫藥信息共享服務及促進中醫藥現代化發展,需要我們在現有的基礎上充分利用數據挖掘等技術,建立更加符合信息全面、更新及時、資源共享等現代要求的數據庫。本系統實現了對中藥信息的快速采集及有效管理,測試結果可行。但系統還存在一定的不足之處,比如中醫藥信息采集系統并沒有實現服務器、客戶端之間數據的動態交互,所以沒有達到遠程實時監控的目的。另外,系統只能傳送與用戶需求有關的數據更新,但傳輸延遲還無法被控制在一定的時間內,即沒有達到實時性要求,而在實際情況下實現這一點是很困難的,還需要進一步的研究。
[1]鄭雷雷,宋麗華,郭銳,等.B/S 架構軟件的安全性測試研究[J].計算機技術與發展,2012,22(1):221 -224.
[2]仰燕蘭,金曉雪,葉樺.ASP.NET AJAX 框架研究及其在Web 開發中的應用[J],2011,28(6):195 -198.
[3]王暾.基于JavaScript 的網頁重定向作弊技術研究[J].2012,40(3):86 -88.
[4]宋曉峰,陳博清.SQL Server 2000 中文版基礎教程[M].北京:人民郵電出版社,2011.
[5]馮進,丁博,史殿習,等.XML 解析技術研究[J].計算機工程與科學,2009,31(2):120 -124.
[6]張瑞雪,宋明秋,公衍磊.逆序解析DOM 樹及網頁正文信息提取[J].計算機科學,2011,38(4):213 -215.