999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫藥信息搜索引擎的研究與初探

2015-12-31 00:00:00許潔梁國慶
醫學信息 2015年34期

摘要:基于中醫藥科研教學中對大數據的需求,本文針對如何在互聯網中快速獲得大量相關信息在技術層面進行了研究和探討。提出了以垂直爬蟲為基礎的中醫藥信息搜索系統的體系結構,在理論層面研究了爬蟲系統依賴的技術,包括語義分析、爬行算法以及正則表達。奠定了整個系統的理論以及架構基礎,為下一步的具體實現進行了有價值的先期鋪墊。

關鍵詞:爬蟲;語義分析;理論研究;正則表達;中醫藥

中醫藥是華夏先祖智慧的結晶,他們歷經千年,不斷傳承,延綿至今;如今,隨著大數據時代的腳步不斷臨近,傳統中醫中藥信息的承載和傳播,也逐漸從紙質古籍的代代相傳,演變為互聯網的分布式存儲以及幾何量級的搜索與復制。

為了應對這種發展的趨勢,如何能快速,準確,完整的從互聯網中采集所需要的中醫藥數據,進而對其挖掘分析,日益成為了廣大科研人員所面臨的一大問題。

因此,使用技術手段,使信息采集、數據挖掘的過程自動而高效,不僅能有效地減輕圖書館員的重復工作量,也能使信息采集數據挖掘的結果更加客觀。

在這種情況下,爬蟲技術開始走入了我們的視線。

1爬蟲技術概述

所謂網絡爬蟲,是一個從Web上下載網頁、并且自動從網頁中提取所需內容的程序。一般我們將爬蟲劃分為如下三個類型:

1.1批量型爬蟲 批量型爬蟲有比較明確的抓取范圍和目標,當爬蟲達到這個設定的目標后,即停止抓取過程。常見的目標包括抓取網頁的數量或者消耗的時間等。

1.2增量型爬蟲 增量型爬蟲特點是定期更新,由于在線網頁處于不斷變化中,而增量型爬蟲需要及時反映這種變化,因而必須持續不斷的抓取,既要抓取新網頁,又要更新已有網頁。通用的商業搜索引擎爬蟲基本都屬此類。

1.3垂直型爬蟲 垂直型爬蟲關注特定主題內容或者行業的網頁。垂直型爬蟲一個最大的特點就是:如何識別網頁內容是否屬于指定主題。它需要在抓取階段就能夠動態識別某個網址是否與主題相關,并盡量忽略無關頁面。

2中醫藥信息搜索系統中的爬蟲技術

顯而易見,中醫中藥,作為一個特定行業,只有垂直爬蟲的定義最為符合其信息采集的特性。因此,如何設計并構建一個適用于中醫中藥的,以垂直搜索為目的的網絡爬蟲系統,逐漸成為值得我們深入研究的課題。

2.1垂直爬蟲的技術原理 垂直搜索里,目標網站往往在某一領域具有其專業性,其整體網站的結構相當規范,并且垂直搜索只需要其中一部分具有垂直性的資源,所以垂直爬蟲相比通用爬蟲更加精確。

通常把爬蟲爬取資源分成三個步驟:url抓取、內容抓取、數據標準化及索引,以下是一般垂直爬蟲的工作流程:①首先確定需要抓取的目標網站,錄入站源表sitelist,然后爬蟲會讀取對應站點的正則解析規則。②根據事先制定的正則規則,篩選出資源url存入urllist表。③爬蟲從urllist表讀出url,存入一個同步的隊列中(同時將url做md5處理,用于去重),多線程下的每個爬蟲程序將從此隊列讀取url,然后爬取每個資源頁,并將提取的內容存入原始數據表。④數據標準化及索引模塊從原始數據表提取數據,進行進一步的規整、聚合,最終存入最終內容表中。

更新策略:①根據每個站點設定的url失效時間,定期的從數據庫抽取需要更新的資源url,加入步驟3的隊列中,進行資源爬取。②爬取的資源更新到數據庫中。

2.2爬蟲系統的先決技術和算法 由上一節可知,要實現中醫藥數據搜索系統,一個基于垂直爬蟲的數據采集服務系統是關鍵,而以下幾點無疑是要實現這個爬蟲系統的先決技術。

2.2.1中醫藥語義分析 所謂語義分析,就是對web頁面所包含的部分或者全部文字內容的含義進行分析,一般包括三個步驟:①分詞。提取一個完整的中文句子或者段落,根據一定的算法對其進行分詞;在這里我們可以自定義算法,或者調用現有的開源分詞組件,如,Lucene的分詞組件、ktdictseg等;分詞后將所有實詞(除去連接詞、語氣詞、介詞等虛詞)存入數組。②構建中醫藥語料庫。語料庫通常由書面語或口語的電子語言材料構成。經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。因此,根據收集的情報監測網站以及日常中醫藥情報服務中涉及的內容,可以收錄中醫藥、傳統醫學、補充替代醫學領域的專用詞匯,規模可以維持在1000個詞匯左右。③將分出的詞匯和語料庫匹配。匹配率若能高于基于某種算法某一閥值,則判定為具有基于語料庫的相關性。

2.2.2爬行算法 經典的爬取策略可以分為深度優先、廣度優先等幾種。

深度優先策略的目的是要達到被搜索結構的葉結點(無超鏈接頁面)。深度優先搜索沿著頁面上的超鏈走到不能再深入為止,然后返回到這個頁面,再繼續選擇該頁面中的其他鏈接。當不再有其他鏈接可選擇時,抓取結束。

廣度優先策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。該算法的設計和實現相對簡單。

由于深度優先在很多情況下會導致爬蟲的陷入(traPped)問題,目前在爬蟲開發中常見的是廣度優先算法。

在本系統的研究中,基于中醫藥的主題性,我們可以使用一種改進的基于語義分析的廣度優先算法來爬取頁面,具體思想如下:

首先,在爬取之前,需要對即將入列的url鏈接名稱進行分析,只有經過初步篩選的、符合中醫藥語義的url才會被加入待爬取隊列(urllist)中。

其次,在爬蟲保存頁面之前,對內容進行分詞分析,若分詞符合中醫藥語義達某一閥值,則認為該頁面內容符合中醫藥語義,判定為有效并保存。如此可有效降低無關網頁的數量。

2.2.3基于正則表達式的url分析 在編寫處理字符串的程序或網頁時,經常會有查找符合某些復雜規則的字符串的需要。正則表達式就是用于描述這些規則的工具。

在本文的研究中,我們需要編寫正則來匹配在頁面中提取的url,來判斷是否為系統所需的資源url,以便做下一步的分析。

3體系結構的設計及程序的邏輯分析

綜合以上章節,在體系結構方面,我們可以將整個中醫藥數據搜索系統劃分為兩個部分,一是對外展示以及提供搜索服務的客戶系統。二是對內提供工作管理以及后臺數據采集的數據服務系統。

3.1中醫藥數據采集服務系統 對于服務系統,其本質,就是本文第2章所述的,一種基于垂直爬蟲的信息采集系統。我們將它定位為整個中醫藥信息采集系統的核心,他承載著整個系統最核心的功能,例如基于廣度優先算法的爬蟲程序主體、基于正則的中醫藥行業資源url的篩選、中醫藥行業語義分析、以及對資源頁面的采集、整理、存儲和索引。

系統以CS模式進行構建,也就是說,任何需要對本系統進行管理的計算機必須安裝軟件包后才能具有管理、采集、更新的權限,這就杜絕了將管理端暴露在互聯網中的安全風險,從另一方面來說,雖然CS模式犧牲了一部分在管理上的便捷性,但是以此換來了系統管理的安全性和隱秘性。其系統架構見圖1。

圖1 系統模塊圖

由圖1可知,數據挖掘模塊,是中醫藥信息采集服務系統核心模塊,在系統運作時,對于該模塊,我們可以做如下設定:

第一步,從種子庫(sitelist)中選取一站點讀取首頁,通過爬蟲做三件事:①爬取頁面中的所有超鏈接,根據正則規則篩選出本站資源頁面的超鏈接存入待爬取列表(urllist),并記錄其父頁面以及深度;②保存頁面數據以及url至數據庫的原始數據表中(DataList);③非本站鏈接根據其語義分析結果,凡是符合中醫中藥類語義的鏈接存入待爬取站點列表(sitelist)。

第二步,爬取urllist列表中的每一個url,重復第一步。

第三步,根據事先設定,達到某一深度后停止爬取urllist。

第四步,在sitelist中選取下一站點,重復第一到第三步。

第五步,根據事先設定,在滿足某一條件后停止爬行。

其程序流程圖見圖2。

圖2數據采集模塊程序流程圖

由圖2可知,在整個數據采集模塊中,爬蟲處理程序,又是其中的一個核心功能,在系統運作時,其不斷地重復以上第一步中所有的步驟,其程序流程圖見圖3。

圖3 爬蟲運行時程序流程圖

在整個數據采集完成工作后,我們需要調用數據標準化及索引模塊對在數據庫中存放頁面內容的原始數據表(DataList)進行整理、歸檔以及索引,生成最終的內容表(FinalList),以供客戶系統調用。

3.2中醫藥數據采集客戶系統 對于客戶系統,不同于管理系統,其便捷性和通用性是我們首要考慮的因素,因此我們可以采用BS模式構建一個web服務系統,從而使得用戶可以在任何地點通過任何設備訪問中醫藥數據采集的頁面。

系統可以.Net為基本架構,以SQL-SERVER為頁面采集的存儲數據庫,在客戶發起訪問時,返回類似百度的搜索界面,客戶于搜索框內發起搜索,系統將搜索請求提交回服務端,并在內容表(FinalList)搜索,最后將結果以列表方式返回用戶瀏覽器界面。這就完成了一次用戶請求。

4結論

在當今信息化高速發展的今天,我們進行了在互聯網平臺中進行中醫藥信息數據挖掘研究工作的初步探索。

經過一系列的理論研究和局部試驗,我們發現,通過對該問題進行一系列的分解后,大致可以分為算法研究、體系結構分析、以及程序實現幾個方面,而程序實現由包括主函數構建、程序協同、以及平臺建設等步驟。

在本文中著重對算法研究以及體系結構分析進行了探討,在程序實現方面給出了大致流程和方向,奠定了整個系統的架構基礎,為下一步的具體實現進行了有價值的先期鋪墊。

編輯/孫杰

主站蜘蛛池模板: 老司机精品99在线播放| 国产区在线观看视频| 26uuu国产精品视频| jijzzizz老师出水喷水喷出| 女人18一级毛片免费观看| 国产国产人成免费视频77777| 无码精品一区二区久久久| 免费啪啪网址| 色综合成人| 国产成人乱无码视频| 久久女人网| 亚洲三级色| 欧美午夜久久| 午夜丁香婷婷| 国产成人精品在线1区| 自拍偷拍欧美日韩| 亚洲午夜18| 自慰高潮喷白浆在线观看| 欧美日韩精品一区二区视频| a色毛片免费视频| 国产sm重味一区二区三区| 欧美午夜视频在线| 国产专区综合另类日韩一区 | 国内精品久久人妻无码大片高| 久久a级片| 国产精品男人的天堂| 黄色网在线| 日韩午夜伦| 四虎永久在线| 不卡色老大久久综合网| 人人妻人人澡人人爽欧美一区| 成人午夜视频免费看欧美| 欧美高清日韩| 人妻一区二区三区无码精品一区| 天天激情综合| 国产欧美成人不卡视频| 永久免费无码日韩视频| 亚洲成年人网| 9啪在线视频| 婷婷激情亚洲| 国产91成人| 在线观看国产黄色| 2021国产精品自产拍在线观看 | 国产偷倩视频| www.亚洲一区| 99资源在线| 国产高清在线观看91精品| 91午夜福利在线观看| 久久婷婷五月综合97色| 另类专区亚洲| 2021国产精品自产拍在线| 天天爽免费视频| 欧洲熟妇精品视频| 久久99精品久久久久久不卡| 国产网站黄| 福利小视频在线播放| 亚洲色图欧美在线| 国产精品入口麻豆| 97视频在线观看免费视频| 国产麻豆另类AV| 日韩人妻无码制服丝袜视频| 日韩午夜片| 亚洲第一视频网| 亚洲乱码在线播放| 精品国产一区二区三区在线观看| 狠狠色狠狠综合久久| 国产va视频| 欧美在线精品一区二区三区| 亚洲欧美色中文字幕| 99re这里只有国产中文精品国产精品| 欧美不卡视频在线| 国产美女在线免费观看| 亚洲a级毛片| 一级毛片基地| 91免费国产在线观看尤物| 日本欧美成人免费| 国产毛片不卡| 91亚瑟视频| 亚洲三级影院| 欧美一级99在线观看国产| 久久亚洲综合伊人| 国产三级成人|