宋超
摘要:本文對基于Web的數據庫技術進行探討,確定基于Web的數據庫系統總體框架,詳細劃分了系統的總體功能并進行分別闡述,通過MySQL數據庫設計信息的采集、分析以及管理過程,確定并設計了各模塊的主要功能,經實踐證實,該系統可實現對系統的有效管理,可自動跟蹤互聯網信息并進行分析與處理,自動生成網絡信息簡報,可滿足用戶對獲取信息的需求。
關鍵詞:數據庫;Web開發技術;系統開發
互聯網技術不斷發展的當前,通過網絡獲取信息具有方便、快速的優勢,因此人們已經習慣于這一信息獲取方式。本文探討了基于Web的數據庫開發,可實現自動跟蹤信息并獲取,分析信息并處理,生成網絡信息簡報,能滿足人們對信息獲取的需求。
1Web信息獲取方法
Web的圖形界面良好,容易操作,因此受到人們的廣泛認可。Web上的信息資源豐富,但是Web基于文件系統,通過靜態HTML文本形式儲存,不能像數據庫系統一樣來對數據進行管理。當前信息量不斷增加,為了為人們發現知識以及查詢信息提供便利,需要研制基于Web的檢索系統及索引。信息獲取系統主要有人工轉換與自動轉換這兩種。
人工轉換這一方法利用搜索引擎來實現對HTML等信息的獲取,經人工處理轉化為數據庫系統,之后進行查詢、排序以及索引,這種方法的優勢在于實現難度低,但是其重要缺陷在于周期較長,因此無法滿足迅速更新數據的要求。
自動轉換這一方法經系統在指定范圍內迅速且自動地發現新信息并進行自動更新,能通過搜索引擎實現數據的收集及索引。
2基于Web的數據庫開發
2.1系統總體設計
系統為數據庫、信息采集以及信息管理等服務器組成,通過互聯網實現彼此的通信。系統用戶有兩類,普通用戶以及系統管理員,從系統管理員的權限上劃分可以細化為管理員與操作員。普通用戶的權限只有對相應文檔進行查閱與下載;管理員可登錄信息管理服務器創建采集任務,在數據庫中存入配置數據。信息采集服務器讀取相關數據后,采集信息并分析,在數據庫中儲存分析結果。信息管理服務器對采集任務結果進行讀取并進行統計及展示。
2.2功能模塊設計
子系統主要包括采集系統、處理系統、分析體統以及信息服務系統。
(1)信息采集系統
該系統負責對指定范圍的網站內容進行定向采集,支持對PDF、word、PHP、ASP、JSP等動態內容的分頁抓取,將信息抓取后以文件的形式單獨保存,也可以在數據庫的字段中進行存儲,采集范圍可包括整站采集、板塊內容以及部分欄目采集。
通過關鍵詞:在常用搜索引擎中自動搜索數據,結合實際需要來設計采集狀態、采集數量、開始/結束采集等,具備對站點資源數據進行查找、刪除、增添以及修改等管理權限。自動識別采集主體后追蹤采集任務。
(2)信息處理系統
這一系統可以設置行業用戶信息類以及報紙類等不同網站站點的開發優先級,經專題設置實現對信息的管理及分類,結合需要來對數據進行增添、刪除、編輯以及整理等管理維護;以媒體的時間、來源等為依據對采集到的目標媒體數據進行分類統計,之后自動生成信息目錄;采用平面媒體報告的形式將所采集的信息展示出來;獲取地址中的指定內容;生成信息簡報并進行編輯;導入/導出需要采集的站點數據。
(3)信息分析系統
其功能包括對采集到的信息進行分析,對信息的主題進行識別,同時多角度跟蹤,通過熱詞以及聚類等方法來對發展趨勢進行判斷以及對所需內容進行提取。基于上述功能統計根據信息的站點分布以及采集時間統計,輸出圖表形式的報告。
(4)信息服務系統
其功能包括對系統賬戶以及權限進行管理,確定信息采集詞;監測專題采集,顯示信息詳情;對關注信息進行收藏。
2.3整體功能流程
根據專題出結果時,單個網站配置,之后在專題里設置關鍵詞:并添加網址,對篩選進行設置,對采集時間進行設置最后進入信息分析流程。當選擇根據詞頻出結果時,配置單個網站,確定模塊或者板塊,對篩選及采集時間進行設置,根據熱度給出關鍵詞:,最后進入信息分析流程。
進行信息分析時,信息的采集管理包括專題配置以及單個網站配置,確定信息采集管理之后選擇采集方式,采集方式包括專題采集、全網采集以及網站采集,之后進行定時采集,對內容進行識別,分析信息并進行統計,生成簡報。
分別根據網站采集以及專題采集做出配置說明,采集方式包括全網(主要是搜狗以及百度等潴留搜索引擎)、專題(主要是網站中的某個欄目板塊)以及網站(指定的網站)這三種,指定采集數據類型,當進行全網采集時,要求指定關鍵詞:。
信息采集效率直接影響系統的使用效果,因此采用多線程方式來設計總體信息采集框架以提高信息采集效率,各線程執行不同操作,從而充分利用資源。
2.4數據庫設計
由于系統設計大量數據表,需要通過多表分離的方式來對荷載進行均衡,為了解決數據的檢索及存儲問題,采用MySQL數據庫,其具有容易操作且高效、安全的優勢,能為信息的管理以及統計分析提供便利。建立字段并完善,從而做到準確、全面地查詢數據。
邏輯結構中,采集任務信息表最為關鍵,采用關聯設計的方法來對相關的關鍵數據表進行設計。
3系統主要功能
3.1用戶管理功能
正如上文所說,系統的用戶有管理員與普通用戶兩種。具體的權限劃分方面,系統管理員可管理各模塊的內容,設置采集時間權限等;操作員沒有權限操作用戶管理模式,但是有對其他模塊進行操作的權限;普通用戶只有對文檔進行查閱及下載的權限。根據這些需求,首先對系統模塊功能進行確定,對功能點進行排序標號,組合相應用戶類型,在數據庫的用戶權限表中進行儲存,將功能點的耦合度降低,基于此關聯匹配新用戶與指定用戶類型,從而配置用戶權限。
3.2采集及分析功能
分析需要采集的網站,基于此定義信息采集規則、處理流程。在網站的對應目錄下自定義配置文件,編寫對應網站的處理代碼。讀取采集任務時,先與數據庫連接,之后進行SQL語句的編寫。采集信息時,對采集任務的網站模塊ID、時間間隔、關鍵詞以及采集方式等進行解析讀寫,基于此將采集線程開啟,執行采集任務。當成功采集結果主要內容時,先以文章的位置為依據來編寫正則表達式,過濾結構化標簽,之后再提取文章主要信息。分析信息時,過濾文本無用符號,先建立系統通用詞庫,再通過調用功能去除文本通用詞,最后采用TextRank~法對關鍵詞進行提取,信息采集階段已經在數據庫中存放了標題,處理階段已經在磁盤上存放了正文,依次讀取文章信息,通過算法分析關鍵詞,待相同采集任務相關的文章都已經分析完畢時,提取熱度最高的五個詞,這些詞就是關鍵詞。
4系統測試
通過黑盒測試法來測試該系統的主要功能模塊的主要功能,進而檢測該系統穩定性與實用性。經測試證明,系統管理員能有效管理系統,能以用戶的需求為依據設置信息采集的目標站點、時間間隔以及主體,能通過多角度跟蹤主題的后續發展,且該系統在信息的采集、讀取以及分析方面表現良好,可通過平面媒體報告的形式將結果呈現給用戶。該系統的拓展性以及穩定性良好,可投入使用。
5結束語
為了能夠滿足用戶的需求,本文對基于Web的數據庫技術進行探討,與Web技術以及HTTP協議相結合確定基于Web的數據庫系統總體框架,詳細劃分了系統的總體功能并進行分別闡述,基于系統整體拓撲結構,通過MySQL數據庫設計信息的采集、分析以及管理過程,確定并設計了各模塊的主要功能,最終經實踐證實,該系統可實現對系統的有效管理,可自動跟蹤互聯網信息并進行分析與處理,自動生成網絡信息簡報,可滿足用戶對獲取信息的需求。