◆郝帥
現代社會互聯網已經融入人們生活的方方面面,各種信息資源充斥著人們生活的每個角落。隨著互聯網的發展,信息資源也在以指數級的速度發展。各種教育類的網站玲瑯滿目,卻使得學習者在網絡中獲取自己想要的信息變得困難起來。因此,尋找一種合適的檢索方法就變得尤為重要了。
在眾多的網頁資源之中,文本信息始終是最重要的一環,提出一個合適的方法,提取網頁中的文本信息,并能夠實現通過文本信息對網頁進行檢索,一定可以大大縮短用戶的搜索時間,并提高準確率。
萬維網技術 萬維網(World Wide Web),即通常所說Web,最早可以追溯到Tim Berners-Lee提出的“Distributed hypermedia systems engineering”,也就是分布式超媒體系統工程。這個由Berners-Lee于1980年建立的ENQUIRE,被公認為是現代萬維網的源頭。
經過20多年的發展,萬維網形成了一種獨特的工作機制,即Client/Server(客戶機/服務器)模式,這種機制的工作原理也較為簡單:首先用戶通過客戶端的軟件發送請求,客戶端的軟件會對客戶的請求進行初始化,然后將 初始化后的請求發送給服務器,服務器在收到請求之后,響應這一請求并將相關數據發送給客戶端。
萬維網是一種以DOM結構為基礎而建立的模型,早已成為當前網絡信息資源的主流。萬維網主要是以3個部分作為基礎的:首先是HTML,也就是超文本的標記語言;然后是HTTP,即超文本的傳輸協議;最后是URL,指的是資源定位符。WWW技術可以支持豐富的多媒體,而且管理簡便、實現簡單,還擁有超高的應用效率,已經成為網絡上最主要的應用之一,在教育領域應用十分廣泛。
超文本標記語言結構 目前,使用HTML(超文本標記語言)來描述網頁已經成為主流。作為一種使用簡單且兼容性、遷移性極佳的語言,其使用的“文檔格式定義”的概念,可以用于制作包含各種資源的網頁,并可以提供各網頁之間的鏈接。
HTML語言設計簡單,結構靈活,是Internet上最流行的標準格式。HTML文檔是以純文本文件形式存在的,主要包括4個部分的內容:標記,是指標簽符號及其組成元素,由成對出現的開始標簽和結束標簽組成;屬性,一般是對標簽進行提供單元的某些信息或補充說明;實體,用于表示被占用的特殊符號;注釋,用于標注并不會在客戶端顯示的內容。
HTML是一種非結構化與半結構化相結合的語言,雖然它將資源數據按照一定的方式進行了組織,但是由于資源本身的數據是非結構的,這就導致了其半結構化的結構模式。
中文分詞技術 中文分詞技術是中文信息處理的基礎與關鍵,實際上就是把一個句子切成若干個詞。和英文不同,中文的句子中詞語與詞語之間是沒有較為顯著的分隔的,所以處理起來要復雜得多。在該領域中已經有如下幾類算法:以統計為基礎的方法,首先對詞出現的頻率進行統計,不需要構建詞典,使用之前對統計好的結果詞進行切分,使用起來較為復雜且準確性得不到保證;以字符串的匹配為基礎的方法,該方法首先要構建一個分詞詞典,然后按照正向或者逆向的順序把一長串漢字中的特定長度的字符串與事先構建好的詞典中的詞進行比較,一旦發現詞典中有這個字符串,就把這個字符串切出來保存為一個詞。基于分詞速度與精度的考慮,本文采用的分詞算法是基于字符串匹配的分詞方法逆向最大匹配。
相關文本界定 網頁中出現的文本信息可進行如下劃分。
以上三個部分的內容,基本上涵蓋了這個Web的主要信息,利用這三個部分的內容信息,建立數據庫,就可以很好地為搜索提供幫助。
相關詞典構建 對于中文信息的處理,中文分詞詞典具有舉足輕重的作用。本文中所采用的分詞算法是逆向算法,所以構建逆向分詞詞典,詞典包含171 031個詞條,包含了日常生活中經常使用的普通詞和中小學各個年級、各類學科的關鍵詞;詞的排序是將詞中首位字相同的詞放在一起,然后按詞的長度由長到短排列。
系統結構設計 教育類網站文本信息提取過程主要包括兩大步驟:首先,搜索網絡中的教育類網站,下載教育類網站的網頁,并將網頁的相關信息存入到教育類網站網頁數據庫數據表中;其次,對網頁數據表里的網頁進行處理與分析,進一步提取相關文本,再對相關文本進行中文分詞等操作,從而分析提取出用于描述、標引教育類網站的信息,最終形成教育類網站的信息庫。本文中采用Visual C++6.0為開發平臺,數據庫采用Access 2003,系統結構如圖1所示。

圖1 教育類網站文本信息提取系統結構圖
系統各模塊的實現方法 教育類網站文本信息提取系統分為四大模塊。
1)教育類網站搜集模塊。該模塊的主要功能是通過使用網頁爬行器,在網絡中搜索下載教育類網站的網頁,并將所搜集到網頁的相關信息存放到教育類網站庫Edupage.mdb文件中。
2)網頁分析文本區域定位模塊。該模塊首先要對網頁的代碼進行處理,包括代碼轉換、頭部主體分割,對關鍵的文本進行定位。
3)文本信息提取模塊。該模塊的功能主要是提取相關文本,然后對文本進行分詞,從而獲得可以標注教育類網站的相關文本信息。
4)文本信息以及網頁地址存儲模塊。該模塊的主要功能是將前面第三個模塊得到的可以標注教育類網站的相關文本信息以及獲得相關文本信息的網頁的URL存入到相應的數據庫中,以建立教育類網站索引庫。
數據庫結構設計 為了存儲搜集的網頁信息以及提取的文本信息,建立名為Edupage.mdb的數據庫,教育類網站網頁數據庫數據表的邏輯結構如表1所示。

表1 教育類網站網頁數據庫數據表邏輯結構
除了上面的網頁庫數據表之外,還建立了另一個索引數據表用于存放教育類網站的相關信息,以及系統中所提取到的網頁中所包含的文本信息,該索引數據表就是本系統最終所要完成的結果。索引數據表完成后,用戶可以通過事先制作好的搜索界面輸入想要查詢的教育類網站的中文關鍵詞,就可以在系統最終生成的這一索引數據表中進行搜索,得到想要得到的結果。數據庫索引數據表的結構圖如表2所示。

表2 索引數據表的邏輯結構圖
利用之前介紹的教育類網站文本信息提取系統,筆者對163個教育類網站進行了測試,該系統可以很好地從這163個教育類網站中提取到相關文本并通過分詞形成索引數據表。測試結果表明,該系統可以幫助用戶在瀏覽教育類網站時縮短檢索時間,提高準確率。
[1]胡崧.HTML從入門到精通[M].北京:中國青年出版社,2002:9.
[2]DENG Cai, YU Shipeng, WEN Jirong, et al.VIPS: A Vision-Based Page Segmentation Algorithm[R].Microsoft Technical Report, M SR-TR-2003-79,2003.
[3]Raggett D.Clean up Your WEB Pages with HTML TIDY[EB/OL].[2000-8-4].http://www.w3.org/People/Raggett/tidy/.
[4]孟祥增,鐘義信.基于語義的WWW圖像檢索[J].現代圖書情報技術,2004(3):35-37.