999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web的動態(tài)語料庫構(gòu)建*——以中國政治新聞?wù)Z料庫建庫為例

2013-05-28 02:14:44韓朝陽
中國教育技術(shù)裝備 2013年23期
關(guān)鍵詞:文本

◆韓朝陽

作者:韓朝陽,碩士,上海杉達(dá)學(xué)院嘉善校區(qū)副教授,研究方向為語料庫語言學(xué)、計算機(jī)輔助外語教學(xué)(314100)。

網(wǎng)絡(luò)能為語料庫的構(gòu)建提供豐富實時的語料。由于不同網(wǎng)站的結(jié)構(gòu)不盡相同,網(wǎng)頁內(nèi)容又呈現(xiàn)結(jié)構(gòu)化和半結(jié)構(gòu)化特征,這使得如何從網(wǎng)絡(luò)汲取語料成為基于網(wǎng)絡(luò)構(gòu)建語料庫的首要問題。同時,如何對汲取后的語料進(jìn)行整合和組織,也是基于網(wǎng)絡(luò)構(gòu)建語料庫不容忽視的問題。以基于網(wǎng)絡(luò)構(gòu)建動態(tài)中國政治新聞?wù)Z料庫為例,從網(wǎng)站結(jié)構(gòu)分析、網(wǎng)頁下載以語料汲取的技術(shù)實現(xiàn)、語料的XML結(jié)構(gòu)化重組等方面,闡述如何在軟件的輔助下從中國日報網(wǎng)站自動汲取語料并構(gòu)建語料庫的實現(xiàn)過程。

政治新聞?wù)Z料庫不僅要具有時效性,而且要具有真實性和權(quán)威性。其時效性就是指在構(gòu)建語料庫時要及時采集那些實時新聞報道語料;真實性和權(quán)威性則要求采集的新聞?wù)Z料一定要出自權(quán)威機(jī)構(gòu)。

隨著現(xiàn)代信息技術(shù)的發(fā)展和普及,網(wǎng)絡(luò)(Web)已成為目前容量最大、速度最快的信息傳播平臺。網(wǎng)絡(luò)語料的時效性是傳統(tǒng)媒介(如報紙、期刊等)無法比擬的,網(wǎng)絡(luò)無疑應(yīng)為政治新聞?wù)Z料的主要采集地[1]。就政治新聞的權(quán)威性來講,目前,大家比較認(rèn)可的發(fā)布中國政治新聞英文報道的權(quán)威網(wǎng)站主要有新華網(wǎng)(English.news.cn)、人民網(wǎng)(English.peolopledaily.com.cn)和中國日報網(wǎng)(Chinadaily.com.cn)等[2]。

通過對這三家網(wǎng)站的分析比較,筆者發(fā)現(xiàn):1)就新聞的英文報道本身的來源看,這三家網(wǎng)站經(jīng)常互相引用,從而可只關(guān)注一個網(wǎng)站也能在一定程度上滿足語料采集抽樣的平衡性;2)目前只有中國日報網(wǎng)有一個專門報道中國政治新聞的頻道(china/politics),且每篇新聞報道的HTML頁面中還包含該篇報道的摘要、關(guān)鍵字等信息,而這些信息可為采集的語料提供更為豐富的標(biāo)注內(nèi)容。因此,筆者認(rèn)為,對于中國政治新聞?wù)Z料庫的創(chuàng)建,可以基于中國日報網(wǎng)的中國政治新聞頻道來采集語料。

本文將從中國日報網(wǎng)政治新聞頻道的結(jié)構(gòu)分析、網(wǎng)頁下載、語料汲取、語料XML結(jié)構(gòu)化重組等方面,詳細(xì)介紹如何基于該網(wǎng)站設(shè)計開發(fā)一個能夠?qū)崿F(xiàn)自動構(gòu)建動態(tài)實時中國政治新聞?wù)Z料庫的計算機(jī)軟件。

1 中國日報政治新聞頻道結(jié)構(gòu)特征分析

中國日報的中國政治新聞頻道(以下簡稱政治新聞頻道)采用“列項頁(list page)”和“具體內(nèi)容頁(content page)”的二層結(jié)構(gòu)模式進(jìn)行新聞內(nèi)容的導(dǎo)航。列項頁中列出每篇新聞的標(biāo)題,通過鼠標(biāo)單擊其中的一個標(biāo)題項,即可進(jìn)入包含該篇新聞詳細(xì)報道的具體內(nèi)容頁。該結(jié)構(gòu)模式也是目前其他新聞類頻道最常用的模式之一。有些學(xué)者又把“列項頁”稱為“多記錄頁”,“具體內(nèi)容頁”稱為“單記錄頁”[3]。

政治新聞頻道采用“先進(jìn)先出”的隊列原則,即該頻道始終只提供200個“列項頁”,除第1頁的URL地址為“http://www.chinadaily.com.cn/china/governmentandpolicy.html”外,其他頁面分別按照頁碼進(jìn)行有規(guī)則編排,如第2頁的URL(Uniform Resource Locator,指網(wǎng)頁的鏈接地址)為“http://www.chinadaily.com.cn/china/governmentandpolicy_2.html”,第3頁的URL為http://www.chinadaily.com.cn/china/governmentandpolicy_3.html。同理,第200頁的URL為“http://www.chinadaily.com.cn/china/governmentandpolicy_200.html”。以此為規(guī)律,可設(shè)計軟件實現(xiàn)自動生成每個“列項頁”的URL,并循環(huán)下載所有政治新聞頻道的“列項頁”[1]。

雖然不同網(wǎng)站“列項頁”的內(nèi)部結(jié)構(gòu)不盡相同,但一般情況下,同一個網(wǎng)站特別是同一頻道下的所有“列項頁”的結(jié)構(gòu)相同[4]。同樣,政治新聞頻道的200個“列項頁”的內(nèi)部結(jié)構(gòu)框架也是相同的,如每個頁面都只有12條列項(標(biāo)題),每個列項的html標(biāo)簽(tag)也相同等。因此,可設(shè)計軟件實現(xiàn)自動解析每個“列項頁”的內(nèi)容,從而批量獲得各個“列項頁”的所有政治新聞報道的標(biāo)題以及與這些標(biāo)題對應(yīng)的“具體內(nèi)容頁”URL。

同理,根據(jù)“具體內(nèi)容頁”的URL,可設(shè)計軟件實現(xiàn)自動獲得每個“具體內(nèi)容頁”。由于多數(shù)大型網(wǎng)站在上傳文本數(shù)據(jù)(如新聞報道的內(nèi)容)時一般都采用確定內(nèi)容格式的上載工具,所以這些同一類數(shù)據(jù)內(nèi)容在瀏覽器中展示時也會采用相同的HTML結(jié)構(gòu)格式。通過觀察分析,發(fā)現(xiàn)政治新聞頻道的“具體內(nèi)容頁”也沒有例外,它們同樣采用相同的HTML結(jié)構(gòu)格式來展示新聞內(nèi)容。因此,可設(shè)計軟件實現(xiàn)自動解析“具體內(nèi)容頁”的內(nèi)容,并汲取到目標(biāo)語料。

通過以上的觀察和分析,筆者認(rèn)為通過設(shè)計開發(fā)軟件來對政治新聞頻道提供的語料進(jìn)行自動汲取具有一定的可行性。下面是設(shè)計的通過軟件實現(xiàn)自動汲取語料并構(gòu)建中國政治新聞?wù)Z料庫的主要流程步驟:

步驟1:下載“列項頁”;

步驟2:汲取“列項頁”中的信息,創(chuàng)建“具體內(nèi)容頁”的URL列表;

步驟3:開始循環(huán)下載URL列表中每個列表項對應(yīng)的“具體內(nèi)容頁;

步驟4:汲取“具體內(nèi)容頁”中的有用語料信息;

步驟5:按照統(tǒng)一的XML結(jié)構(gòu)重新組合這些語料信息;

步驟6:把包含語料信息的XML文件保存到相應(yīng)的位置;

步驟7:判斷URL列表是否循環(huán)完畢,若沒有執(zhí)行完畢就繼續(xù)從步驟3開始,否則結(jié)束本次操作。

2 網(wǎng)頁下載

網(wǎng)頁下載是指軟件根據(jù)給定的URL,自動從網(wǎng)絡(luò)上把與該URL對應(yīng)的網(wǎng)頁內(nèi)容以數(shù)據(jù)流的形式下載到本地計算機(jī),然后以文本形式重新編碼并輸出,其機(jī)理為:1)軟件通過網(wǎng)絡(luò)向給定URL所在的服務(wù)器發(fā)出下載請求并與該服務(wù)器建立數(shù)據(jù)通道;2)服務(wù)器對下載請求驗證審核后,通過數(shù)據(jù)通道向軟件提供URL對應(yīng)網(wǎng)頁內(nèi)容的數(shù)據(jù)流;3)軟件接收數(shù)據(jù)流后,對數(shù)據(jù)流以文本的形式進(jìn)行重新編碼并輸出[1]。

在網(wǎng)頁自動下載模塊開發(fā)過程中,通過使用C#程序開發(fā)語言,編程并調(diào)用微軟.net平臺提供的HttpWebRequest[5]和HttpWebResponse[6]兩個類中的Create方法和GetResponse方法,實現(xiàn)軟件自動向中國日報網(wǎng)站服務(wù)器發(fā)出下載請求、建立數(shù)據(jù)通道以及接收數(shù)據(jù)流等功能,從而實現(xiàn)軟件自動從中國日報網(wǎng)站下載相應(yīng)的網(wǎng)頁。

在中國政治新聞?wù)Z料庫構(gòu)建過程中,主要有兩個地方需要調(diào)用網(wǎng)頁自動下載模塊,分別是下載指定的“列項頁”和下載指定的“具體內(nèi)容頁”。以下載政治新聞頻道的第一個列項頁為例,在建庫過程中,只需向網(wǎng)頁下載軟件模塊提供表示第一個列項頁的URL字符串(http://www.chinadaily.com.cn/china/governmentandpolicy.htm),網(wǎng)頁下載軟件模塊就會自動向中國日報網(wǎng)站的服務(wù)器發(fā)出請求并下載到該頁面的HTML文本[1]。

3 網(wǎng)頁內(nèi)容解析

由網(wǎng)頁下載軟件模塊下載的“列項頁”HTML文本和“具體內(nèi)容頁”的HTML文本不僅包含需要提取的信息,同時包含HTML標(biāo)簽以及其他信息(如廣告等)。這就要求開發(fā)能夠解析這兩種HTML文本的軟件模塊來自動汲取需要的內(nèi)容。HTML文本是有一定結(jié)構(gòu)的文本,找出它們內(nèi)部的結(jié)構(gòu)特征,就可編寫軟件,利用正則表達(dá)式自動提取出需要的文本內(nèi)容[1]。

圖1 HTML文本中一條新聞標(biāo)題及其相關(guān)信息表示方法

圖2

以圖1所示“列項頁”的部分HTML文本為例(2013年7月3日 20:08下載),很容易觀察到需要提取的每一條新聞的標(biāo)題以及其相關(guān)信息都是以“

  • ”結(jié)尾。由于該結(jié)構(gòu)在“列項頁”HTML文本的其他地方?jīng)]有出現(xiàn)過,因此可作為每一條新聞標(biāo)題的結(jié)構(gòu)特征。根據(jù)此特征,網(wǎng)頁解析軟件可利用正則表達(dá)式“
  • s+”把所有的新聞標(biāo)題及相關(guān)信息在HTML文本中自動匹配出來并進(jìn)行循環(huán)提取。

    以圖1所示為例,通過解析軟件,可以得到該條新聞相關(guān)信息:

    1)標(biāo)題是“Chinese VP meets with Ugandan PM”;

    2)對應(yīng)“具體內(nèi)容頁”的URL是“2013-07/03/content_16711033.htm”;

    3)發(fā)布時間是“2013-07-03 00:13”;

    4)內(nèi)容摘要是“Chinese Vice President Li Yuanchao met with Uganda's Prime Minister Amama Mbabazi on Tuesday”。

    將這些信息以XML節(jié)點的形式重組、整理(如圖2所示)并添加到一個存儲新聞列表的XML文件(以下稱為新聞列表XML)中,解析軟件則完成從當(dāng)前“列項頁”HTML文本中解析和提取一個新聞標(biāo)題及相關(guān)內(nèi)容的操作。通過循環(huán),解析軟件即可完成當(dāng)前整個“列項頁”HTML文本中所有新聞標(biāo)題及相關(guān)內(nèi)容的解析和提取。

    圖2中節(jié)點“f”的“id”屬性值“201307030013_16711033”是由發(fā)布時間字符串“2013-07-03 00:13”和URL中的“16711033”組合而成,這樣可以確保該新聞編號的唯一性;

    “download”屬性標(biāo)記該新聞的“具體內(nèi)容頁”是否已經(jīng)下載過,若已經(jīng)下載,該屬性值將設(shè)為“y”;“token”屬性用來表示該篇新聞所包含的總單詞數(shù)。軟件完成“列項頁”HTML內(nèi)容的下載、解析和提取后,就會自動基于新聞列表XML文件自動創(chuàng)建將要下載的“具體內(nèi)容頁”URL列表,并準(zhǔn)備開始下載這些URL對應(yīng)的“具體內(nèi)容頁”。解析“具體內(nèi)容頁”的方法與“列項頁”HTML文本內(nèi)容的方法基本一致,只是某些具體的操作如軟件調(diào)用的正則表達(dá)式、解析提取的內(nèi)容項等不同,因此關(guān)于“具體內(nèi)容頁”HTML文本內(nèi)容的解析本文就不再贅述[1]。

    4 用XML形式重新組合語料信息

    網(wǎng)頁下載軟件模塊根據(jù)新聞列表XML文件提供的“具體內(nèi)容頁”URL下載列表,逐一循環(huán)下載所有包含政治新聞內(nèi)容的“具體內(nèi)容頁”。當(dāng)對其中一篇的HTML文本進(jìn)行解析和提取完成后,并自動把提取結(jié)果和新聞列表XML文件中與該新聞對應(yīng)節(jié)點的內(nèi)容進(jìn)行整合,整合后的一篇以XML結(jié)構(gòu)的政治新聞?wù)Z料將以該新聞的編號作為文件名保存在計算機(jī)相應(yīng)的位置。

    以XML形式表示的一篇政治新聞?wù)Z料包括頭信息和正文兩大部分。頭信息是指這篇政治新聞?wù)Z料的一些基本屬性,如編號、發(fā)布日期、作者、關(guān)鍵詞、摘要、單詞總數(shù)等。在政治新聞XML文件中,頭信息保存在“head”節(jié)點中。正文是指新聞?wù)Z料的具體內(nèi)容,它記錄在XML文檔的“content”節(jié)點中。同時,正文信息的每個段落內(nèi)容都用節(jié)點“p”來標(biāo)注。若以日期作為語料庫的存儲架構(gòu),那么本篇政治新聞的XML文件,將會以“201307030013_16711033.xml”作為文件名被保存到計算機(jī)磁盤的“2013

    主站蜘蛛池模板: 欧美不卡视频一区发布| 亚洲中久无码永久在线观看软件 | 国产精品污视频| 妇女自拍偷自拍亚洲精品| 黄片在线永久| 99re精彩视频| 色综合天天操| 国产成人高清精品免费5388| 欧美特黄一级大黄录像| 最新国产精品第1页| 美女无遮挡被啪啪到高潮免费| 免费不卡在线观看av| 精品少妇人妻av无码久久| 99精品视频九九精品| 免费午夜无码18禁无码影院| 91高清在线视频| 日韩黄色大片免费看| 亚洲第一天堂无码专区| 视频在线观看一区二区| 毛片卡一卡二| 午夜无码一区二区三区在线app| 免费在线成人网| 欧美成人一区午夜福利在线| 国产69精品久久久久孕妇大杂乱| 国产对白刺激真实精品91| 五月天综合婷婷| 美美女高清毛片视频免费观看| 久久99蜜桃精品久久久久小说| 欧美日韩国产成人在线观看| 国产99视频免费精品是看6| 久久久久久尹人网香蕉 | 欧美第二区| 九九视频在线免费观看| 青草免费在线观看| 波多野结衣在线se| 天堂网国产| 成年女人a毛片免费视频| 欧美日韩精品综合在线一区| 91免费观看视频| 亚洲免费福利视频| 欧美亚洲另类在线观看| 露脸真实国语乱在线观看| 青青草原偷拍视频| 亚洲国产成人久久77| 精久久久久无码区中文字幕| 亚洲一区色| 日韩人妻无码制服丝袜视频| 成年人福利视频| 国产一级妓女av网站| 美女被躁出白浆视频播放| 国产成人三级在线观看视频| 8090午夜无码专区| 91欧美亚洲国产五月天| 91口爆吞精国产对白第三集| 国产欧美精品专区一区二区| 婷婷六月综合| 毛片基地视频| 91九色视频网| 国产欧美专区在线观看| 亚洲高清资源| AV熟女乱| 欧美不卡视频一区发布| 欧美日韩国产在线人| 国产激情无码一区二区免费| 91精品国产自产91精品资源| 亚州AV秘 一区二区三区| 国产在线91在线电影| 自慰网址在线观看| 亚洲天堂网2014| 中文字幕天无码久久精品视频免费| 精品国产福利在线| 新SSS无码手机在线观看| 国产91无毒不卡在线观看| 中文字幕久久波多野结衣| 国产69囗曝护士吞精在线视频| 亚洲三级a| 欧美一级夜夜爽| 中文字幕在线播放不卡| 国产无码制服丝袜| 色婷婷啪啪| 久久国产精品77777| 91视频青青草|