999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

蒙古文網(wǎng)站搜集方法的研究

2014-07-02 00:26:00吳麗萍黃秋筱
無線互聯(lián)科技 2014年1期

吳麗萍 黃秋筱

摘 要:隨著科技的進步,互聯(lián)網(wǎng)已深入群眾,我國少數(shù)民族如蒙古族等也借助互聯(lián)網(wǎng)弘揚本民族文化,致力于實現(xiàn)民族語言文字信息數(shù)字化處理。蒙古文網(wǎng)站數(shù)量快速增多,能夠快速、全面、準(zhǔn)確的獲取蒙古文網(wǎng)站信息,對蒙古文信息處理發(fā)揮重要作用。為實現(xiàn)快速、全面、準(zhǔn)確的獲取蒙古文網(wǎng)站信息,利用元搜索引擎獲取包含蒙古文高頻語素的網(wǎng)頁URL,根據(jù)網(wǎng)頁文字編碼范圍判斷其是否屬于蒙古文網(wǎng)站,再利用各網(wǎng)站之間的鏈接獲取更多的蒙古文網(wǎng)站。

關(guān)鍵詞:蒙古文網(wǎng)站;元搜索;高頻語素;廣度優(yōu)先法

1 蒙古文網(wǎng)站現(xiàn)狀

Internet的飛速發(fā)展給整個社會帶來了一場意義深遠的信息革命,我國的互聯(lián)網(wǎng)技術(shù)也飛速發(fā)展,并在政治、經(jīng)濟、文化中發(fā)揮重要作用。但是由于我們國家地域遼闊,民族眾多,大部分民族擁有自己的語言文字,在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的大環(huán)境下,少數(shù)民族的語言文字信息數(shù)字化處理技術(shù)尚處于起步階段。近年來我國少數(shù)民族的網(wǎng)站數(shù)量在迅速增多,網(wǎng)絡(luò)資源日益漸增,蒙古文網(wǎng)站也如雨后春筍迅速增多,但是目前到底有多少蒙古文網(wǎng)絡(luò)資源,這些蒙古文網(wǎng)絡(luò)資源為大家提供什么服務(wù),哪些蒙古文網(wǎng)絡(luò)資源是蒙古族群眾關(guān)注的熱點,這些人們都還一無所知。欲回答這些問題,首要任務(wù)就是要知道有多少個蒙古文網(wǎng)站。雖然現(xiàn)在已經(jīng)有蒙古文網(wǎng)站大全,但這些大全的網(wǎng)站都是通過人為手動搜索出來的,由于工作量大、效率低,于是就不能夠及時更新網(wǎng)站數(shù)量及信息,從而導(dǎo)致出現(xiàn)搜集的蒙古文網(wǎng)站數(shù)量不全,網(wǎng)站信息錯誤等問題。人工搜集蒙古文網(wǎng)站的弊端百出,于是人們希望開發(fā)蒙古文搜索引擎。

2008年1月3日,內(nèi)蒙古首個蒙古文互聯(lián)網(wǎng)搜索引擎正式上線,這填補了蒙古文互聯(lián)網(wǎng)一直沒有搜索引擎的空白,但還存在許多缺陷,目前能搜集到的蒙古文網(wǎng)頁數(shù)量少之又少。獲得的蒙古文網(wǎng)站數(shù)量太少,原始資源不利于搜索引擎的發(fā)展。同時由于當(dāng)前蒙古文編碼不統(tǒng)一,對搜索引擎的技術(shù)要求變得更高,短期內(nèi)無法做到像中英文搜索引擎那樣包羅萬象。為解決目前存在的這一系列問題并為開發(fā)更好的蒙古文搜索引擎做鋪墊,我們先致力于搜集到盡可能全的蒙古文網(wǎng)站。

2 蒙古文網(wǎng)站搜集方法

2.1 使用元搜索引擎搜索蒙古文網(wǎng)站

搜索蒙古文網(wǎng)站可以用網(wǎng)絡(luò)爬蟲進行,但這種方法需要昂貴的網(wǎng)絡(luò)設(shè)備和大量的時間。鑒于蒙古文網(wǎng)站的數(shù)量還不是很多,我們將采用元搜索引擎的方法,即應(yīng)用著名搜索引擎(如GOOGLE、BAIDU等)的搜索結(jié)果搜集蒙古文網(wǎng)站,進而達到節(jié)約成本、提高工作效率的目的。使用這種方法具體操作分為以下三部分:

⑴獲得可能的蒙古文網(wǎng)頁URL。因蒙古文是拼音文字,由形如 等的語素構(gòu)成,在GOOGLE、百度、360搜索等多個搜索引擎中輸入各種不同蒙古文編碼的高頻語素,各搜索引擎將返回包含該語素并有可能是蒙古文字的網(wǎng)頁。雖然蒙古文其各種編碼的高頻語素都一樣,但由于蒙古文編碼較多,一些搜索引擎只能搜到一種或幾種蒙古文編碼的蒙古文網(wǎng)頁,并無法搜集到涉及全部蒙古文編碼的網(wǎng)頁,例如在GOOGLE中只能搜索到unicode編碼的蒙古文網(wǎng)頁,而蒙科立、賽音、明安圖等其他蒙古文編碼的網(wǎng)頁則無法搜索;在360搜索引擎中可搜索到蒙科立、unicode、賽音、布日古德、明安圖等編碼的蒙古文網(wǎng)站。因此在多個搜索引擎中輸入不同編碼的蒙古文高頻語素,其返回結(jié)果互補,這樣可避免遺漏所需要搜集的蒙古文網(wǎng)站。

獲得返回的包含蒙古文高頻語素的網(wǎng)頁后,獲取其URL并對這些網(wǎng)頁的URL進行一步步拆分,將其分為域名、子域名、子目錄、頁面URL,完成這些工作后將拆分后的URL子塊以域名為鍵,其他部分為值的字典形式存儲在數(shù)據(jù)庫中。例如在360搜索中輸入“ ”,獲得一個網(wǎng)頁鏈接http://ijilmuren.blog.163.com/blog/static/35654254200943163320156,接著此鏈接可拆分為ijilmuren.blog.163.com/blog,ijilmuren.blog.163.com和163.com。當(dāng)然這里拆分的時候需要注意部分頂級域名并不能區(qū)別各個網(wǎng)站,如mgwhw.com和talchir.com這類域名,如果拆分后仍以“.com”為鍵值,那么就會漏掉部分蒙古文網(wǎng)站或者有些多余的非蒙古文網(wǎng)站保存到數(shù)據(jù)庫中,導(dǎo)致結(jié)果不準(zhǔn)確。因此對于“.edu”、“.cn”、“.com”等這類域名,域名拆分的鍵值就不應(yīng)該只保留頂級域名,而應(yīng)保留其二級域名或三級域名,如talchir.com。

⑵判斷獲取的URL是否為蒙古文網(wǎng)頁。在含有URL的數(shù)據(jù)庫中逐一提取已經(jīng)拆分好的域名、子域名、子目錄和頁面的URL,獲取相應(yīng)的頁面內(nèi)容,采用正則表達式的方法提取出頁面文本并判斷網(wǎng)頁文字是否為蒙古文,若是蒙古文則保留并存儲其對應(yīng)的URL,若不是則放棄該URL。

判斷頁面文本是否為蒙古文有兩種方法,第一種是判斷網(wǎng)頁文字編碼所屬范圍是否在蒙古文編碼范圍內(nèi),從而判斷其是否為蒙古文網(wǎng)頁。具體操作為:先判斷頁面中蒙古文范圍內(nèi)的編碼數(shù)與文本總編碼數(shù)的比值m,當(dāng)m大于某個預(yù)先設(shè)定好的閾值A(chǔ)時,可認為該頁面文字屬于蒙古文,此時m值可作為判斷該頁面是蒙古文的可信度值。第二種是利用蒙古文高頻語素在蒙古文文本中出現(xiàn)的統(tǒng)計概率作為閾值,當(dāng)頁面中該語素出現(xiàn)的概率大于等于其統(tǒng)計平均值后,可認為該頁面文字為蒙古文。但使用此方法時由于單個高頻語素的出現(xiàn)概率太小,把這個小概率當(dāng)做閾值,實驗時可搜到的網(wǎng)頁很少,而且單個語素的編碼值還有可能是其他文字的編碼值,如漢字、英文的符號,這樣得出的蒙古文網(wǎng)站數(shù)量少且可信度不高,所以采用第一種方法更有效。

⑶獲取已得到的蒙古文網(wǎng)站的基本信息(如備案號、服務(wù)器所在地、可信度、在中文網(wǎng)頁中的排名等等)。

⑷完成蒙古文網(wǎng)站搜集,最后要做的是實現(xiàn)搜索機制與用戶的接口。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索軟件,高效率、多方式地從搜索軟件中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。

2 利用蒙古文網(wǎng)站之間的鏈接搜集并確定其他蒙古文網(wǎng)站地址(廣度優(yōu)先法)

廣度優(yōu)先搜集法(又稱寬度優(yōu)先搜索)是最簡便最常用的搜索算法之一,這個算法也是很多重要的圖的算法的Dijkstra單源最短路徑算法和prim最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想。廣度優(yōu)先搜索基本算法為:⑴從某個頂點出發(fā)開始訪問,被訪問的頂點作相應(yīng)的標(biāo)記,并輸出訪問頂點號;⑵從被訪問的頂點出發(fā),依次搜索與該頂點有邊的關(guān)聯(lián)的所有未被訪問的鄰接點,并做相應(yīng)的標(biāo)記;⑶再依次根據(jù)⑵中所有被訪問的鄰接點,訪問與這些鄰接點相關(guān)的所有未被訪問的鄰接點,直到所有頂點被訪問為止。

廣度優(yōu)先法是沿著樹的寬度遍歷樹的節(jié)點,如果發(fā)現(xiàn)目標(biāo),則算法中止。該算法的設(shè)計和實現(xiàn)相對簡單,屬于盲目搜索。在目前為覆蓋盡可能多的網(wǎng)站,一般使用廣度優(yōu)先搜索方法,也有很多研究將廣度優(yōu)先搜索策略應(yīng)用與垂直搜索中,其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)站具有主題相關(guān)的概率很大。

3 結(jié)束語

以前由于蒙古文編碼不統(tǒng)一,使得蒙古文搜索引擎只能搜到很少的蒙古文網(wǎng)頁,存在很大缺陷,對人們利用網(wǎng)絡(luò)獲取蒙古文資料造成極大的不便。雖然有蒙古文網(wǎng)站大全,但由于這些是人為手動搜集的蒙古文網(wǎng)站,也存在蒙古文網(wǎng)站基本信息更新速度慢,獲得蒙古文網(wǎng)站不全的問題。而搜集蒙古文網(wǎng)站的程序可以快速準(zhǔn)確獲得蒙古文網(wǎng)站及其基本信息,如備案號、服務(wù)器所在地、中文排名、世界排名、是否可訪問等,解決了獲取蒙古文網(wǎng)站數(shù)量不全、網(wǎng)站信息更新慢的問題。

此外,快速獲得齊全的蒙古文網(wǎng)站,利于人們更好的了解蒙古文網(wǎng)站和及其相關(guān)內(nèi)容,便于國家相關(guān)部門有效合理地管理和發(fā)展少數(shù)民族網(wǎng)站,進行少數(shù)民族語言信息處理,也為開發(fā)更好的蒙古文搜索引擎做好鋪墊。所以搜集蒙古文網(wǎng)站于國家,于蒙古人民都是很有必要的一項工作。

[參考文獻]

[1]確精扎布.關(guān)于蒙古文編碼的若干問題——與王升亮、嘎日迪、敖其爾先生商榷[J].內(nèi)蒙古大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2008,40(4):27-33.

[2]郭琰.元搜索引擎的關(guān)鍵技術(shù)研究及系統(tǒng)實現(xiàn)[D].南京理工大學(xué):南京理工大學(xué),2002.

[3]范道爾吉.蒙古文信息處理系統(tǒng)基礎(chǔ)研究[D].內(nèi)蒙古大學(xué),2006.

[4]張芳.基于專業(yè)搜索引擎的元搜索引擎的研究與實現(xiàn)[D].華中科技大學(xué):華中科技大學(xué),2009.

[5]白云莉.蒙古文信息處理平臺-蒙古文、錫伯文和滿文的文字輸入法的研究[D].內(nèi)蒙古大學(xué),2003.

主站蜘蛛池模板: 99久久99这里只有免费的精品| 国产91精品调教在线播放| 欧美色伊人| 91久草视频| 国产精品成人不卡在线观看| 日本亚洲成高清一区二区三区| 久久精品国产在热久久2019| 在线日本国产成人免费的| 四虎国产精品永久一区| 思思99热精品在线| 中文字幕 91| 久久国产精品娇妻素人| 一本大道东京热无码av | 欧美a在线视频| 精品91在线| 欧美福利在线观看| 欧洲亚洲欧美国产日本高清| 欧美激情视频一区| 亚洲人成在线免费观看| 欧美一区二区三区国产精品| 日韩av手机在线| 亚洲不卡影院| 国产探花在线视频| 99久久国产精品无码| 国产激情无码一区二区APP| 亚洲天堂精品在线观看| 日本一区高清| 内射人妻无码色AV天堂| 国产成人精品一区二区| 亚洲国产无码有码| 丁香五月激情图片| 国产在线啪| A级毛片高清免费视频就| 2022国产无码在线| 久久亚洲国产一区二区| 国产国产人成免费视频77777| 3D动漫精品啪啪一区二区下载| 欧美成人亚洲综合精品欧美激情| 激情视频综合网| 国产免费福利网站| 国产美女视频黄a视频全免费网站| 日本一区中文字幕最新在线| 性视频久久| 四虎国产精品永久在线网址| 亚洲一区第一页| 成人在线亚洲| 好吊日免费视频| 亚洲精品午夜无码电影网| 国产精品无码作爱| 91久久偷偷做嫩草影院| 久久美女精品| 91久久偷偷做嫩草影院电| 久久精品国产电影| 色老头综合网| 日韩免费毛片| 国产高清在线精品一区二区三区| 精品国产污污免费网站| 在线观看91精品国产剧情免费| 久久精品嫩草研究院| 久久免费观看视频| 欧美一区二区精品久久久| 欧美伦理一区| 四虎AV麻豆| 亚洲国产中文在线二区三区免| 国内精品免费| 91青青在线视频| 日韩精品亚洲人旧成在线| 国产成人无码综合亚洲日韩不卡| 嫩草影院在线观看精品视频| 久久人搡人人玩人妻精品| 超碰aⅴ人人做人人爽欧美| 99无码中文字幕视频| 午夜精品久久久久久久99热下载 | 国产一级毛片yw| 久久国产精品夜色| 亚洲欧美成人在线视频| 狠狠色香婷婷久久亚洲精品| 日韩天堂视频| 成人欧美日韩| 又黄又爽视频好爽视频| 婷婷六月激情综合一区| 日韩在线欧美在线|