999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

蒙古文網(wǎng)站搜集方法的研究

2014-07-02 00:26:00吳麗萍黃秋筱
無線互聯(lián)科技 2014年1期

吳麗萍 黃秋筱

摘 要:隨著科技的進步,互聯(lián)網(wǎng)已深入群眾,我國少數(shù)民族如蒙古族等也借助互聯(lián)網(wǎng)弘揚本民族文化,致力于實現(xiàn)民族語言文字信息數(shù)字化處理。蒙古文網(wǎng)站數(shù)量快速增多,能夠快速、全面、準(zhǔn)確的獲取蒙古文網(wǎng)站信息,對蒙古文信息處理發(fā)揮重要作用。為實現(xiàn)快速、全面、準(zhǔn)確的獲取蒙古文網(wǎng)站信息,利用元搜索引擎獲取包含蒙古文高頻語素的網(wǎng)頁URL,根據(jù)網(wǎng)頁文字編碼范圍判斷其是否屬于蒙古文網(wǎng)站,再利用各網(wǎng)站之間的鏈接獲取更多的蒙古文網(wǎng)站。

關(guān)鍵詞:蒙古文網(wǎng)站;元搜索;高頻語素;廣度優(yōu)先法

1 蒙古文網(wǎng)站現(xiàn)狀

Internet的飛速發(fā)展給整個社會帶來了一場意義深遠的信息革命,我國的互聯(lián)網(wǎng)技術(shù)也飛速發(fā)展,并在政治、經(jīng)濟、文化中發(fā)揮重要作用。但是由于我們國家地域遼闊,民族眾多,大部分民族擁有自己的語言文字,在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的大環(huán)境下,少數(shù)民族的語言文字信息數(shù)字化處理技術(shù)尚處于起步階段。近年來我國少數(shù)民族的網(wǎng)站數(shù)量在迅速增多,網(wǎng)絡(luò)資源日益漸增,蒙古文網(wǎng)站也如雨后春筍迅速增多,但是目前到底有多少蒙古文網(wǎng)絡(luò)資源,這些蒙古文網(wǎng)絡(luò)資源為大家提供什么服務(wù),哪些蒙古文網(wǎng)絡(luò)資源是蒙古族群眾關(guān)注的熱點,這些人們都還一無所知。欲回答這些問題,首要任務(wù)就是要知道有多少個蒙古文網(wǎng)站。雖然現(xiàn)在已經(jīng)有蒙古文網(wǎng)站大全,但這些大全的網(wǎng)站都是通過人為手動搜索出來的,由于工作量大、效率低,于是就不能夠及時更新網(wǎng)站數(shù)量及信息,從而導(dǎo)致出現(xiàn)搜集的蒙古文網(wǎng)站數(shù)量不全,網(wǎng)站信息錯誤等問題。人工搜集蒙古文網(wǎng)站的弊端百出,于是人們希望開發(fā)蒙古文搜索引擎。

2008年1月3日,內(nèi)蒙古首個蒙古文互聯(lián)網(wǎng)搜索引擎正式上線,這填補了蒙古文互聯(lián)網(wǎng)一直沒有搜索引擎的空白,但還存在許多缺陷,目前能搜集到的蒙古文網(wǎng)頁數(shù)量少之又少。獲得的蒙古文網(wǎng)站數(shù)量太少,原始資源不利于搜索引擎的發(fā)展。同時由于當(dāng)前蒙古文編碼不統(tǒng)一,對搜索引擎的技術(shù)要求變得更高,短期內(nèi)無法做到像中英文搜索引擎那樣包羅萬象。為解決目前存在的這一系列問題并為開發(fā)更好的蒙古文搜索引擎做鋪墊,我們先致力于搜集到盡可能全的蒙古文網(wǎng)站。

2 蒙古文網(wǎng)站搜集方法

2.1 使用元搜索引擎搜索蒙古文網(wǎng)站

搜索蒙古文網(wǎng)站可以用網(wǎng)絡(luò)爬蟲進行,但這種方法需要昂貴的網(wǎng)絡(luò)設(shè)備和大量的時間。鑒于蒙古文網(wǎng)站的數(shù)量還不是很多,我們將采用元搜索引擎的方法,即應(yīng)用著名搜索引擎(如GOOGLE、BAIDU等)的搜索結(jié)果搜集蒙古文網(wǎng)站,進而達到節(jié)約成本、提高工作效率的目的。使用這種方法具體操作分為以下三部分:

⑴獲得可能的蒙古文網(wǎng)頁URL。因蒙古文是拼音文字,由形如 等的語素構(gòu)成,在GOOGLE、百度、360搜索等多個搜索引擎中輸入各種不同蒙古文編碼的高頻語素,各搜索引擎將返回包含該語素并有可能是蒙古文字的網(wǎng)頁。雖然蒙古文其各種編碼的高頻語素都一樣,但由于蒙古文編碼較多,一些搜索引擎只能搜到一種或幾種蒙古文編碼的蒙古文網(wǎng)頁,并無法搜集到涉及全部蒙古文編碼的網(wǎng)頁,例如在GOOGLE中只能搜索到unicode編碼的蒙古文網(wǎng)頁,而蒙科立、賽音、明安圖等其他蒙古文編碼的網(wǎng)頁則無法搜索;在360搜索引擎中可搜索到蒙科立、unicode、賽音、布日古德、明安圖等編碼的蒙古文網(wǎng)站。因此在多個搜索引擎中輸入不同編碼的蒙古文高頻語素,其返回結(jié)果互補,這樣可避免遺漏所需要搜集的蒙古文網(wǎng)站。

獲得返回的包含蒙古文高頻語素的網(wǎng)頁后,獲取其URL并對這些網(wǎng)頁的URL進行一步步拆分,將其分為域名、子域名、子目錄、頁面URL,完成這些工作后將拆分后的URL子塊以域名為鍵,其他部分為值的字典形式存儲在數(shù)據(jù)庫中。例如在360搜索中輸入“ ”,獲得一個網(wǎng)頁鏈接http://ijilmuren.blog.163.com/blog/static/35654254200943163320156,接著此鏈接可拆分為ijilmuren.blog.163.com/blog,ijilmuren.blog.163.com和163.com。當(dāng)然這里拆分的時候需要注意部分頂級域名并不能區(qū)別各個網(wǎng)站,如mgwhw.com和talchir.com這類域名,如果拆分后仍以“.com”為鍵值,那么就會漏掉部分蒙古文網(wǎng)站或者有些多余的非蒙古文網(wǎng)站保存到數(shù)據(jù)庫中,導(dǎo)致結(jié)果不準(zhǔn)確。因此對于“.edu”、“.cn”、“.com”等這類域名,域名拆分的鍵值就不應(yīng)該只保留頂級域名,而應(yīng)保留其二級域名或三級域名,如talchir.com。

⑵判斷獲取的URL是否為蒙古文網(wǎng)頁。在含有URL的數(shù)據(jù)庫中逐一提取已經(jīng)拆分好的域名、子域名、子目錄和頁面的URL,獲取相應(yīng)的頁面內(nèi)容,采用正則表達式的方法提取出頁面文本并判斷網(wǎng)頁文字是否為蒙古文,若是蒙古文則保留并存儲其對應(yīng)的URL,若不是則放棄該URL。

判斷頁面文本是否為蒙古文有兩種方法,第一種是判斷網(wǎng)頁文字編碼所屬范圍是否在蒙古文編碼范圍內(nèi),從而判斷其是否為蒙古文網(wǎng)頁。具體操作為:先判斷頁面中蒙古文范圍內(nèi)的編碼數(shù)與文本總編碼數(shù)的比值m,當(dāng)m大于某個預(yù)先設(shè)定好的閾值A(chǔ)時,可認為該頁面文字屬于蒙古文,此時m值可作為判斷該頁面是蒙古文的可信度值。第二種是利用蒙古文高頻語素在蒙古文文本中出現(xiàn)的統(tǒng)計概率作為閾值,當(dāng)頁面中該語素出現(xiàn)的概率大于等于其統(tǒng)計平均值后,可認為該頁面文字為蒙古文。但使用此方法時由于單個高頻語素的出現(xiàn)概率太小,把這個小概率當(dāng)做閾值,實驗時可搜到的網(wǎng)頁很少,而且單個語素的編碼值還有可能是其他文字的編碼值,如漢字、英文的符號,這樣得出的蒙古文網(wǎng)站數(shù)量少且可信度不高,所以采用第一種方法更有效。

⑶獲取已得到的蒙古文網(wǎng)站的基本信息(如備案號、服務(wù)器所在地、可信度、在中文網(wǎng)頁中的排名等等)。

⑷完成蒙古文網(wǎng)站搜集,最后要做的是實現(xiàn)搜索機制與用戶的接口。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索軟件,高效率、多方式地從搜索軟件中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。

2 利用蒙古文網(wǎng)站之間的鏈接搜集并確定其他蒙古文網(wǎng)站地址(廣度優(yōu)先法)

廣度優(yōu)先搜集法(又稱寬度優(yōu)先搜索)是最簡便最常用的搜索算法之一,這個算法也是很多重要的圖的算法的Dijkstra單源最短路徑算法和prim最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想。廣度優(yōu)先搜索基本算法為:⑴從某個頂點出發(fā)開始訪問,被訪問的頂點作相應(yīng)的標(biāo)記,并輸出訪問頂點號;⑵從被訪問的頂點出發(fā),依次搜索與該頂點有邊的關(guān)聯(lián)的所有未被訪問的鄰接點,并做相應(yīng)的標(biāo)記;⑶再依次根據(jù)⑵中所有被訪問的鄰接點,訪問與這些鄰接點相關(guān)的所有未被訪問的鄰接點,直到所有頂點被訪問為止。

廣度優(yōu)先法是沿著樹的寬度遍歷樹的節(jié)點,如果發(fā)現(xiàn)目標(biāo),則算法中止。該算法的設(shè)計和實現(xiàn)相對簡單,屬于盲目搜索。在目前為覆蓋盡可能多的網(wǎng)站,一般使用廣度優(yōu)先搜索方法,也有很多研究將廣度優(yōu)先搜索策略應(yīng)用與垂直搜索中,其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)站具有主題相關(guān)的概率很大。

3 結(jié)束語

以前由于蒙古文編碼不統(tǒng)一,使得蒙古文搜索引擎只能搜到很少的蒙古文網(wǎng)頁,存在很大缺陷,對人們利用網(wǎng)絡(luò)獲取蒙古文資料造成極大的不便。雖然有蒙古文網(wǎng)站大全,但由于這些是人為手動搜集的蒙古文網(wǎng)站,也存在蒙古文網(wǎng)站基本信息更新速度慢,獲得蒙古文網(wǎng)站不全的問題。而搜集蒙古文網(wǎng)站的程序可以快速準(zhǔn)確獲得蒙古文網(wǎng)站及其基本信息,如備案號、服務(wù)器所在地、中文排名、世界排名、是否可訪問等,解決了獲取蒙古文網(wǎng)站數(shù)量不全、網(wǎng)站信息更新慢的問題。

此外,快速獲得齊全的蒙古文網(wǎng)站,利于人們更好的了解蒙古文網(wǎng)站和及其相關(guān)內(nèi)容,便于國家相關(guān)部門有效合理地管理和發(fā)展少數(shù)民族網(wǎng)站,進行少數(shù)民族語言信息處理,也為開發(fā)更好的蒙古文搜索引擎做好鋪墊。所以搜集蒙古文網(wǎng)站于國家,于蒙古人民都是很有必要的一項工作。

[參考文獻]

[1]確精扎布.關(guān)于蒙古文編碼的若干問題——與王升亮、嘎日迪、敖其爾先生商榷[J].內(nèi)蒙古大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2008,40(4):27-33.

[2]郭琰.元搜索引擎的關(guān)鍵技術(shù)研究及系統(tǒng)實現(xiàn)[D].南京理工大學(xué):南京理工大學(xué),2002.

[3]范道爾吉.蒙古文信息處理系統(tǒng)基礎(chǔ)研究[D].內(nèi)蒙古大學(xué),2006.

[4]張芳.基于專業(yè)搜索引擎的元搜索引擎的研究與實現(xiàn)[D].華中科技大學(xué):華中科技大學(xué),2009.

[5]白云莉.蒙古文信息處理平臺-蒙古文、錫伯文和滿文的文字輸入法的研究[D].內(nèi)蒙古大學(xué),2003.

主站蜘蛛池模板: 亚洲高清国产拍精品26u| 极品性荡少妇一区二区色欲| 国产精品视频免费网站| 成人日韩视频| 欧美三级不卡在线观看视频| 91九色最新地址| 久久五月视频| 四虎国产永久在线观看| 亚洲va在线∨a天堂va欧美va| 国产在线观看高清不卡| 在线观看亚洲精品福利片| 亚洲无码免费黄色网址| AV网站中文| 999国内精品久久免费视频| 亚洲无码在线午夜电影| 不卡午夜视频| 自拍偷拍欧美日韩| 日a本亚洲中文在线观看| 亚洲精品国产乱码不卡| 久久a毛片| 国产丰满大乳无码免费播放| 亚洲天堂成人| 国产在线观看精品| 亚洲成a人片7777| 热久久综合这里只有精品电影| www.狠狠| 国产综合精品一区二区| 亚洲国产成人自拍| 内射人妻无套中出无码| 97se综合| 91视频青青草| 在线日韩日本国产亚洲| 大乳丰满人妻中文字幕日本| 99久久精品美女高潮喷水| 午夜国产不卡在线观看视频| 亚洲第一福利视频导航| 欧美日本在线观看| 国产第一色| 亚洲欧美日韩中文字幕一区二区三区| 国产9191精品免费观看| 国产成人精品2021欧美日韩 | 日韩国产亚洲一区二区在线观看| a欧美在线| 久久成人免费| 福利国产微拍广场一区视频在线| 亚洲欧美天堂网| 亚洲精品视频在线观看视频| 国产精品漂亮美女在线观看| 国产在线无码av完整版在线观看| 在线观看网站国产| 在线观看视频一区二区| 欧美亚洲一区二区三区在线| av色爱 天堂网| 大香伊人久久| 99精品视频九九精品| 国产福利大秀91| 在线国产三级| 精品无码视频在线观看| 一区二区三区四区日韩| 欧美一道本| 国产精品午夜福利麻豆| 一区二区三区成人| 国产一区二区三区精品久久呦| 国产尤物jk自慰制服喷水| 欧美亚洲一二三区| 久久男人资源站| 欧美一级高清片欧美国产欧美| 亚洲精品男人天堂| 91av国产在线| 新SSS无码手机在线观看| 老熟妇喷水一区二区三区| 久久人搡人人玩人妻精品 | 国产欧美精品午夜在线播放| 精品国产www| 2021精品国产自在现线看| 喷潮白浆直流在线播放| 亚洲AⅤ综合在线欧美一区| 亚洲全网成人资源在线观看| 日韩少妇激情一区二区| 99re免费视频| 亚洲无码熟妇人妻AV在线| 97精品久久久大香线焦|