徐煒
摘 要:文章分析了“船舶救生設備”的教學現狀,提出了信息化課堂教學的重要性,并介紹了信息化課堂教學在船舶救生設備教學中的具體應用。
關鍵詞:搜索引擎;優化技術;爬蟲軟件
1 搜索引擎工作原理
1.1 搜索引擎原理
要了解搜索引擎優化技術,首先需要明白搜索引擎的工作原理。目前國內外的搜索引擎較多,例如谷歌、百度、雅虎、必應等等。雖然其具體的優化和排序算法有一定的差異,但是其基本原理大致相同,一共可以分為五個主要的步驟,分別為網頁的抓取、信息的提取、關鍵字的搜索、建立關鍵字索引以及網頁的排序。其中最為關鍵的一步就是對于網頁的提取。對于搜索引擎而言,其主要目的是對于互聯網上的網頁進行分析,而后結合用戶的搜索要求來實現匹配。而匹配的主要渠道則是通過用戶在搜索引擎的網站上輸入對應的關鍵字,搜索引擎在獲取關鍵字以后根據相應的優化匹配算法降互聯網上的網頁按照其自身的規則進行排序,從而最終展現在用戶界面上。
1.2 爬蟲程序
從上一小節的介紹中可以知道,對于搜索引擎而言,其最為主要的兩個部分是對于網頁的檢索和處理,其次則是搜索引擎的優化匹配算法。對于不同的搜索引擎而言其優化匹配的算法上可能存在一定的差異。例如用戶在google和百度上分別輸入對應的關鍵字進行搜索,由于其優化匹配算法的不同,其搜索的結果就可能出現不一樣的情況。
但是相對于優化匹配算法而言,構成搜索引擎運行關鍵的另一個部分,即網頁的檢索以及處理部分則是基本相同的。這部分的工作由兩個部分構成,第一是爬蟲程序完成對互聯網上網頁的檢索,第二則是對網頁內容的處理從而形成關鍵詞的索引。目前主流的搜索引擎大多采用爬蟲程序來完成互聯網上網頁的檢索。爬蟲軟件在工作的過程中,在對互聯網上的網頁進行檢索時主要對網頁的鏈接和內容進行分析。其具體如下圖1所示:
如上圖1所示,爬蟲軟件在對網頁進行處理的過程只能夠包含兩個主要的部分,第一是解析網頁中存在的鏈接,從而獲得其他互聯網上網頁的網址,為后續的網頁分析提供依據。否則不能找到新的網頁則失去了分析的對象,爬蟲程序也將終止。第二則是對于網頁的文本內容進行分析,了解網頁中文本描述的主體內容。需要說明的是,爬蟲程序對于搜索引擎而言是在后臺一直運行的一項程序,通過爬蟲軟件的不斷運行實現對于互聯網上網頁檢索的動態更新。無論是對網頁的內容進行更新還是對于網頁鏈接的更新(即新的網頁出現時,更新網頁鏈接)。對于不同類型的網頁而言,爬蟲軟件的處理上也存在一定的差異,例如對于新聞網站的網頁而言,特別是其首頁,網頁的網址和參數等都不會發生變化。但是網頁的文本內容上則經常會更新,因此爬蟲軟件在對這一類網頁進行分析時,來回瀏覽的頻率也會相對較高。
2 搜索引擎優化技術研究
2.1 對爬蟲軟件的影響因素
由上文對于搜索引擎工作原理的介紹可以知道,搜索引擎的工作基礎是爬蟲軟件對于互聯網上網頁的檢索和分析。因此影響爬蟲軟件瀏覽到互聯網網頁的因素都將影響搜索引擎對于網頁的排序。當爬蟲軟件對于互聯網上的網頁進行瀏覽時,如果網頁不能正常打開也不會立即影響到搜索引擎對于該網頁的排序,但是會產生漸變的影響。這也是為什么用戶在通過搜索引擎搜索關鍵字時,有時候搜索引擎提供的網站不能正常打開的原因。因為該網站雖然不能正常打開了,但是由于爬蟲軟件對于該網頁有歷史瀏覽記錄,而搜索引擎對于網頁的排序則主要是依據爬蟲軟件的歷史記錄來進行匹配的。因此網頁不能訪問后則會逐步降低搜索引擎對于該網頁的排序。
同理,影響爬蟲軟件訪問的因素還包括以下幾點:
1)網頁不能正常打開。當爬蟲軟件對于互聯網上的網頁進行瀏覽時,如果網頁不能正常打開也不會立即影響到搜索引擎對于該網頁的排序,但是會產生漸變的影響。這也是為什么用戶在通過搜索引擎搜索關鍵字時,有時候搜索引擎提供的網站不能正常打開的原因。因為該網站雖然不能正常打開了,但是由于爬蟲軟件對于該網頁有歷史瀏覽記錄。所以網頁不能正常打開的情況下,網頁的排序會逐漸落后,直至爬蟲軟件最終不再訪問該網頁。
2)頁面的內容設置。之前關于爬蟲軟件的工作原理進行過介紹。爬蟲軟件在對網頁進行訪問和分析的時候會采用一定的規則進行分析。因而不適應爬蟲軟件分析規則的網頁則不會將網頁需要表示的主題和內容反映給爬蟲軟件。因此搜索引擎在進行匹配時也不能與用戶實際搜索的關鍵字進行匹配。
3)超鏈接的錯誤。爬蟲軟件在進行網頁分析時,第一時間就會處理網頁中的超鏈接。因此超鏈接將直接影響到爬蟲軟件的效率和分析結果。如果網頁中的鏈接出現錯誤或者死鏈接,那么爬蟲則會陷入死循環中。在影響爬蟲軟件運行效率的同時也會影響到該網頁的排序。
2.2 關鍵詞位置與頻率的優化
目前互聯網網頁的傳輸是依靠網絡協議進行傳輸。而對應的網頁編碼和解碼則是需要根據既定的規則來進行編碼和解碼。為了保持互聯網跨平臺共享信息的優點則需要采用一種通用的語言可以讓各種不同操作系統或者平臺的軟件都可以較好的解釋網頁。因此則出現了HTML語言,這種語言是一種標準化的對象語言。其特點與XML數據庫相類似,HTML語言的核心思想是將網頁中所有的元素都轉換成一個個不同的對象,因此在對網頁進行解釋和編碼的過程中則可以非常明確的指導不同元素所代表的內容或者在網頁中的位置。
從目前的網頁組成來說,一般都會存在幾個主要的部分。第一是title,即整個網頁的標題。第二則是body,即整個網頁的主要部分,這這個部分包含了網頁中的主要內容,包含文字的敘述內容,或者是圖像化的圖片內容等等。通常來講爬蟲軟件在對網頁進行分析時,提取其關鍵字主要是依靠兩個方面來進行關鍵詞的判斷,第一部分就是根據title中的內容來分析該網頁的主體,第二部分則是根據網頁中body里含有的文字敘述來進行分析。
另外,爬蟲軟件在對網頁進行分析時,除了對于title的分析以外還會對于網頁中文字敘述進行分析。目前在這方面的分析算法中比較常見的方法則是關于文字處理的聚類算法等等。其中較為典型的則是DF-IFD算法。其原理是通過對于將不同網頁中的關鍵詞進行統計,而后在大量統計的基礎上建立不同類型文檔的典型特征向量。通過不同網頁中關鍵詞出現頻率的對比來提取最能表現一個網頁主體的關鍵詞,并將其作為其特征向量的“維度”。因此從這一方面來講影響網頁與搜索關鍵字排序結果的另一個主要因素則是關鍵詞出現的頻率。
關于通過提高頻率來改變網頁排序的方式較為常用,因此也出現了針對這種辦法的懲罰措施。一般而言,通過提高頻率來改變網頁排序主要是依靠關鍵詞的不斷堆砌,而懲罰措施則是針對這種關鍵詞的堆砌進行的一種懲罰。但是在合理的范圍內增加關鍵詞在網頁中出現的頻率依然可以改變該網頁在對應關鍵詞下搜索時的排序結果。
2.3 鏈接優化策略
超鏈接是爬蟲軟件在抓取網頁的主要途徑。如果整個互聯網上導入到該網頁的超鏈接越多,則該網頁被網絡爬蟲爬過的幾率則會大大提升,其排序的結果和權重也會相應的越大。這種方式被稱為外部導入方式的鏈接優化。其次,對于同一網站而言,其內部的鏈接如果足夠優化,那么網站內部的所有頁面之間都可以方便的進行互相訪問,而對應的不同網頁之間也會存在包含站內其他頁面的超鏈接地址,即在站內通過合理的外部導入實現了鏈接的優化。并且網絡爬蟲在對網站進行評價時有其一套評價辦法,同一網站的評估可以通過pagerank值來進行評估,并且在頁面跳轉的過程中可以將pagerank值直接帶入到站內的其他頁面中。
3 總結
本文對于搜索引擎的工作原理進行了介紹,指出網絡爬蟲程序是搜索引擎運行的關鍵。因此針對網絡爬蟲程序的優化方法可以達到優化網頁在搜索引擎中排序的目的。由此本文對于網絡爬蟲軟件的運行原理以及影響網絡爬蟲軟件抓取網頁的主要因素進行了分析。最后從關鍵詞優化和鏈接優化兩個方面提出了搜索引擎優化的主要辦法和措施。而這兩個方面的具體措施和方法則是下一步需要研究的重點。
參考文獻:
[1] 陳偉雄.基于元搜索的中文搜索引擎的研究與實現[M].北京:清華大學計算機科學與技術系,2014.
[2] JiaweiHan,Micheline Kamber著.范明,孟小峰譯.數據挖掘概念與技術[M].北京:機械工業出版社,2013:290-295.