摘 ?要:互聯網技術的飛速發展,使得信息呈現出一種爆炸式的增長趨勢,在這樣的時代背景之下,通過搜索引擎技術能夠讓民眾更加快速的在網絡之上搜尋到自己需要的內容。對此,本文淺談計算機搜索引擎智能化技術,期望能夠借此有效促進我國計算機搜索引擎的進一步發展。
關鍵詞:計算機技術;搜索引擎;智能化
中圖分類號:TP393.09 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)05-0102-03
Abstract:With the rapid development of internet technology,information shows an explosive growth trend. In such an era background,search engine technology can enable people to search the content they need more quickly on the internet. In this regard,this paper discusses the intelligent technology of computer search engine,hoping to effectively promote the further development of computer search engine in China.
Keywords:computer technology;search engine;intelligent
0 ?引 ?言
網絡時代的到來,促進了信息以及知識的網絡化傳播。隨著當前我國科學技術的飛速發展以及智能化技術的廣泛應用,搜索引擎智能化已經逐漸成為計算機搜索引擎的未來發展趨勢,本文通過對計算機搜索引擎的設計原理進行研究分析,并在此基礎之上淺談搜索引擎智能化特征,最后對計算機搜索引擎智能化技術進行了深入探索。
1 ?搜索引擎智能化技術的重要性
隨著大數據時代的到來,信息的傳播方式逐漸朝著網絡化方向發展,同時信息量也隨之大大增加,這使得民眾搜尋信息的效率大大下降。計算機搜索引擎是互聯網時代背景之下新興的一種信息檢索系統,其主要功能就是在大量的網絡信息之中搜索出特定的信息。在網絡時代背景之下,網絡中的海量信息根據關鍵詞的不同被劃分為不同的類別,民眾在使用計算機搜索引擎的過程中,只需要輸入關鍵詞,就能夠快速從海量信息之中搜尋出和關鍵詞相關的信息內容,獲得自身需要的信息。通過將智能化技術應用到計算機搜索引擎之中,可以提高檢索分析結果的準確性。
2 ?計算機搜索引擎及其智能化技術
2.1 ?搜索引擎的設計原理
搜索引擎從本質上來說是一種軟件程序,其主要是通過各種算法對網絡之上的種種數據信息以關鍵詞為核心劃分為一個個類別,最終形成一個巨大的數據庫。當民眾使用搜索引擎通過關鍵詞進行信息檢索操作時,與民眾輸入的關鍵詞相關的信息就會以一定的排名出現在界面之上,借此讓民眾能夠快速檢索到自身所需要的信息。
搜索引擎的主要功能就是信息檢索。初期設計的搜索引擎主要是企業單位用來檢索內部信息的數據庫,借此快速獲得企業單位的相關信息。隨著我國科學技術的日新月異以及網絡技術的發展與應用,計算機搜索引擎的應用范圍也隨之變得越來越大,搜索引擎的定義也因此發生了改變。
現今,計算機搜索引擎主要指的是檢索互聯網信息的軟件程序,根據索引形式的不同,可以將計算機搜索引擎劃分為綜合門戶搜索、鏈接評價搜索等多種類型。要想有效應用計算機搜索引擎,首先就必須要建立一個完善的索引數據庫,通過利用搜索引擎來對索引數據庫進行檢索,借此幫助民眾快速找到自身需要的信息資源。
第一點,信息分類機制的準確性不足。在對信息建立索引數據庫時,涉及到的信息量太多,因此無法實現對所有的信息資源進行完全整合,例如:關鍵詞出現的概率以及文檔類別和長度之間的平衡處理等多方面的內容,這些都會導致信息分類準確性不足的問題發生。
第二點,信息排序的準確性不足。現今,我國所有對搜索引擎進行的優化工作,其根本目的都是為了提升信息排序的準確性。但絕大多數SEO優化都存在問題,非常容易造成搜索引擎信息排序出現錯誤,對信息排序的準確性產生嚴重影響。
第三點,信息實時更新能力較差。造成這一問題的主要原因就是網絡上的信息量太大,當前我國搜索引擎相關硬件以及算法技術等多方面的內容無法實現實時檢索。
3 ?計算機搜索引擎智能化特征
要想有效解決當前我國計算機搜索引擎之中存在的問題,就必須要積極研究計算機搜索引擎智能化技術。通過該技術不僅能夠有效提高計算機搜索引擎的檢索能力,同時還能夠通過結合民眾的性別進行自動識別,對于民眾搜索的語義能夠結合情境快速進行信息過濾以及信息推送,借此將計算機搜索技術從原來的以關鍵詞為基礎的算法轉變成為以知識層為基礎的算法,甚至實現自然語言搜索服務。
隨著智能化技術的發展與應用,計算機搜索引擎智能化已經成為當前我國計算機搜索引擎未來發展的必然趨勢?,F今,我國民眾在使用計算機搜索引擎的過程當中,首先需要提供一個或者多個關鍵詞,之后通過搜索引擎在索引數據庫之中進行檢索,從而得到自己想要的信息。這種計算機搜索引擎具備一定的局限性,并且查找率也遠遠不足。通過將人工智能技術和計算機搜索引擎有機結合起來,設計一個智能化搜索引擎,可以有效提高用戶信息檢索的效率以及質量。相比于傳統計算機搜索引擎,智能化搜索引擎檢索精準度更高。計算機搜索引擎智能化特征主要有以下三個方面的內容:
第一點,智能屬性。通過搜索蜘蛛能夠自動完成遍歷互聯網,同時根據啟發式學習能夠實現自動索引信息,同時對索引的最終結果進行智能化分析,最終將具備價值的信息內容存儲到數據庫之中。
第二點,主動屬性。計算機搜索引擎能夠結合民眾的搜索行為,進而對用戶的實際需求以及興趣進行總結和分析,進而對反饋信息進行合理調整。
第三點,交互屬性。智能語音識別技術的發展與應用,使得計算機搜索引擎能夠和民眾之間實現語言交互,通過語言的語境來保障分詞的準確性,從而精準把握住民眾的實際搜索需求。
4 ?計算機搜索引擎智能化核心技術說明
現今,我國計算機搜索引擎智能化技術的核心主要分為以下兩個方面的內容:分別是語義理解技術以及機器翻譯技術。其中,機器翻譯技術的主要作用就是讓自然語言和計算機語言之間能夠自由轉換,從最開始的完全靠人為編寫規則的全機械翻譯方法,發展成為后來的SMT翻譯方法,時至今日的具有人工智能的神經機器翻譯NMT,在過去的日子,機器翻譯不斷迭代更新,尤其是在深度學習技術走入我們生活中后,機器翻譯的正確率得到了很大提升。基于深度學習的神經翻譯技術采用一種端到端(End-to-End)的結構,優點在于不再需要人為的去抽取特征。另外,網絡結構設計簡單,不需要進行詞語切分、詞語對齊、句法樹設計等復雜的設計工作。雖然需要極其復雜的訓練和大量的樣本統計,但是還是廣泛被Google等搜索引擎所采用。
從最初完全基于人為編纂規則的機器翻譯方法,到后來基于統計的SMT方法,再到現在神經機器翻譯NMT,機器翻譯技術在過去60多年的時間里一直不斷的更新,特別是在2012深度學習技術進入人們視野之后,機器翻譯的準確率不斷刷新,例如:在用戶使用自然語言進行檢索的過程當中,哪怕用戶使用的是母語如漢語去搜索非母語如英語的網絡頁面,通過機器翻譯技術也能夠將用戶的漢語翻譯成英語進而獲取搜索結果,并將最終結果之中的英語翻譯成中文再提供給民眾。語義理解技術主要是通過結合語言學來對民眾的語言以及語義進行準確理解。語義理解技術是NLP技術組成的一大重要部分,語義理解的核心除了要理解詞匯本身的含義,在文章行文中,在段落中,在句子中的語意都需考慮在內。語義理解可以分為三層結構:首先,應用層,包括行業應用和智能語音交互系統/技術應用,其次,NLP層面,主要以語言、文學、計算機語言等諸多學科為參照背景,對自然語言進行深度解析,抽取時間、因果、天氣、情緒等因素來判斷,最后,自然語言生成(NLG層),最終讓計算機“明白”人的語言,具有人的言語認知,把計算機數據轉化為自然語言。
4.1 ?自然語言語義理解技術
現今,我國語言識別技術已經發展的相當成熟了,但是要想通過該技術將識別的語言內容分解成為一個一個的關鍵詞,進而讓搜索引擎進行搜索獲得準確的回答,那么其難度將會大大增加,特別是我國語言博大精深,一個相同的詞匯在不同語境之下有著截然不同的含義。因此,自然語言理解技術必須要能夠結合不同的語境來對關鍵詞的含義進行精準把握,進而為民眾提供更加準確的信息內容。本文總結了以下兩種自然語言語義理解技術,分別是漢語分詞技術、短語識別技術。
第一點,漢語分詞技術。由于漢語之中詞語和詞語之間并不存在明確的界限,我國在沒有發明標點符號之前,經常出現因為語句斷句的不同,導致一句相同的句子有著截然不同的含義的情況發生。到現在,隨著標點符號的出現,這一現象少了許多,但是在一句話之中,停頓的地方不同也同樣會導致句子出現截然不同的含義。因此,必須要應用漢語分詞技術,來精準把握民眾語言的實際含義,有效防止因為識別錯誤導致最終檢索結果與民眾需要的內容南轅北轍的情況發生。例如:可以通過結合民眾語言之中每個詞語出現的頻率,之后通過正向、逆向最大匹配法對詞語的含義進行詳細劃分,有效防止歧義出現,有效保障分詞的準確性。我們以最大匹配法為例,最大匹配法很簡單,適用于對分詞要求不高的場景。
按照匹配的方向,最大匹配法分為:正向最大匹配(Forward Maximum Matching,FMM)、逆向最大匹配法(Reverser Maximum Matching,RMM)、雙向最大匹配法(Bi-directional Maximum Matching,BMM)。
以正向最大匹配法為例,設A為句子A的一個子串,詞表中最長詞的字數為m,正向最大匹配法的過程描述則為:首先初始化,指針p1指向句首位置,如果p1到達句子末尾,分詞結束;p2=p1+m;如果p1和p2之間的字符串A在詞表中不存在,p2--,重復此步驟;如果p1和p2之間的字符串A在詞表中存在,則A是一個詞,p1=p2+1,轉第一步驟。
第二點,短語識別技術。短語識別技術主要是對漢語分詞技術進行有效補充,基于基本名詞短語(base noun phrase,base NP)的識別是我們研究自然語言處理的重要方向,目的是從文本中提取單一、非嵌套式、不包含其他名字的短語(非復合短語),基本名詞短語含有豐富的語法和語意,識別結果可服務于搜索引擎。民眾通過搜索引擎進行關鍵詞查詢時經常使用多個關鍵詞組成的短語,其又被稱為長尾關鍵詞,并且長尾關鍵詞疊加會形成加長長尾關鍵詞,當出現這些情況時就必須要應用短語識別技術對這些關鍵詞進行正確分詞,借此有效保障民眾信息檢索的精準性。
4.2 ?人機界面交互智能技術
智能搜索引擎的人機交互最為顯著的特征就是和民眾之間的互動,其不再局限于搜索框之上的交互。一般情況下人機界面交互智能技術包含搜索提交技術的語言語音、搜索結果的智能化技術、搜索向導以及搜索行為技術等多方面的內容,GOMS模型認為,用戶使用交互界面執行任務時,都有一個目的,這個目的可以細分為許多子目標,為了完成每個子目標,可使用不同的操作和方法。如果實現目標的方法多于一種,用戶依據當前情境,利用GOMS提供的選擇規則選取適當的方法來實現目標。通過該技術能夠對模糊語義、精確語義以及自然語義等多種不同形式的語義進行查詢,同時這些智能化技術也是建設人機交互界面的核心所在。
4.3 ?智能搜索引擎云技術
智能搜索引擎的數據庫設立在全球服務器之中,為了有效提高檢索工作的效率以及質量,我國計算機搜索引擎之中采用的大多都是代理技術。隨著云技術的發展與應用,其能夠將全球服務器作為一個云系統,借此有效提高數據庫的調用效率。云,服務不在本地,云端服務器資源共享,云技術并沒有什么新的語言,而是在傳統的C++、Java基礎上發展的,最主要的區別不在發展上而在架構上,通常采用分布式架構。其中,比較火熱的云技術為:Hadoop,通過傳統的Java語言來實現對云計算產生的大數據的處理,Hadoop是一個分布式架構的解決方案,眾所周知云并沒有將計算壓力集于一身,而Hadoop能夠很好的將壓力分布于各個服務器之中,提升了云的處理速度,緩解了服務器的壓力,用戶可以共享更優質的云資源。云技術的飛速發展有效提高了計算機搜索引擎的算法速度,使智能搜索引擎的運行效率大大上升。
5 ?計算機搜索引擎智能化技術展現
智能搜索引擎雖然有著多種模式,但是這些模式的技術實現本質上都是相通的,主要分為以下兩種技術實現方式,分別是知識庫以及信息庫。
其中,知識庫決定了計算機搜索引擎智能化程度的高低,這主要是因為計算機搜索引擎智能化就是建立在知識庫的基礎之上的,通過知識庫能夠接受信息并對這些信息進行判斷以及提取分析,最終對信息內容進行總結,從而有效擴充知識庫的容量,實現精準的智能化搜索引擎服務,提高我國民眾檢索工作的效率以及質量;信息庫主要是互聯網和移動互聯網的總稱,信息庫是一種非機構化并且會不斷產生變化的信息空間。信息庫的主要作用就是能夠為知識庫的成長提供足夠的信息資源,有效促進知識庫的發展壯大,
6 ?計算機搜索引擎智能化技術的未來發展
計算機搜索引擎智能化技術的未來發展一方面需要解決當前搜索引擎技術之中存在的不足之處,另一方面應當積極融入智能搜索技術,借此有效提高民眾的搜索體驗。因此,計算機搜索引擎智能化技術的未來發展應當注意以下兩個方面的內容:
第一點,開發元搜索功能,并將其往云搜索以及集成化搜索的方向發展,借此有效提高資源的利用率,同時為民眾提供更加多元化以及全面的信息內容。
第二點,促進自然語言搜索的無縫對接,借此實現智能化自然語言、上下文關鍵詞搜索、智能化路徑查詢功能等多方面的內容,有效解決地域搜索問題。
7 ?結 ?論
隨著時代的發展,我國搜索引擎技術已經正式開始朝著智能化的方向發展了,我國網絡之中的信息質量將變得越來越高,垃圾信息將會變得越來越少,這將有效促進我國網絡的健康發展,為我國社會經濟的可持續發展打下堅實的基礎。
參考文獻:
[1] 楊宇,杜文斌,周亞軍.計算機搜索引擎智能化技術研究 [J].電腦迷,2017(7):20.
[2] 林勇.計算機搜索引擎智能化技術研究 [J].煤炭技術,2013,32(6):175-177.
[3] 崔道江,陳琳,李勇.智能檢索引擎中的網絡數據挖掘技術優化研究 [J].計算機測量與控制,2017,25(6):189-191.
作者簡介:劉波(1997.04-),女,漢族,遼寧沈陽人,本科,研究方向:計算機科學與技術。