摘 要:本文將著重對網絡信息檢索中關于數學查詢語言與索引進行研究分析,并提出一些建議。
關鍵詞:網絡信息檢索數學查詢語言
中圖分類號:G633.6文獻標識碼:A文章編號:1674-098X(2011)7(c)-0161-01
1 網絡信息檢索
1.1 網絡信息檢索系統產生的原因
現代計算機技術以及信息技術的不斷發展進步,網絡信息也迅速的增長,并且內容涵蓋了人類社會的各個領域。在人們用互聯網進行信息搜索的時候,由于網絡信息量大、范圍廣,導致各種信息就如同堆放在無人看管的倉庫中,凌亂不堪。在這種情況下,人們想要快速方便的找到自己所需要的信息,無疑是一種很大的困難。網絡信息檢索引擎應運而生,通過一定的方法和特殊的計算機程序,將計算機在網上搜到的材料進行統一的分類管理,為人們提供快捷便利服務的一種系統。
1.2 網絡信息檢索的工作原理
通過從互聯網上來獲取網頁,然后對所獲取的網頁內容進行分類處理,把所處理的網頁放入數據庫中,并且對數據庫中所包含的網頁進行統一的分類處理,人們在輸入關鍵詞進行搜索之后,信息檢索系統從存儲信息網頁的數據庫中找出與關鍵詞相符合的網頁,并自動將所搜索出來的網頁進行排序,這種排序是按照相關度數值進行排列的,相關度的數值越高,網頁的排名就越靠前,然后網絡檢索系統將搜索到的超級鏈接的地址和頁面的內容反饋給搜索的用戶。
1.2.1 通過全文進行檢索
根據網絡搜索結果的來源不同,全文搜索引擎又可以分為兩類:第一種是擁有自己的檢索程序,它能夠自行的建議存儲網頁的數據庫,在用戶搜索時,對于搜索結果直接從自己的數據庫中調用。例如: Google和百度。另一種是通過租用他人的數據庫,然后用自己所需要的格式進行搜索結果的排列。
1.2.2 通過目錄進行檢索
運用目錄進行索引,雖然也具有搜索的功能,但卻并不是真正的搜索引擎,只不過是按照目錄分類的鏈接網站來進行列表。用戶則可以不用去查找關鍵詞,直接通過分類目錄找到自己所需要的信息。目前新浪目錄搜索在目錄搜索中是最具有代表性的。
1.2.3 元搜索引擎
所謂的元搜索引擎就是指,在接受了用戶的搜索要求后,同時在多個搜索引擎上進行所需內容的搜索,然后將搜索的結果返回給用戶。在給用戶返回的結果排列上,有的會直接按照內容的來源進行結果的的排列,還有的用自己的規則對結果進行重新排列。
1.3 網絡信息檢索的方法
1.3.1 關鍵詞
在進行網絡搜索時,要準確、良好的運用關鍵詞。目前的網絡信息檢索系統的智能化程度不高,它只能夠在現有的數據庫中,查找所匹配的關鍵詞。
1.3.2 運用加減號
在搜索的關鍵詞前面,加入加號或者是減號,能夠更好的限定所要搜索內容的范圍,使得搜索到的內容更加準確。
1.3.3 運用雙引號
如果用戶想查詢的是一個詞組或者是多個漢字,那么用雙引號將所要查詢的內容括起來,這樣所搜索到的結果是最少的,也是最精確的。
1.3.4 搜索引擎的選擇
不同的搜索引擎由于設計目的和發展方向的不同,搜索出來的結果也有很大的不同。所以,用戶在對搜索出來的結果不滿意的情況下,可以嘗試運用多種搜索引擎。
1.3.5 邏輯詞
通過邏輯詞來輔助查找,可以進行更加復雜的搜索界定,使得搜索結果變得更加的準確。
2 網絡搜索的現狀
網絡搜索引擎的最大優點是:信息的覆蓋面大,信息更新換代快,而且搜索引擎能夠將它認為相關數值較高的檢索結果排列在搜索出來的結果前面,方便人們的瀏覽查閱。但是由于目前網絡搜索引擎在使用的信息檢索技術上智能水平有限以及對自然語言的理解能力也有一定的限制,導致網絡信息的檢索還存在著許多不足之處。
(1)網絡檢索的結果不夠精確。
(2)由于目前的網絡搜索引擎一般都采用關鍵詞檢索的方式,但是在許多情況下,用戶很難簡單地用關鍵詞或者是關鍵詞之間的組合來準確地表達自己真正需要的信息內容,表達困難導致了檢索的困難。
(3)目前的搜索引擎主要是將網頁的全部或者是部分內容下載到自己建造的網絡索引數據庫中,由于下載的頁面許多是無用或者是暫用的信息,既影響了檢索的速度,也增加了用戶檢索的負擔。
3 數學查詢與索引的研究
3.1 數學查詢與索引的現狀
目前的數字圖書館一般利用的存儲數學公式的格式,與計算機代數系統經常用的格式不同,需要經過格式的轉換,為方便不同的需要和需求,帶有數學公式的文檔一般都會采用多種方式來編碼,這樣就會造成資源的嚴重浪費,也不利于數學資源的檢索,使兩者不能相互溝通。在網絡數學搜索中,我們如果要識別不同格式存儲的數學公式,那么就要把不同存儲格式和不同表示方式的公式轉化為同一種格式來進行存儲和查詢。所以首先要進行格式的轉換,將其轉化為一致的表現形式,才能進行有效的對數學公式進行檢索和查詢。
3.2 數學公式查詢語言的研究
這個搜索表達方式相對于常規數學表達方式來說要更加的準確和清晰,具有較高的一致性。通過這種完善的語言檢索功能,使用戶可以得到具體、準確的語言查詢結果。這種語言查詢除了能查詢常規結構的查詢描述外,還要就有檢索雙重結構、虛幻結構的語言查詢語言表達方式,以完善查詢的表達力度。在數學搜索過程中,還有一個重要的問題就是相關度。所謂相關度,顧名思義就是檢索出來的內容與人們查詢條件之間的匹配程度。對于搜索引擎來說,檢索全率是很有難度的,所以目前搜索引擎系統對你搜索的精度是非常關注的。在進行語言搜索中,客戶搜索的語言和搜索得到的信息適用率的高低,對搜索引擎用戶來說具有重要的意義,同時也是考驗搜索引擎系統的重要標準,是技術的核心問題。
3.3 數學查詢語言的解決辦法
對于在同一數學公式中,也具有不同的語義、表達方式,得到的結果也不會相同,合理的采用基于語義的檢索可以實現對這些表達式的檢索。另一方面,為了更加明確客戶的搜索需求,檢索系統可以對不同需求客戶的搜索進行歷史記錄,記錄客戶的足跡,總結客戶的喜好,建立個人檢索日記。等下次客戶進行搜索時,系統會自動提示歷史足跡供客戶方便選擇。數學語言檢索中一個最重要的問題就是,判斷用戶的查詢與數據庫中存儲數據之間的等價性。現有傳統的搜索引擎之所以不能搜索數學公式和符號,另一個原因就是現有的語言查詢系統只能檢索文本資料,而無法識別和檢索數學公式和結構。對于數學的檢索中,不見要檢索到所要查詢的數學資料,還有檢索到與其相關、語義相近的數學資料。這一程序大大增加了檢索難度。所以,必須要解決的問題就是如何判斷用戶查詢與數據庫中存儲數據的等價性。
4 結語
總而言之,為了能夠更好的進行信息檢索,人們需要對網絡信息檢索系統進行深入的了解和認識,只有熟練的掌握搜索工具,并靈活的運用它,才能在目前信息繁多的網絡中,迅速的定位,得到自己需要的內容。
參考文獻
[1] 景珂.網絡數學搜索中的數學查詢語言與索引的研究[J].計算機軟件與理論,2009:20.
[2] 邢國軍,劉林霞.淺談網絡搜索引擎.[J].科技信息,2010(17):80.