999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文獻計量的我國搜索引擎研究現狀和熱點分析

2012-04-29 00:00:00王燕平
現代情報 2012年7期

摘要:運用文獻計量的方法對我國搜索引擎領域的相關文獻進行多角度的定量和定性分析,明晰搜索引擎研究領域的主要研究機構、核心作者和核心期刊,并通過論文關鏈詞和主題分析,發現目前的研究熱點主要集中于4個方面:(1)搜索引擎的基本原理和關鍵技術;(2)元、垂直、個性和智能等4種搜索引擎研究;(3)搜索引擎的應用及商業盈利;(4)搜索引擎相關的知識產權等法律問題4個方面。

關鍵詞:搜索引擎;文獻計量;研究現狀;熱點

中圖分類號:G250.25 文獻標識碼:A 文章編號:1008-0821(2012)07-0068-06

近年來,由于網絡和信息技術的快速發展,互聯網上的信息成爆炸式的增長,網絡成為了人們發布和獲取信息的重要渠道,然而網絡信息過于分散和無序的分布使得用戶獲取信息遇到很大困難。在這種背景下,搜索引擎提供的信息服務方式也越來越重要。搜索引擎是一種用于幫助因特網用戶在互聯網上查詢信息的搜索工具,它以一定的策略在因特網中發現、搜集信息,并對搜集的信息進行加工整理和組織存貯,為用戶提供檢索服務,從而起到信息導航的作用。搜索引擎產生于20世紀90年代。產生的時間雖不長,但已經在學術界、商業界以及人們的日常生活中發揮了巨大的作用,根據中國互聯網信息中心2010年7月發布的《中國互聯網絡發展狀況統計報告》第26次調查統計報告顯示搜索引擎用戶規模已達3.2億人在各類網絡應用使用率中的排名位居第三,這使得網絡搜索引擎的研究成為當前國內外研究的熱點。為了解我國近年來在該領域的研究現狀、熱點以及分析其發展趨勢,筆者擬用文獻計量的方法對我國搜索引擎領域的相關文獻進行以定量分析。希冀得出一些有益的結論,為該領域的研究提供借鑒。

1、數據來源和研究思路

1.1 數據來源

采用清華同方的中國知識資源總庫(CNKI)中的數據庫之一“中國學術期刊網出版總庫”作為數據來源,文獻發表時間截止到2011年底,檢索時間為2012年1月,以“題名”為檢索途徑,以“搜索引擎”為檢索詞進行檢索,得到檢索結果為3814條數據。除去20條為各類研討會征稿通知,剩余3794條為和搜索引擎相關的文獻數據。

1.2 研究思路

本文首先采用文獻計量方法對相關文獻的數量、著者分布、期刊分布、主要研究機構進行分析以揭示研究現狀,然后對數據進行抽樣,選取發表時間為近五年即2007-2011年的核心期刊論文,對其所研究的主題內容進行分析從而揭示出該領域的研究熱點及發展趨勢。主要利用CNKI自帶的檢索結果分組和Excel進行數據統計。

2、文獻調研與分析結果

2.1 文獻信息量統計

發表文獻的數量在一定程度上代表了某個領域的研究水平與發展趨勢。圖1所示的是1996-2011年16年間的文獻量,其中2011年的數據可能還有部分文獻沒有上傳到網上,估計全部數據應比2010年數據相差不多。從圖中可以看出從1996-2004年是搜索引擎相關的論文的迅猛增期,在這個數據庫中從1996年才出現的搜索引擎相關文獻,到2004.年已經迅猛發展到300多篇,此后發文量進入穩步發展期,從2007年有一個發展高峰,2008-2009年達到頂峰,從2010年略有下降。應該是進入又一穩定發展時期??疾槲墨I內容可知,搜索引擎的發展已經從誕生、迅猛發展、平穩發展,進入專門化深入化研究。這也表明對搜索引擎這一領域研究的逐步成熟。據此可以預見在未來一段時間內,搜索引擎研究仍將是我國學者關注的熱點之一。

2.2 論文著者統計分析

對于作者發文量的統計分析可以識別某研究領域的高產作者。本文選取發文量5篇以上的作者作為高產作者,共31人,共發文211篇如表1所示。

對高產作者發文量的統計中發現很多作者是合著者,我們知道第一作者是論文的主要責任人和撰寫人,選取以第一作者身份發表論文的作者統計如表2所示。

對論文被引頻次的統計可反映其及學術影響力。截止檢索日被引次數前十的高被引作者如表3所示。

被引頻次排在第一的是來自華東理工大學的陳樹年教授,他是我國著名情報檢索語言專家,長期從事檢索語言的研究、教學和實踐工作,在分類法、主題法以及網絡信息組織研究領域有較高的造詣。從表2和表3我們也可以看出高產作者和高被引作者基本不一致,這說明雖然近年來對搜索引擎的研究比較熱門投入到這一領域的專家也非常多,但專注于此的人并不多。高產并且高影響力的專家還顯缺乏。其中只有張衛豐教授是既高產又高被引的作者,他主要從事Web應用技術、模式分類、搜索引擎技術、人工智能、機器學習、數據挖掘以及信息獲取等方面的研究,是年輕一代的專家。

2.3 高產機構分析

發表論文在20篇以上的高產機構如表4所示:

從論文數量上看,武漢大學以80篇的數量排在第一位。排在第二的是北京大學,其他排名比較靠前的還有中山大學、清華大學、南京大學等。該領域的高產機構主要是我國發達地區的重點高校,其中武漢大學、北京大學、南京大學和中山大學皆是在圖書情報領域研究比較突出的研究機構,清華大學是計算機學科領域領先的機構。表明高校的圖書情報學院對搜索引擎的研究做出了貢獻。也有少數綜合實力不是很強的高校在搜索引擎研究比較突出,如佳木斯大學排名14,共產出22篇論文。

2.4 載文的期刊分布

載文量在14篇以上的期刊有57種,所載論文總數為1947篇,占所有論文的49%。載文在34篇以上的期刊有20種,所載論文總數為1168篇,占所有論文的31%,如表5所示。其中lO種期刊屬于計算機軟件與應用領域,8種期刊屬于圖書情報領域,還有2種是綜合性期刊。表明對搜索引擎的研究主要來自以上兩個領域的專業工作者。

2.5 高頻關鍵詞分析

關鍵詞所占篇幅雖小,卻是文章的核心和精髓,是作者對文章主題的精煉,具有很強的代表性,因此高頻的關鍵詞往往被用來考查一個領域的研究熱點。表6列出的是出現頻次排在前二十的關鍵詞:

排在第一的關鍵詞是搜索引擎,這是本文的檢索詞,也是本研究的基礎所在。第二類較靠前的的關鍵詞包括信息檢索、互聯網、因特網、Internet、檢索、網絡,都是與主題很相關的詞,是很多其他研究的基礎。其中互聯網、因特網和Internet意思一致,在很多場合不明顯區分的。搜索引擎處理的是因特網上的信息,因特網的迅速發展與普及也帶動了搜索引擎的發展。因特網上的信息具有的龐大性、動態性、異構性和半結構化等特點對搜索引擎來說是個挑戰,這勢必引起很多專家學者來對此進行研究。因此,這是該領域的熱點之一。第三類排名靠前的關鍵詞是元搜索引擎、個性化、垂直搜索引擎、智能搜索引擎。目前。網上綜合性的傳統搜索引擎發展日益成熟,能夠較好地滿足廣大用戶的檢索需求。但網絡技術發展與網絡信息增長迅速,網絡信息的用戶也越來越多,綜合搜索引擎在信息查準率低、有用信息含量低等方面也問題突出。因此,應開發搜索質量更準確、相關性更復雜的搜索引擎,以追求有最佳的檢索效率及效果,各種元搜索引擎、垂直搜索引擎、個性化搜索引擎、智能搜索引擎等隨之產生。成為當前搜索引擎研究的熱點也是搜索引擎發展的趨勢。第四類比較靠前的關鍵詞是Lucene、中文分詞、網絡蜘蛛和數字挖掘,這些是搜索引擎的關鍵技術和搜索引擎工作的基礎。很大程度上決定了搜索引擎的質量。Google出作為作為全球最大的搜索引擎也同時受到國內學者的關注。

2.6 論文主題分布

關于搜索引擎研究的論文所涉及的主題內容非常廣泛。對于研究的深度也是層次不一,相對而言發表在核心期刊的論文研究層次更深一些也有更高的影響力,為了更準確分析當前搜索引擎研究的熱點和發展趨勢,對以上檢索結果數據進行抽樣,選取發表時間為近五年即2007-2011年的且發表在核心期刊的搜索引擎論文,共檢出346篇,除去其中學術會議征稿通知14篇新聞報道等與主題無關的5篇剩下327篇,通過對這些論文的關鍵詞、摘要及部分全文進行閱讀,并參考張小娣等著的《基于科學知識圖譜的搜索引擎前沿分析》一文,將搜索引擎研究的論文主題可分為10大類,如表7所示。

根據以上表格對搜索引擎論文主題的熱點分析如下:

(1)關于搜索引擎原理剖析與設計的論文有54篇,占所有論文的16.51%。搜索引擎的基本原理是搜索引擎技術繼續發展的基礎,基于Lucene技術的搜索引擎設計受到關注,Lucene是一個高性能、易擴展的基于Java技術的全文信息檢索工具包,它能非常方便地為各種應用程序加入全文索引和搜索功能。在上面的高頻關鍵詞排序中Lucene排名第六,可見其受關注程度很高。

(2)關于搜索引擎類型與功能的有101篇,占所有論文的30.89%,搜索引擎的功能決定搜索引擎能在多大程度上滿足用戶的需求,在搜索引擎研究中有著非常重要的地位。其中元搜索引擎和垂直搜索引擎(專業搜索引擎)是研究的一大熱點。這兩個主題的論文就有鎬篇,信息膨脹速度遠遠超過了搜索引擎檢索范圍,一個搜索引擎通常不能找到用戶所需的全部信息,用戶在進行檢索時需要在多個搜索引擎間進行切換,在這種情況下,元搜索引擎出現了,它有效解決了獨立搜索引擎信息覆蓋率不足和查準率不高的問題。元搜索引擎是一種基于搜索引擎的搜索引擎。亦稱“搜索引擎之母”。用戶只需提交一次搜索請求,由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將各獨立搜索引擎返回的所有查詢結果集中處理后再返回給用戶。這種方式增加了檢索的范圍,檢索結果覆蓋率顯著增加,起到了整合網絡資源的功能。近年來對搜索引擎的新的探索如面向跨領域海量信息資源的元搜索引擎研究,采用多領域本體、語義Web和Web2.0技術,較好地解決了元搜索引擎的協助用戶準確表達搜索意圖、消除檢索詞的“一詞多義”和“多詞一義”現象、設計自動調整檢索范圍的機制以及發揮用戶價值4個關鍵問題。垂直搜索引擎是應用于搜索某一學科領域或某一類信息(如圖像、影像)的專業搜索引擎,又稱為專題搜索引擎、專門搜索引擎,是搜索引擎的細分和延伸。是專為查詢某一學科或主題的信息而產生的查詢工具,是相對綜合搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式。目前熱點主要集中于各類垂直搜索引擎的設計,如混合多層分類和樸素貝葉斯模型的垂直搜索引擎分類器設計,基于Nutch的垂直搜索引擎的設計等。智能搜索引擎和個性化搜索引擎也是研究的熱點,此外還有學術搜索引擎、農業搜索引擎、博客搜索引擎、人肉搜索引擎、少兒搜索引擎、軍事搜索引擎等,這些功能各異的搜索引擎是垂直搜索引擎的具體體現。

(3)關于搜索引擎應用的有62篇,搜索引擎在各領域都有廣泛的應用,如在科技查新中的應用,在圖書館個性化信息服務、數字圖書館中的應用,在教學課程設計中的應用等,其中突出的是搜索引擎在商業領域的應用,由于巨大的商業價值及應用前景使得搜索引擎優化(SEO)和搜索引擎營銷(SEM)成為當前搜索引擎研究的一大熱點。僅二者的論文就有35篇,占所有論文的10.61%。該領域熱點集中于搜索引擎營銷的效果、模式、策略分析,如姜旭平等人關于影響搜索引擎營銷效果的關鍵因素分析,文濤關于搜索引擎營銷模式及其安全性分析,方英等人關于旅游業搜索引擎營銷策略研究等。

(4)有關搜索引擎的算法有23篇,所論及的搜索引擎結果排序、聚類、融合等算法都是提高搜索引擎質量的重要技術。其中基于鏈接分析的頁面排序算法一直是一個熱點,是搜索引擎要解決的關鍵問題之一。Google之所以成為世界最大搜索引擎和它采用的頁面排序算PageR-ank算法是分不開的。國內的學者也一直在探索希望在這一方面有所突破。郝偉等人提出了一種基于PageRank算法的改進搜索結果融合算法??椎络O等人提出一種基于遺傳算法的網頁排序算法,李建廷提出基于模糊積分的元搜索引擎結果排序算法,秦杰等人提出基于本體的元搜索引擎4級結果處理算法,吳文昭提出搜索引擎頁面排序融合算法等。

(5)關于搜索引擎用戶行為、興趣分析的有11篇。隨著網絡搜索用戶的大規模增加,網絡用戶行為分析已成為網絡信息檢索系統進行架構分析、性能優化和系統維護的重要基石。對用戶行為進行分析和研究主要基于網絡用戶行為日志,用戶查詢主題、用戶瀏覽時間和頁面點擊等用戶行為特征,考察用戶在不同查詢需求下的行為差異性。相關分析結果對搜索引擎算法優化和系統改進等都具有一定的參考意義。文獻給出一種基于Ha-doop的海量日志數據處理模型,對Sogou索引擎用戶搜索行為進行分析。文獻通過問卷調查的方法,對高校學生使用搜索引擎的行為進行實證研究。文獻對7.56億條真實網絡用戶行為日志進行分析和研究,考察了用戶搜索行為中的查詢長度、查詢修改率、相關搜索點擊率、首次/最后一次點擊位置分布以及查詢內點擊數分布等信息。相關分析結果對搜索引擎算法優化和系統改進等都具有一定的參考意義。

(6)關于搜索引擎所涉及的法律、倫理問題的有14篇。隨著越來越多的商家利用搜索引擎關鍵詞來宣傳其網站、推廣其商品或服務,與之相關的法律、倫理問題也開始引起人們的重視。主要集中在和搜索引擎相關的知識產權侵權、知識產權管理、對競價排名的論證等。文獻[29]通過比較和分析中國法院與歐盟法院在因搜索引擎關鍵詞而引發的商標權侵權案件作出判決的差異。提出對于搜索引擎服務商的監控義務以及混淆原則應用問題的看法。文獻通過構建了企業知識產權管理指標體系,對于Google、Baidu、Yahoo、Live、Sogou、Soso、Xinhua andYoudm等搜索引擎企業的知識產權管理績效進行了測評。文獻通過分析競價排名的運作模式和辨析新媒體環境下的“廣告”概念,論證競價排名的廣告屬性,并提出當務之急規范競價排名的主要法律措施。同時信息倫理與搜索引擎的關系也受到關注文獻從信息倫理學的角度,對搜索引擎的社會責任與商業利益問題、檢索結果相關性與算法透明度問題、個性化服務與用戶的隱私保護問題以及信息獲取自由與信息審查過濾問題進行了詳細的分析。

(7)關于搜索引擎評價及存在問題的有22篇。全面、客觀、公正地評價搜索引擎系統,不僅為用戶選擇搜索引擎提供科學依據,而且可以促進搜索引擎技術的提高,近年來國內學者對這一領域的研究如:朱慶華等人利用基于指數標度的層次分析法確定各項指標的權重,從而構建搜索引擎評價指標體系。張國海等人構建出基于熵權的搜索引擎評價指標體系。蘇君華從內容、技術、界面、用戶、服務、環境等6個方面系統地梳理了搜索引擎的評價研究。

(8)關于搜索引擎綜述、現狀、發展趨勢的有14篇,隨著人工智能技術的發展,搜索引擎最新的研究逐漸走向智能化、個性化、專題化、集成化。吳曉暉等人通過對國內外幾個具有代表性的搜索引擎的對比分析,得出當前搜索引擎研究熱點是自然語言處理、語義理解、實時搜索、交互式引導系統。多網頁信息分布融合搜索將會成為以后搜索引擎研究趨勢之一。劉陽等人通過國內搜索引擎學術論文的知識圖譜研究指出搜索引擎關鍵技術的研究仍將是近一段時間研究的重點和熱點。智能化的搜索引擎必將成為將來學術界關注的重點。邱均平等人運用知識圖譜方法對國際網絡搜索引擎領域1999-2010年的相關文獻進行多角度的定量定性分析,指出當前研究熱點為搜索引擎的基本理論研究、檢索效率研究、用戶行為研究、語義網研究、醫學引擎研究等。

(9)其它和搜索引擎相關的研究主要有不同搜索引擎之間以及搜索引擎對其它領域的影響等。討論搜索引擎比較的有16篇。比較類的文獻內容跨度大,有不同種類搜索引擎的比較,也有同一種類不同搜索引擎的比較。還有中外搜索引擎的比較等。通過比較發現差距、優勢,將有利于搜索引擎的進一步完善。關于搜索引擎對其它領域的影響的有10篇。搜索引擎對很多其它領域發展都有影響,最主要的是對傳統媒體、圖書情報和商業營銷領域的影響。

3、結論與展望

根據以上對搜索引擎論文的定量定性分析,可以看出搜索引擎的基本原理和關鍵技術,元搜索引擎、垂直(專業)搜索引擎、個性化和智能化搜索引擎研究,搜索引擎的應用及商業價值,搜索引擎相關的知識產權等法律問題等是目前搜索引擎研究的熱點。搜索引擎的目標開始由發現信息轉變為幫助用戶解決問題,搜索引擎的服務對象也正從針對所有人轉為特定人群,所以改變搜索引擎查準率不高以及對檢索結果排序不合理的現狀,從而以滿足各類互聯網用戶的需求必然是未來的搜索的目的,這決定了搜索引擎的發展趨勢必然是朝著更直觀、精準、智能化、人性化的發展方向。各類具有獨特功能的搜索引擎如學術搜索引擎、農業搜索引擎、博客搜索引擎等,就是這個趨勢的具體體現。同時搜索引擎的商業價值以及與之相關的各類法律、倫理問題也更加受到學者們的重視,在搜索引擎的未來發展中,必然會在這一方面進行完善,那些為用戶提供良好服務,同時不為了盈利而損害用戶利益的搜索引擎才能得到很好的發展。

主站蜘蛛池模板: 久久99精品久久久久纯品| 91精品免费高清在线| 国产高清又黄又嫩的免费视频网站| 亚洲日韩AV无码一区二区三区人| 先锋资源久久| 国产网站一区二区三区| 精品久久久久久中文字幕女| 日本AⅤ精品一区二区三区日| a天堂视频| 成人久久18免费网站| 亚洲男人天堂久久| 偷拍久久网| 美女无遮挡拍拍拍免费视频| 欧美在线精品怡红院| 亚洲系列无码专区偷窥无码| 丰满人妻中出白浆| 九九热精品视频在线| 成人日韩视频| 国产成人1024精品| 中文字幕亚洲电影| 免费A∨中文乱码专区| 永久成人无码激情视频免费| 91视频区| 99热这里只有免费国产精品 | 久久人搡人人玩人妻精品| 狠狠躁天天躁夜夜躁婷婷| 欧美成人A视频| 日韩在线视频网| 久久综合婷婷| 2020国产在线视精品在| 国产网站一区二区三区| 国产精品福利一区二区久久| 蝴蝶伊人久久中文娱乐网| 亚洲欧美精品日韩欧美| 国产亚洲欧美在线中文bt天堂 | 无码专区国产精品第一页| 污视频日本| 国产素人在线| 在线观看91香蕉国产免费| 高清无码不卡视频| 欧洲日本亚洲中文字幕| 色丁丁毛片在线观看| www精品久久| 欧美爱爱网| 国产乱视频网站| 久久人搡人人玩人妻精品一| 婷婷激情亚洲| 婷婷六月在线| 欧美精品成人| 亚洲第一区在线| 欧美亚洲第一页| 亚洲最大看欧美片网站地址| 亚洲国模精品一区| 国产精品久久久免费视频| 激情乱人伦| 国产精品微拍| 国产国语一级毛片在线视频| 狠狠色丁香婷婷综合| 67194亚洲无码| 国产毛片片精品天天看视频| AV无码国产在线看岛国岛| 欧美怡红院视频一区二区三区| 热99re99首页精品亚洲五月天| 欧美成人二区| 91视频99| 中文字幕在线视频免费| 99偷拍视频精品一区二区| 国产呦视频免费视频在线观看| 精品99在线观看| 四虎永久免费在线| 免费aa毛片| 22sihu国产精品视频影视资讯| 中国国产A一级毛片| 一级毛片免费播放视频| 国产视频大全| 国产香蕉在线视频| 亚洲国产综合精品一区| 欧美激情第一欧美在线| 精品久久蜜桃| 久久久精品久久久久三级| 午夜老司机永久免费看片| 精品成人一区二区|