999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科研動態(tài)搜索引擎的自動分類方法研究

2016-06-30 09:15:16王春梅孫占全
科學與管理 2016年2期
關鍵詞:搜索引擎

王春梅,孫占全,李 釗,楊 春

?

科研動態(tài)搜索引擎的自動分類方法研究

王春梅1,2,3,孫占全1,2,3,李 釗1,2,3,楊 春3

(1.山東省計算中心(國家超級計算濟南中心);2.山東省計算機網(wǎng)絡重點實驗室;3.山東省電子政務大數(shù)據(jù)示范工程技術研究中心,濟南 250014)

摘要:隨著搜索引擎應用的不斷深入,人們對搜索引擎的個性化需求越來越多,對搜索結果的要求也越來越越高,如何實現(xiàn)高精準的垂直領域信息搜索和推薦是目前搜索領域所面臨的難題。科研動態(tài)是科研工作者非常關心的信息,為提供更高效精準的科研動態(tài)信息,本文將基于半監(jiān)督的分類方法用于科研動態(tài)信息的自動分類,用于科研動態(tài)搜索引擎系統(tǒng),實現(xiàn)科研動態(tài)信息按用戶需求精準搜索和推送,通過實例驗證分類方法的有效性。

關鍵詞:文本分類;半監(jiān)督學習;搜索引擎;科研動態(tài)

1 引言

隨著電子信息技術的快速發(fā)展,信息化辦公已成為當前政府、科研機構、企事業(yè)單位的主流形式,互聯(lián)網(wǎng)已成為查詢信息的主要渠道,搜索引擎成為工作人員的日常工具。常用的搜索引擎包括百度、谷歌、必應、雅虎等水平搜索引擎,其搜索信息覆蓋面廣,信息量大,可滿足各類用戶的通用需求。但通用搜索引擎在提供豐富信息的同時,也帶來一些問題,如結果不準確、實效性差等[1]。隨著搜索引擎應用的不斷深入,人們對搜索引擎的個性化需求越來越多,對搜索結果的要求也越來越高,因此,針對一些特定領域的垂直搜索引擎得到廣泛的關注,垂直搜索引擎是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶,可為用戶提供更加“專、精、深”的搜索結果,現(xiàn)已形成很多行業(yè)搜索引擎,如購物,旅游,汽車,工作,房產(chǎn),交友等行業(yè)[2]。垂直搜索的行業(yè)應用越來越細分化,需求也越來越多。高校科研院所非常關注科研動態(tài)信息,包括各級政府部門發(fā)布的科研政策、項目主管部門發(fā)布的項目指南等動態(tài)信息,及時了解各種科研動態(tài)信息對應科研工作者的項目成功申報非常重要。科研工作人員關注的網(wǎng)站有幾十,甚至上百個,每個網(wǎng)站瀏覽一遍,需要花費大量的時間,為方便科研工作人員的科研動態(tài)信息的方便快捷獲取,形成了科研動態(tài)搜索引擎,可實現(xiàn)科研動態(tài)信息的檢索和推送。科研動態(tài)信息數(shù)量很多,包含的內(nèi)容也多種多樣,為實現(xiàn)科研動態(tài)信息的精準推送,需要文本分類方法對抓取信息進行自動分類。

文本分類已有大量的研究,高精度的文本分類模型通常需要大量的標注樣本,而大量的樣本標注通常需要通過人工標注來實現(xiàn),需要花費大量的時間,一般很難獲取大量的訓練樣本[3、4]。針對少量有標注樣本的文本分類,也有一些研究工作,主要是基于半監(jiān)督學習的分類方法[5、6]。本文將基于半監(jiān)督的分類方法用于科研動態(tài)信息的自動分類,實現(xiàn)科研動態(tài)信息的精準推送。

2 科研動態(tài)搜索引擎系統(tǒng)

科研單位的科研工作者需要關注大量的科研動態(tài)信息,如科技項目指南、科技獎勵申報、科技活動信息等,為實現(xiàn)相關信息的自動采集,利用網(wǎng)絡爬蟲技術,通過網(wǎng)頁種子設置,定向抓取相關網(wǎng)站信息;網(wǎng)頁信息通常是半結構化信息,通過網(wǎng)頁結構解析,將網(wǎng)頁主體內(nèi)容提取出來,利用分布式NoSql數(shù)據(jù)庫Hbase對抓取的大量網(wǎng)頁信息進行分布式存儲;利用文本分析技術,包括中文分詞、特征提取、建立索引等技術,實現(xiàn)網(wǎng)頁信息的提取和快速檢索;根據(jù)提取的文本特征信息,對網(wǎng)頁內(nèi)容進行挖掘分析,實現(xiàn)網(wǎng)頁分類、搜索推薦等功能;以門戶網(wǎng)站和郵件推送的形式為科研工作者提供服務。科研動態(tài)搜索引擎的系統(tǒng)結構如圖所示。本文主要針對搜索引擎的網(wǎng)頁內(nèi)容自動分類方法進行研究,實現(xiàn)科研動態(tài)信息的自動分類。

圖1 科研動態(tài)搜索引擎系統(tǒng)架構

3 半監(jiān)督分類方法

半監(jiān)督學習是對具有少量標簽樣本的分類問題的有效方法之一。針對半監(jiān)督學習,提出了的很多模型,其中tri-training模型是對協(xié)同訓練模型的改進,降低了對數(shù)據(jù)集兩個冗余視圖的條件,從而大大提供了模型的可應用性。本文利用tri-training模型對科研動態(tài)信息進行分類,采用的分類器包括支持向量機、最近鄰規(guī)則分類和Bayes分類器,方法介紹如下。

3.1支持向量機

支持向量機首先將輸入單元映射到高維的特征空間,然后找一個分割超平面使得兩類之間的邊緣最大,邊緣最大化是個二次規(guī)劃問題,通過引入拉格朗日乘子可以變換成對偶問題來解決[7]。

分類任務通常包括一定樣本量的訓練數(shù)據(jù)和測試數(shù)據(jù),在每個訓練樣本中都包含一個目標值和多個因素,支持向量機的目的是生成一個在只知道測試數(shù)據(jù)的因素值就可以預測目標值的模型。通過優(yōu)化計算求得后,用下面的決策函數(shù)實現(xiàn)分類分析

3.2KNN

最近鄰規(guī)則方法是按一定的相關測度,搜索與待分類向量最臨近的k個樣本,通過判斷k個樣本的所屬類別最多的一類來確定所屬類別[8]。本文根據(jù)歐氏距離來確定待分類向量與樣本之間的相關性,即

在計算完所有樣本與待分類向量的相關度后,選擇相關度最大即距離最小的k個樣本,然后,利用投票表決法,近鄰中哪個類別的點最多就分為該類。

3.3樸素Bayes網(wǎng)絡

樸素Bayes分類是一種簡單的分類算法,對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,選擇概率最大的一類作為分類結果[9]。設為一個待分類項,其中為特征變量維數(shù),為的一個特征屬性,類別集合,其中為類別數(shù)。首先,根據(jù)樣本計算各類的特征條件概率分布

假設各個特征屬性是條件獨立的,貝葉斯定理為

根據(jù)Bayes定理,對于待分類項,通過下式確定該項的所屬類別。

利用上面介紹的三個分類器,對有標簽的樣本進行建模訓練,分布得到相應的分類器,對于任意一個無標簽的樣本 ,用已訓練好的分類器進行分類,如果有兩個分類器的結果一致,則將其進行標注為該類,然后將其加入到另外一個分類其的訓練樣本當中。對所用無標簽樣本進行分類分析,更新各個分類器的訓練樣本,然后對分類器進行重新訓練,直到分類器不再變化為止。

4 基于文本分析的科研動態(tài)信息自動分類

文本分類需要對文本進行處理,提取出文本特征,從而進行挖掘分析,分析過程如下。

(1)文本特征提取

首先利用分詞工具對抓取的網(wǎng)頁信息進行分詞,然后利用TF-IDF方法對網(wǎng)頁信息進行提取,生成網(wǎng)頁特征向量。

(2) 特征選擇

文本生成的特征向量維數(shù)是根據(jù)所有分析文檔生成的分詞詞庫確定的,當文本量很大時,文本向量的維數(shù)會很高,如果用所有特征對文檔進行分類分析,計算量會非常大,而且大多數(shù)的特征對于文檔分類并不起作用。為提高文檔分類的效率,需要對生成的文檔特征進行特征選擇,選擇信息量最大的特征組合進行文檔分類。本文采用無監(jiān)督的單詞貢獻度法對文本特征進行選擇。單詞貢獻度認為一個單詞的重要性取決于它對整個文本數(shù)據(jù)集相似性的貢獻程度,其計算公式為:

(3)文檔分類

在獲取網(wǎng)頁的文本特征后,根據(jù)第3節(jié)介紹的半監(jiān)督學習方法對文檔進行分類分析,從而實現(xiàn)科研動態(tài)網(wǎng)頁的自動分類。

5 實例分析

5.1數(shù)據(jù)源

針對山東省計算機領域科研部門的通用需求,利用科研動態(tài)搜索引擎系統(tǒng)抓取了科技部、工信部、國家自然基金委、發(fā)改委、山東省科技廳、山東省經(jīng)信委、山東省發(fā)改委、濟南市科技局、濟南市經(jīng)信委等40多個網(wǎng)站的通知通告和科技動態(tài)相關欄目網(wǎng)頁信息,共收集了30000多條數(shù)據(jù)。根據(jù)用戶對科研動態(tài)信息需求的不同,將抓取信息分為三種類型:政策類、新聞類、項目申報類。人工標注每類1000個,共3000個樣本,利用本文提出的半監(jiān)督分類方法,根據(jù)已采集的信息進行分類建模,生成科技動態(tài)信息的自動分類模型,對新抓取的科技動態(tài)信息自動分類。

5.2文本處理

首先,利用中科院分析工具ICTCLAS,對已收集的30000個樣本進行分詞,分別標題和正文進行分詞,分別生成8912和15032分詞向量維度。根據(jù)式(4)計算每個分詞在每個文檔的標題和正文中的TF-IDF值,生成標題和全文的文檔向量。根據(jù)單詞貢獻度計算公式(9),分別針對標題向量和全文向量的每個分詞計算單詞貢獻度,分詞選擇300個和500個貢獻度最大的分詞作為選擇的特征用于文本的分類。

5.3文檔分類

根據(jù)已標注的3000個樣本,利用選擇300個分詞的特征向量,對基于標題的文檔分類模型進行訓練,包括支持向量機、KNN和Bayes網(wǎng)絡;利用選擇的500個分詞的特征向量,對基于全文的文檔分類模型進行訓練,包括支持向量機、KNN和Bayes網(wǎng)絡。根據(jù)生成的6個分類模型,利用第3節(jié)介紹的半監(jiān)督分類方法,利用其余27000個無標識的樣本對分類模型進行訓練,對無標識樣本進行自動分類,生成科技動態(tài)自動分類模型,用于新抓取信息的自動分類。

27000個未標識樣本中,選擇1000個進行人工驗證,分類正確率達到85.4%,能夠滿足實際應用的需求。

6 結論

面向行業(yè)應的垂直搜索引擎在各領域的需求越來越多,對獲取信息的精準性、有效性要求越來越高,為實現(xiàn)更加高效、精準的信息推送,將人工智能技術應用到搜索引擎系統(tǒng)已成為必然,雖然在這方面已有大量的研究工作,但由于垂直搜索引擎的個性化要求太多,很多應用領域的需求沒有解決。本文將半監(jiān)督學習的分類方法,應用于科研動態(tài)垂直搜索引擎系統(tǒng)中,解決了不同用戶對不同信息的需求問題,得到了令人滿意的結果。在科研動態(tài)搜索引擎領域還有很多需要進一步研究的問題,將結合更多的人工智能技術來提升系統(tǒng)性能是我們接下來的研究工作。

參考文獻:

[1]程時端,郭亮,王文東. 社會搜索研究綜述[J]. 北京郵電大學學報,2013,36(1): 1-12.

[2]王文鈞,李巍. 垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 情報科學,2010,28(3): 477-480.

[3]文翰,肖南峰. 基于強類別特征近鄰傳播的半監(jiān)督文本聚類[J]. 模式識別與人工智能,2014,27(7): 646-654.

[4]Uysal,A. K.,and Gunal,S. A novel probabilistic feature selection method for text classification[J]. Knowledge- Based Systems,2012,36: 226-235.

[5]G. Li,K. Chang,S. C. H. Hoi. Multiview Semi-Supervised Learning with Consensus[J]. IEEE Transactions on Knowledge and Data Engineering,2012,24(11): 2040-2051.

[6]X. Cui,J. Huang,J. T. Chien. Multi-View and Multi-Objective Semi-Supervised Learning for HMM-Based Automatic Speech Recognition[J]. IEEE Transactions on Audio,Speech,and Language Processing,2012,20(7): 1923-1935.

[7]丁世飛,齊丙娟,譚紅艷. 支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1): 2-9.

[8]郭躬德,黃杰,陳黎飛. 基于KNN模型的增量學習算法[J].模式識別與人工智能 2010,23(5): 701-707.

[9]劉嘯嘯. 基于Bayes算法的網(wǎng)頁文本分類研究[J]. 數(shù)字技術與應用,2015,(12): 138-139.

(責任編輯:張 萌)

Study on Classification Methods of Scientific Research Search Engine

WANG Chunmei1,2,3,SUN Zhanquan1,2,3,LI Zhao1,2,3,YANG Chun3
(1.Shandong Computer Science Center(National Supercomputer Center in Jinan);2.Shandong Provincial Key Laboratory of Computer Networks;3.Shandong Demonstration Engineering Technology Research Center of E-government Big Data,Jinan 250014)

Abstract:With the development of searching engine,more and more personal requirement about searching comes into being. The requirement is higher than before. How to provide efficiency and accurate searching and recommending results is a difficult issue to be resolved. Scientific research trends is concerned by each research and different research has different requirement. For providing more accurate scientific research trends information,semi-supervised learning model is used to realize auto classification of scientific research related information. The classified information is recommended according to different personal requirement. The efficiency of the method is illustrated through practical analysis.

Keywords:Text classification;Semi-supervised learning;Searching engine;Scientific research trends

中圖分類號:G254

文獻標識碼 :A DOI∶10.3969/j.issn.1003-8256.2016.02.006

基金項目:國家自然基金項目(61472230)、山東省計算中心(國家超級計算濟南中心)內(nèi)部立項資助(2015-003)

作者簡介:王春梅 (1974-),女,副研究員,研究方向:軟件工程技術、大數(shù)據(jù) 。

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統(tǒng)的設計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 欧美区日韩区| 91区国产福利在线观看午夜| 91成人在线观看视频| 免费人成又黄又爽的视频网站| 久草网视频在线| swag国产精品| 国产在线自乱拍播放| 九九热精品视频在线| 亚洲中文精品久久久久久不卡| 欧美精品亚洲精品日韩专区va| 99久久免费精品特色大片| 国产在线观看一区二区三区| 日韩欧美综合在线制服| 99re这里只有国产中文精品国产精品| 91精品国产自产91精品资源| 亚洲第一极品精品无码| 久久伊人操| 少妇高潮惨叫久久久久久| 免费99精品国产自在现线| 久久天天躁夜夜躁狠狠| 国产成人91精品免费网址在线| 欧美激情视频在线观看一区| 国产精品对白刺激| 国产在线精彩视频二区| 亚洲成年人片| 亚洲一本大道在线| 亚洲免费三区| 国产另类视频| 欧美午夜一区| 欧美区一区| 久久99国产综合精品1| 久久这里只精品热免费99| 免费jjzz在在线播放国产| 精品国产污污免费网站| 国产情精品嫩草影院88av| Jizz国产色系免费| 亚洲国产成人自拍| 国内99精品激情视频精品| 91精品啪在线观看国产| 国产h视频免费观看| 视频二区国产精品职场同事| 国产日本欧美亚洲精品视| 秋霞国产在线| 综合五月天网| 精品国产美女福到在线直播| 在线国产毛片手机小视频| 97亚洲色综久久精品| 在线看片中文字幕| 亚洲大学生视频在线播放| 免费观看男人免费桶女人视频| 亚洲日韩精品伊甸| 在线99视频| 亚洲AⅤ无码国产精品| 小蝌蚪亚洲精品国产| 欧美激情网址| 日本欧美视频在线观看| 色偷偷综合网| 热这里只有精品国产热门精品| 欧美激情综合| 欧美成人午夜在线全部免费| 国产色网站| 中文字幕第4页| 一本大道东京热无码av| 在线观看91香蕉国产免费| 岛国精品一区免费视频在线观看| 国产69精品久久久久妇女| 色网站在线视频| 日韩无码视频专区| 亚洲福利网址| 88av在线| 婷婷综合亚洲| 99国产精品国产| 亚洲国产成人麻豆精品| 真人高潮娇喘嗯啊在线观看 | 欧美伦理一区| 欧美日韩午夜| 国产免费a级片| 久久亚洲国产最新网站| 少妇人妻无码首页| 这里只有精品国产| 亚洲AV无码不卡无码| 欧美日韩一区二区三|