999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新聞信息檢索系統設計

2019-06-27 06:42:09趙美勇楊永琪宋思睿
科技資訊 2019年9期
關鍵詞:利用信息系統

趙美勇 楊永琪 宋思睿

摘? 要:模擬百度、谷歌等搜索工具,利用爬蟲和大數據來實現一個簡單的新聞信息檢索系統。此系統大致分為5個模塊:先是利用爬蟲來爬取網頁的信息;利用2-gram分詞來將獲取到的網頁建立索引;將索引排序;利用hadoop分布式存取索引;最后搭建前后端實現界面交互。五個環節關系緊密,核心環節就是索引的建立,利用2-gram分詞提取關鍵字,再利用TF-IDF矩陣對關鍵字打分,得到矩陣之后,就可以利用K-means來講關鍵字分類了。然后再按照評分將索引排序就可以得到用戶所需要的信息。

關鍵詞:爬蟲? Hadoop? 2-gram? 分詞? K-means

中圖分類號:G64? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2019)03(c)-0006-02

1? 系統內容

1.1 Web網頁信息抽取

以山東大學新聞網為起點進行網頁信息的循環爬取,保持蜘蛛在view.sdu.edu.cn之內。

1.2 索引構建

對上一步爬取到的網頁進行結構化預處理,包括分字段解析、分詞、構建索引等。

1.3 索引排序

對上一步構建的索引庫進行查詢,對于給定的查詢,給出檢索結果,明白排序的原理及方法。

1.4 數據庫構建

利用爬取的新聞內容以及構建的索引建立數據庫

1.5 前后端實現

基于數據庫利用Java及HTML語言實現前后端交互,提供用戶使用頁面。

2? 系統設計

2.1 爬蟲部分

通過觀察分析新聞主頁可以發現我們需要的最終URL是:

http://www.view.sdu.edu.cn/info/1207/104940.htm

在信息爬取的過程中,所使用的工具為:

Python3+requests+bs4+collections。

實現過程如下:

(1)以http://www.view.sdu.edu.cn為種子URL,獲取此網頁中所有的以“.html”結尾的URL,并且把它加入到列表中避免重復訪問。

(2)通過分析網頁的源碼可以發現有些URL省略了前綴,因此我們在處理這樣的URL之前要先將其補全。

(3)找到每一個滿足條件的URL(保持蜘蛛在view.sdu.edu.cn之內),并將其加入到隊列中(這里采取BFS爬取策略)。

(4)之后依次從隊列中取出隊首的URL,如果是目標URL,則獲取標題及正文信息,并存到文件中。如果不是目標URL,則依次進行(2)、(3)、(4)步驟。

(5)在爬蟲的過程中維護一個目錄文件,記錄下每篇新聞的索引、URL、標題。

2.2 詞項詞典構建

詞典構建時分詞系統采用疊詞方式,也就是將語句ABCDE分割成AB,BC,CD,DE四個單詞。

這里使用了一個假設,即“與文檔內容有關的詞語不會只出現一次”,通過這個假設,我們可以排除絕大多數噪音詞項。

比如“今天去濟南”,“今天”“濟南”這兩個詞項如果在文檔中占據重要地位,那么會出現不止一次,而“天去”“去濟”這兩個干擾詞項在絕大多數情況下只會出現一次,可以輕松除去。

基于以上假設,將所有文檔遍歷一遍之后就可以得到一個去除了大多數干擾項和部分有效實詞的有損詞典。但是考慮到最后的目的是制作一個有序搜索引擎,被損耗掉的部分實詞往往在排序中所占據的得分份額也非常小,因此這個詞典就可以被認為是有效的詞典。

2.3 倒排索引構建、TF-IDF矩陣和特征矩陣構建

有了詞典之后,就可以進行倒排索引操作了。

倒排索引操作時仍然使用疊加分詞方式,但是只有存在于上一步產生的詞典中的詞語才會進入下一步操作。倒排索引的結果會生成一個類似二維鏈表的結構,每個鏈表頭保存了詞項名稱,鏈表中間項保存了文檔ID和詞頻,鏈表尾保存了文檔頻率和詞語總頻率。

利用鏈表尾保存的信息和文檔長度信息,遍歷一遍倒排索引即可直接生成TF-IDF矩陣。

考慮到最高頻的詞語在絕大多數文檔中都出現,對特征影響小的原因,選取其中詞頻第100~400共300個詞語進行SVD分解,這樣就得到了特征矩陣。

2.4 文檔聚類

在有了特征矩陣之后,直接使用UT矩陣,直接生成對參與到分類的文檔的特征向量。

由于特征矩陣的計算和K-means迭代在大量數據的情況下單機運行十分緩慢,因此聚類被分成兩步,第一步隨機選擇了一部分向量進行完整的K-means算法,這樣就可以得√N個聚類中心;第二步對剩余的信息直接尋找和它們最近的聚類中心,直接視為這一聚類的追隨者。

因為單機環境下推薦系統使用較少數據的效果更明顯,第一步使用的部分向量在后面將用來實現推薦系統。

同時,根據聚類結果,將原始的TF-IDF矩陣分割成了數個較小的矩陣。每個聚類中最接近聚類中心的一個作為矩陣第一列的數據。

3? 前后端實現

3.1 前端實現

使用JSP、JS、Java語言實現界面。

(1)大致劃分:title檢索欄、content內容新聞塊。

(2)基本功能:輸入檢索自然語言,查詢相關新聞,獲取相關新聞標題URL信息,進一步跳轉詳細信息。

3.2 后端實現

自然語言處理,實現2-gram分詞。

(1)單關鍵詞查詢:檢索該關鍵詞相關文檔,利用tf值取其中前十位的文檔ID,構建NEWS數據結構,生成結果。

(2)多關鍵字查詢:將關鍵詞拆分,利用tf*idf乘積作為每篇文檔得分,最后將所有文檔排序,取出TOP10。

4? 結語

此系統不同于簡單的前端調取數據庫內容,這次數據庫更多的只作為系統實現中的一小部分,清晰地了解了一個完整的信息檢索系統的構成,從信息采集、信息處理、信息入庫到信息利用和展示,一步又一步,讓這個過程復雜又清晰。也通過對于信息檢索的學習,逐步了解了真正的搜索引擎背后實現原理以及強大的技術支持。盡管在我們的系統中僅僅使用了python爬蟲爬取、基于2-gram的分詞以及索引構建、數據庫的簡單應用、TF-IDF得分計算、前后端實現這些技術,但已經得到了良好的效果。

此系統還有很大的完善空間,但是通過自己的努力基本實現了搜索引擎系統的基本要求,完成了包括關鍵詞和復雜語言的查詢操作,并且實現了良好的效果。

參考文獻

[1] 李俊華.基于Python的數據分析[J].電子技術與軟件工程,2018(17):167.

[2] 馬明陽,郭明亮,魏留強.網絡爬蟲的專利技術綜述[J].科技世界,2018(12):12-13.

[3] 陳麗,黃晉,王銳.Hadoop大數據平臺安全問題和解決方案的綜述[J].計算機系統應用,2018(1):1-9.

[4] 邱均平,方國平.基于知識圖譜的中外自然語言處理研究的對比分析[J].現代圖書情報技術,2014,30(12):51-61.

[5] 何曉兵,容金鳳.基于層次目標分解法構建的認知信息檢索模型[J].情報理論與實踐,2014(2):14-18.

猜你喜歡
利用信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
利用一半進行移多補少
利用數的分解來思考
Roommate is necessary when far away from home
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产精品高清国产三级囯产AV| 国产va在线观看免费| 亚洲色图在线观看| 欧美日韩激情在线| 欧美一级黄片一区2区| 亚洲人成色77777在线观看| 无码免费视频| 国产剧情一区二区| 亚洲色图狠狠干| 欧美笫一页| 色九九视频| 激情网址在线观看| 青青草原国产av福利网站| 成人福利一区二区视频在线| 91丨九色丨首页在线播放| 热思思久久免费视频| 亚洲综合在线网| 日韩在线播放中文字幕| AV片亚洲国产男人的天堂| 任我操在线视频| 国产正在播放| 午夜一级做a爰片久久毛片| 精品一区二区三区水蜜桃| 亚洲精选高清无码| www.亚洲一区二区三区| 亚洲婷婷在线视频| 精品国产自在现线看久久| 国产色婷婷视频在线观看| 亚洲色图欧美一区| 无码网站免费观看| 国产亚洲欧美日韩在线一区二区三区| 日韩av高清无码一区二区三区| 亚洲精品第一页不卡| 中文字幕在线看视频一区二区三区| 久久这里只有精品23| 高清不卡一区二区三区香蕉| 精品人妻无码区在线视频| 日韩欧美国产中文| 999国产精品永久免费视频精品久久 | h视频在线观看网站| 国产国产人在线成免费视频狼人色| 欧美狠狠干| 老熟妇喷水一区二区三区| 午夜啪啪网| 国产欧美日韩综合一区在线播放| 丰满的熟女一区二区三区l| 福利一区三区| 色噜噜狠狠色综合网图区| 中文字幕 91| 一本久道久综合久久鬼色| 男女猛烈无遮挡午夜视频| 国产精品99一区不卡| 亚洲欧洲免费视频| 高清无码不卡视频| 久热中文字幕在线观看| 91最新精品视频发布页| 亚洲激情99| 成人国产一区二区三区| 日韩欧美中文亚洲高清在线| 亚洲精品无码不卡在线播放| 国产h视频免费观看| 日韩精品中文字幕一区三区| 欧美综合区自拍亚洲综合天堂| 亚洲国产精品日韩欧美一区| 亚洲日韩每日更新| 成人在线综合| 国产白浆在线观看| 日韩123欧美字幕| 99久久亚洲精品影院| 波多野结衣视频网站| 国产乱子伦一区二区=| 日本色综合网| 日本精品视频一区二区| 精品国产网| 国产一国产一有一级毛片视频| 波多野结衣中文字幕一区二区| 国产精品一区二区在线播放| www.狠狠| 欧洲亚洲一区| 99久久无色码中文字幕| 97久久精品人人| 欧美日韩国产在线播放|