999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高考志愿智能推薦系統的設計與實現

2023-05-08 17:25:55孫浩然武雪明吉雪蕓
電腦知識與技術 2023年9期
關鍵詞:大數據技術

孫浩然 武雪明 吉雪蕓

關鍵詞:高考志愿填報;數據庫原理;大數據技術;XPath爬蟲技術

0 引言

河北省普通高考報名人數在2016 年就達到了42.31萬人,到2022年報名人數甚至達到了75.32萬人,僅六年的時間就增長了33萬人。數量激增的考生在高考結束之后面臨的是大學招生總數變化不大的問題,目前大多數高中考生忙于學習知識,鍛煉應試能力,考生家長主要精力用于工作和生活中,這就導致填報志愿的應往屆高中畢業生不了解當年的報考政策,對于理想院校歷年分數和招生排名及所選學校專業劃分和專業的優劣情況了解不夠充分。為了解決這種由于“信息差”導致的應往屆高中畢業生無法在自己的分數內選擇到最好的高等院校的問題,團隊開發了高考志愿智能推薦系統。

該系統主要為了解決高考填報志愿人員提供更多院校信息,為更多填報志愿的人員搭建一個數據準確、信息全面、搜索便捷的查詢平臺,更有利于解決填報志愿當中遇到的問題。

1 研究現狀、目的及研究內容

搜索引擎以一定的策略在互聯網當中進行搜集、發現信息、對信息進行整理、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的作用。搜索引擎已經廣泛地應用到日常生活當中,它涵蓋了圖書搜索、旅游出行和信息查找等領域,國外的發展較早,在各個領域也都有了比較成熟的垂直搜索系統[1]。垂直搜索引擎只是搜索互聯網資源當中的某一行業領域,返回給用戶該領域信息,具有高精度和深度等特點[2]。舉例說明當今應用廣泛的一個搜索引擎Tin?Eye。TinEye是網絡上第一個以圖搜圖的圖像搜索引擎[3]。TinEye支持語音搜索,搜索欄下有多個搜索分類選項。圖片視頻分類搜索時,TinEye會提供關鍵詞更加細致的標簽,來供用戶選擇,TinEye的搜索分類較少,但是用戶可以選擇使用安全搜索(屏蔽垃圾信息)。

對于院校信息的獲取和分析當中,國內已出現了很多大體量的志愿填報網站,如掌上高考網站、高校考試服務中心、夸克高考等搜索網站。用戶可以根據自己的分數、所在地區、所考科目等關鍵字來檢索相關信息,也可以借助搜索引擎進一步篩選信息。搜索引擎已經成為第二大互聯網應用技術[4]。

該研究目的是實現高考志愿填報領域的垂直搜索引擎系統,滿足使用者對高校信息更加精準的信息檢索需求。具體通過Python爬蟲工具從陽光高考網站爬取所有高校當年的招生簡章,往年錄取分數等數據,對數據進行清洗并將其導入到Elastic Search中,然后再建立索引,使用SpringBoot和Vue進行開發,實現網站的搭建。主要包括以下模塊:

1) 爬蟲模塊:對各地考試院、高校官網或者公眾號進行數據爬取,對指定的URL進行頁面下載,提取出頁面中的專業、選科要求、各項分數線、錄取人數,高校所在地和規模等信息。然后對獲取到的信息進行清洗,將規范的數據存儲到數據庫里。

2) 信息檢索模塊:對數據表數據創建映射,進行中文分詞,建立倒排索引。利用ElasticSearch模糊匹配實現搜索建議提示,多字段查找搜索功能來支持信息的智能檢索。

3) 用戶搜索模塊:SpringBoot整合了很多優秀的框架,對Spring進行了全面的升級和優化,采用“約定優于配置”的核心思想,減輕開發人員的壓力,從而在一定程度上提高開發效率[5]。該系統使用SpringBoot框架開發軟件,提供友好的人機交互頁面,方便考生進行智能檢索。該系統提供關鍵字檢索,比如根據省份、分數段、排位、高校、專業、單科成績等信息檢索,提供分數線區間檢索,分數線曲線圖查看等功能,滿足考生多項需求,提高查找效率,為志愿填報提供依據。

2 需求分析

2.1 系統需求分析

項目中的系統是依據SpringBoot為核心框架的網站,用戶登錄后可以使用該引擎來搜索需要的信息,該系統可以返回給用戶信息包括院校名稱、院校基本信息、專業名稱、專業分數區間和分數排名等信息,搜索的結果精確準確。

主要用戶是志愿填報者。這類人群是該系統主要服務的人員,使用者希望可以在該網站中獲取高校當前的錄取信息和系統推薦的院校專業。他們會更加關注該系統搜索結果是否準確、此系統是否能快速響應、是否操作簡單和收費合理。

2.2 系統分析

2.2.1 準確性需求分析

準確性要求獲得的數據是真實的、有效的。該數據清洗也必須是有科學依據的,錯誤數據能夠及時地處理,保證用戶得到最后結果是正確的。要求能夠使用合理的篩選規則,對爬取的數據要進行歸類和清除。

2.2.2 實時性分析

實時性要求此系統的數據需要及時地進行更新操作,保證所獲得的數據是符合當年高考志愿填報所需的信息,這需要定時地對該系統進行維護,保證系統能夠第一時間獲取所需的信息并進行數據的更換。

2.2.3 實用性分析

實用性要求該系統的頁面是簡潔易操作的。直接可以在瀏覽器上使用該系統,無須安裝其他的軟件和插件。系統需要進行合理的優化,使其具備顏色使用合理、布局符合使用規范、功能位置一目了然、人機交互簡單等特性,使得使用人員更快找到所需內容。

2.2.4 高效性分析

高效性主要考驗系統的反饋時間,當用戶輸入關鍵詞時,系統能夠快速地給出反饋,避免用戶長時間的等待,提高用戶的使用體驗,理論上系統的響應時間不宜超過3秒。

2.2.5 隱私性分析

隱私性是當前用戶重視的。系統不僅需要防范不法人員對網站進行滲透和攻擊,拒絕來自用戶的非規范請求,保障系統的安全,而且需要保障用戶的私人信息不被第三者知曉。

3 系統總體設計

3.1 系統總體結構

根據需求分析當中的功能需求,系統共有三層結構,分別是業務層、數據層、用戶層。系統總體設計使用的架構如圖1所示。

用戶表現層包括整個系統的人機交互頁面,用戶可以在首頁查看志愿填報頁面,點擊志愿填報進入志愿填報頁面。此時會有一個彈窗出現,需要填寫用戶的高考信息,包括高考省份、成績類型、高考科目、高考分數、對應排名等信息,點擊確認進入志愿填報頁面,此時系統左側會給出圖表來表示推薦的院校和專業,系統右側會給出當年的招生計劃和專業分。

業務邏輯層給出了面向業務的服務接口,主要包含對高校的搜索、對專業的搜索、用戶搜索的關鍵詞,系統從存儲層獲取用戶搜索的信息,用圖表的方式反饋給用戶。

數據存儲層含有數據的持久化服務,主要分布為ElasticSearch索引庫和MySQL數據庫,爬蟲獲得的信息存儲在進行數據清洗之后存入這兩部分當中,用戶的基本信息和搜索記錄則存儲在MySQL數據庫中。

3.2 技術方案選型

綜合考慮系統的總體結構與系統的落實,該系統選擇使用Meaven工程來創建項目,并且使用主流的SpringBoot+Vue 框架,借助瀏覽器來實現人機交互。整個概念圖如圖2所示。

視圖層主要為用戶提供搜索頁面,整體采用Vue框架來實現,根據Vue的特性,框架只關注系統的視圖層,因此就必須要借助基于promise的網絡請求庫——axios,使用Vue-router去完成頁面跳轉工作,Vue用來作狀態管理在Session中存儲用戶的歷史記錄。

控制層主要使用框架——SpringBoot,根據業務需求,把對系統當中的數據庫操作封裝成一個事務操作,當前端發出請求時,在Controller中進行請求映射并接受參數,調用相關的數據層來完成操作。

數據層使用ElasticSearch 索引庫和MySQL 數據庫,將使用Scrapy爬取并清洗好的數據導入索引庫當中,索引庫當中的每個文檔包括一系列的搜索信息。使用MySQL數據庫存儲用戶的歷史記錄,方便管理員收集信息。

3.3 系統工作流程

系統工作大致分為三塊:

1) 數據獲??;2) 數據處理;3) 實現信息檢索。

3.4 數據庫設計

該系統所使用的數據庫為MySQL數據庫,數據庫當中共存儲三張表,分別為search_record表、major表、university表。search_record記錄用戶的信息,包括日期、省份、高考科目、高考分數、對應排名、用戶歷史搜索等。major表則表示符合要求的專業;college表示符合要求的大學。

4 詳細設計與實現

本章闡述高考志愿填報系統當中每一個模塊之間的細節和實現的過程,表示出每個模塊之間的關系,具體的設計流程。

4.1 爬蟲模塊

爬蟲模塊主要的功能是在陽光高考網站爬取系統所需要的數據,然后將這些數據進行清理并進行存儲。處理后的數據是整個系統的數據源,是這個系統能夠正確反饋的基石。

網絡爬蟲技術是搜索引擎的底層核心,其目的是采用最佳的訪問路線,遍歷整個互聯網網頁,將下載的網頁內容進行網頁結構解析、頁面存儲[6]。本軟件采用爬蟲框架爬取多個考試院、高校專業官方網站的高考數據并進行數據的清洗,創建數據庫,將數據導入搜索引擎,對數據建立索引并搭建搜索系統,使用流行的開發框架進行軟件開發,實現查詢、智能檢索、推薦以及圖表曲線功能。爬蟲模塊包括網頁下載及學校信息解析、數據清洗[7]。

爬蟲進行數據爬取時,首先要確定一個最初的URL,以這個URL作為起點開始獲取頁面里的鏈接信息。爬蟲在進行網頁下載的同時又不斷從下載頁面中提取新的URL,并且放入URL隊列中[8]。

完整的網頁數據獲取流程如圖6所示。

4.2 數據清洗

數據從網頁上爬取出來的結果是json文件,不符合es搜索引擎的存儲要求,需要對數據進行清洗和格式化。

主要解決的是數據的格式和編碼問題,一部分的信息經過該爬取會顯示亂碼信息,可以使用空字符串代替。第二個工具是將json格式處理為bulkapi格式。在數據清洗后直接手動將數據導入到ElasticSearch中,需要保證導入的json文件和官方要求一致。

4.3 信息索引模塊

信息索引模塊發揮的主要作用是對爬取的數據建立信息索引,主要使用ElasticSearch索引庫。Elas?ticSearch是由Apache基金會開發的基于文本的搜索引擎[9]。該模塊主要分為兩部分,一部分是對爬取的數據進行分詞,可以給使用者帶來極大的方便。另一部分則是創建索引、建立映射及數據存儲。映射就是索引當中文檔的類型,這要求要根據實際需求建立映射,通過手動的方式將爬蟲得到的數據導入索引庫當中。

4.4 用戶檢索模塊

用戶檢索模塊的功能是為使用者反饋院校信息,這是整個系統最重要的一部分。在前面的模塊中將獲得的數據存儲到索引庫當中,下面需要用這些數據完成用戶搜索服務。

4.4.1 院校專業查詢

專業查詢主要使用索引庫當中關鍵字進行查找,選擇用戶需要的篩選條件,包括報考省份、成績類型、高考科目、高考分數、對應排名等,系統會自動地將用戶的查詢結果顯示到網頁上。

4.4.2 搜索信息可視化

基于現實情況,團隊將高考志愿填報與互聯網大數據結合起來,利用互聯網高效的信息集合能力和數據流通能力,幫助考生在短時間內獲取更多真實有效的信息。根據考生的興趣愛好、分數,智能推薦能被何種院校和專業錄取,并智能分析錄取的概率,人性化地將這些信息做成圖表,更清楚地展示高校相關專業排名、所屬城市、就業發展以及升學留學信息,幫助考生快速、準確地選擇出自己心儀的高校。

5 總結

所做的工作:進行了高考志愿填報系統的總體設計,使用了主流的SpringBoot+Vue框架作為系統的主要框架,在上述介紹了涉及的技術,簡單介紹了數據庫的索引庫的相關信息。

創新點:區別于傳統的高考志愿填報參考系統,該系統對于考生的分數排位和所屬層次的高等院校的覆蓋更加廣泛,能夠讓考生盡可能不浪費分數,上更好的大學。

不足之處:經驗不足,可在細節處理方面仍然有很多需要改進的地方,希望能在接下來的項目設計和推進中不斷完善該系統,為更多考生提供便利。

猜你喜歡
大數據技術
善用“互聯網+” 提升政府善治能力
前線(2016年12期)2017-01-14 03:54:04
大數據技術之一“數據標識”
科技資訊(2016年25期)2016-12-27 18:38:16
大數據技術在霧霾治理中的應用
淺談大數據技術在互聯網金融中的應用
大數據技術在電子商務中的應用
大數據技術對新聞業務的影響研究
論大數據技術在智能電網中的應用
高校檔案管理信息服務中大數據技術的應用
大數據技術在電氣工程中的應用探討
大數據技術在商業銀行中的應用分析
主站蜘蛛池模板: 精品国产成人国产在线| 欧美黑人欧美精品刺激| 四虎成人精品在永久免费| 国产高清在线精品一区二区三区| 久久窝窝国产精品午夜看片| 亚洲国产成人自拍| 国产福利不卡视频| 日本一区二区不卡视频| 91亚洲精品第一| 欧美亚洲国产一区| 亚洲中文在线看视频一区| 婷婷综合亚洲| 亚洲 欧美 日韩综合一区| 日本免费新一区视频| 精品少妇人妻一区二区| 亚洲国产AV无码综合原创| 国产无码在线调教| 婷婷色一二三区波多野衣| 国产中文一区二区苍井空| 奇米影视狠狠精品7777| 狠狠v日韩v欧美v| 四虎在线观看视频高清无码 | 在线观看国产精品日本不卡网| 亚洲日韩精品伊甸| 中文字幕久久波多野结衣| 亚洲综合18p| 国产午夜福利片在线观看| 最新日韩AV网址在线观看| 国产自在线播放| 久久人体视频| 国产成人免费手机在线观看视频| 亚洲综合在线最大成人| 亚洲综合专区| 欧美亚洲另类在线观看| 国产Av无码精品色午夜| 亚洲欧美综合在线观看| 无码内射中文字幕岛国片| 国产经典免费播放视频| 色成人亚洲| 久久这里只精品国产99热8| 欧美日韩免费在线视频| 2018日日摸夜夜添狠狠躁| 一级毛片免费的| 日韩欧美中文字幕在线精品| 国产福利小视频在线播放观看| 成人亚洲天堂| 亚洲自偷自拍另类小说| 91福利国产成人精品导航| 国产福利影院在线观看| 理论片一区| 国产情侣一区| 2021国产精品自产拍在线观看| 久热re国产手机在线观看| 国产无码在线调教| 亚洲香蕉在线| 国产免费福利网站| 亚洲国产午夜精华无码福利| 国产乱人乱偷精品视频a人人澡| 亚洲美女视频一区| 国产成本人片免费a∨短片| 亚洲另类第一页| 国产国产人在线成免费视频狼人色| 国产日韩久久久久无码精品| 欧美专区日韩专区| 国产九九精品视频| 国产毛片网站| 精品久久香蕉国产线看观看gif | 婷婷丁香色| 久无码久无码av无码| 精品伊人久久久香线蕉 | 欧美黑人欧美精品刺激| 少妇露出福利视频| 日本a∨在线观看| 久久国产精品国产自线拍| 亚洲天堂日本| 久草视频精品| 国精品91人妻无码一区二区三区| 最新国产高清在线| 国产精品久久久久久久久kt| 久久先锋资源| 成年人视频一区二区| 亚洲大尺度在线|