999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息采集技術(shù)在教育領(lǐng)域的應(yīng)用與實(shí)現(xiàn)

2019-03-19 13:57:00魏巍巍
產(chǎn)業(yè)與科技論壇 2019年4期
關(guān)鍵詞:頁面功能信息

□魏巍巍

時(shí)代的快速發(fā)展,使得信息技術(shù)不斷的挖掘與開發(fā),并且應(yīng)用于現(xiàn)代教育過程中。為了有效實(shí)現(xiàn)網(wǎng)絡(luò)信息采集技術(shù)在教育領(lǐng)域信息采集中的有效應(yīng)用,必須深入探討教育技術(shù)相關(guān)網(wǎng)站的采集特定主題,并且選取符合特定規(guī)律與格式的信息,通過信息收集與處理加工,有助于拓展教育領(lǐng)域的應(yīng)用價(jià)值,提高了信息的使用效率。

一、網(wǎng)絡(luò)信息采集技術(shù)設(shè)計(jì)思路與系統(tǒng)架構(gòu)

(一)網(wǎng)絡(luò)信息采集設(shè)計(jì)思路。網(wǎng)絡(luò)信息采集系統(tǒng)是由windows平臺(tái)研發(fā),運(yùn)用c語言形式編寫,并且采用了xml存儲(chǔ)格式,與數(shù)據(jù)庫進(jìn)行對(duì)接。網(wǎng)絡(luò)信息采集系統(tǒng)能夠?qū)δ繕?biāo)網(wǎng)站進(jìn)行信息數(shù)據(jù)的收集,通過固定模式、單線程、制定框架采集,有助于對(duì)不同網(wǎng)站制定多元化的框架模式,從而保證采集方式更加多樣,采集過程更加便捷。

(二)網(wǎng)絡(luò)信息采集系統(tǒng)架構(gòu)。網(wǎng)絡(luò)信息采集系統(tǒng)的基本框架主要是保存URL履帶抓取的數(shù)據(jù)結(jié)構(gòu),通過保存已經(jīng)抓取的數(shù)據(jù)結(jié)構(gòu),有效避免系統(tǒng)重復(fù)抓取。在目標(biāo)頁面獲取模塊,對(duì)于獲取的頁面內(nèi)容進(jìn)行部分抽取再進(jìn)行加工處理,完成數(shù)據(jù)的精確化存儲(chǔ)。網(wǎng)絡(luò)信息采集系統(tǒng)的應(yīng)用流程必須確定采集信息的所在網(wǎng)站以及采集信息的主題。將采集信息主題輸入系統(tǒng)中,在運(yùn)用搜索功能、搜索網(wǎng)站中,包含與采集信息主題相關(guān)的數(shù)據(jù)信息。信息采集器根據(jù)相關(guān)標(biāo)準(zhǔn)要求采集信息,對(duì)于采集頁面進(jìn)行結(jié)構(gòu)化調(diào)整,根據(jù)相關(guān)規(guī)則,實(shí)現(xiàn)自動(dòng)信息聚焦,從而得出初步的信息內(nèi)容。采集后的信息通過提取處理、格式轉(zhuǎn)換等等,生成信息索引,完成信息采集。將采集后的信息存儲(chǔ)到文件中,再根據(jù)使用需求,決定是否將文件存儲(chǔ)于同類別數(shù)據(jù)庫中,最后進(jìn)行信息展示。

二、網(wǎng)絡(luò)信息采集系統(tǒng)核心技術(shù)

在網(wǎng)絡(luò)信息采集系統(tǒng)中,支撐技術(shù)的主要有地址查詢技術(shù)與數(shù)據(jù)提取技術(shù)、模擬填充、數(shù)據(jù)精加工、自動(dòng)點(diǎn)擊技術(shù)等等。地址查詢技術(shù)是應(yīng)用布隆過濾器,判斷經(jīng)過函數(shù)散列時(shí)是否已經(jīng)訪問過,進(jìn)而避免重復(fù)采取某一數(shù)據(jù),導(dǎo)致程序死循環(huán)。其技術(shù)是開源項(xiàng)目,能夠?yàn)槟繕?biāo)網(wǎng)頁提供精準(zhǔn)的目標(biāo)搜索導(dǎo)航。在整個(gè)信息收集過程中,無論是頁面解析或者是文本抽取,都需要運(yùn)用到數(shù)據(jù)提取技術(shù),數(shù)據(jù)提取技術(shù)是一種路徑表達(dá)工具,能夠深入了解頁碼帶面中的最小單位從而精準(zhǔn)確定目標(biāo)數(shù)據(jù)的代碼,加強(qiáng)兩者的有效結(jié)合,對(duì)解析界面進(jìn)行綜合分析與目標(biāo)信息采集。而模擬填充與點(diǎn)擊功能則像是百度、搜狐一類具有搜索功能的網(wǎng)頁,由于大部分網(wǎng)站中均有搜索功能,應(yīng)用數(shù)據(jù)信息挖掘系統(tǒng),可以應(yīng)用網(wǎng)站內(nèi)搜索功能,有效地實(shí)現(xiàn)信息抓取。對(duì)于信息采集的目標(biāo)網(wǎng)站來說,通常站內(nèi)設(shè)有檢索,但是檢索也分為普通檢索與高級(jí)檢索兩類搜索方式,普通檢索只是提供輸入文本框,高級(jí)檢索則能夠除文本框以外進(jìn)行下拉列表框,或者是互斥選項(xiàng)等。應(yīng)用模擬填充中自動(dòng)點(diǎn)擊功能可以模擬,用戶的檢索行為,包括下拉列表檢索,或者是填充文本、點(diǎn)擊按鈕等一系列操作有助于增強(qiáng)搜索的準(zhǔn)確性。對(duì)于一些動(dòng)態(tài)類網(wǎng)頁,如果并未確定數(shù)據(jù)技術(shù)的導(dǎo)向,就需要模擬點(diǎn)擊下一頁,完成對(duì)應(yīng)頁的超鏈接。經(jīng)過以上幾個(gè)步驟后,雖然得到了初步信息,但是也是粗糙的原始數(shù)據(jù),必須對(duì)原始數(shù)據(jù)進(jìn)行精確加工,才能夠確保數(shù)據(jù)的價(jià)值與功能。原始數(shù)據(jù)中通常會(huì)出現(xiàn)HTML等文本,可以將占位符號(hào)去除,也可以對(duì)零散的原始信息進(jìn)行有效的加工,規(guī)范信息格式,例如可以將新聞信息的標(biāo)題與作者、發(fā)布日期統(tǒng)一設(shè)定為“某企業(yè)對(duì)于XXX技術(shù)應(yīng)用展開研討的通知”。對(duì)于作者信息或者是發(fā)布日期,存在文字中的引號(hào)與括號(hào),或者是一系列標(biāo)點(diǎn)符號(hào)。可以選用表達(dá)式定位目標(biāo),將這一部分符號(hào)抽取出來,再運(yùn)用自然語言處理。對(duì)于pdf文檔、圖片、音頻、視頻、壓縮包等則需要應(yīng)用數(shù)據(jù)提取技術(shù),導(dǎo)入下載程序。

三、網(wǎng)絡(luò)信息采集系統(tǒng)的實(shí)現(xiàn)

為了確保上述方法的可靠性與真實(shí)性,本文運(yùn)用簡(jiǎn)單的案例來驗(yàn)證。信息采集數(shù)據(jù)內(nèi)容是教育技術(shù)資源網(wǎng)中的教育信息,信息內(nèi)容是信息連接地址與信息標(biāo)題。通過加載頁面在設(shè)置編碼信息,確定目標(biāo)數(shù)據(jù)的所在位置,再應(yīng)用表達(dá)式XPATH獲取相關(guān)數(shù)據(jù)與信息。通過獲取該頁面下ID信息,再運(yùn)用SELECTNODES分析判斷代碼中是否包含提取的信息內(nèi)容,也就是本案例中所要提取的連接信息。如果是,代碼則表示為SELECTNODES(“//a”)最后將數(shù)據(jù)搜索已定位在所提取的數(shù)據(jù)點(diǎn)上,再提取相關(guān)信息。根據(jù)上述實(shí)驗(yàn),能夠看出,運(yùn)用本文提出的信息采集技術(shù),能夠有效地對(duì)教育網(wǎng)絡(luò)頁面信息進(jìn)行高效采集,從而應(yīng)用到教育技術(shù)中,有助于提高教育水平與工作效率,也增強(qiáng)了教育信息的多樣化,提高學(xué)生的綜合素養(yǎng)。

四、其他網(wǎng)絡(luò)信息采集方法

本文介紹的信息采集技術(shù)是應(yīng)用c語言編寫的,可以選用其他方式,例如:JAVA網(wǎng)絡(luò)信息采集技術(shù)。VIETSPIDER HRMLPARSER是HTML DOM解析器,是一項(xiàng)開發(fā)能源的網(wǎng)絡(luò)數(shù)據(jù)采集器,能夠提供圖形化界面,有助于用戶方便使用。同時(shí),該項(xiàng)技術(shù)能夠根據(jù)搜索主題展開目的特定信息搜索,對(duì)于初步獲得的信息進(jìn)行采集和分類,該項(xiàng)技術(shù)的最大特點(diǎn)在于能夠?qū)?shù)據(jù)采集過程變得簡(jiǎn)捷化,提供圖形化界面,滿足用戶的多元化使用需求。同時(shí)應(yīng)用了爬蟲技術(shù),有效提出了模板解析理念,根據(jù)站點(diǎn)提供代理或者是多線配置,有助于服務(wù)器高效運(yùn)行。同時(shí)VIETSPIDER可以在WINDOES系統(tǒng)下運(yùn)行,管理人員可以運(yùn)用VIETSPIDER客戶端進(jìn)行遠(yuǎn)程客戶管理,可以應(yīng)用于多類數(shù)據(jù)庫系統(tǒng)。VIETSPIDER系統(tǒng)中設(shè)置了瀏覽器功能,支持?jǐn)?shù)據(jù)解析以及多類數(shù)據(jù)的輸出格式、數(shù)據(jù)的改造與除雜,并且VIETSPIDER技術(shù)應(yīng)用設(shè)計(jì)極為簡(jiǎn)單高效,專業(yè)知識(shí)較少,能夠提高使用效率。也可以選用組合系統(tǒng)方法HERTRIX+HTMLPARSER,該項(xiàng)系統(tǒng)是JAVA.研發(fā)的網(wǎng)絡(luò)爬蟲,用戶可以從網(wǎng)絡(luò)上抓取想要獲取的目標(biāo)資源。HERTRIX能夠?qū)崿F(xiàn)HTML文件的解析,可以應(yīng)用于JAVA包的轉(zhuǎn)化與抽取。運(yùn)用HTMLPARSER則能夠?qū)崿F(xiàn)文本、鏈接、資源的抽取與站點(diǎn)、鏈接檢查等,通過數(shù)據(jù)檢查地址的重寫以及冗雜信息的清除,有效地將HTML頁面轉(zhuǎn)換為XML頁面。

五、結(jié)語

綜上所述,信息采集過程中由于采集量較大,必須實(shí)現(xiàn)互聯(lián)網(wǎng)站點(diǎn)的自動(dòng)點(diǎn)擊功能與填充功能,才能夠完成對(duì)網(wǎng)頁信息的解析與出題工作。最后要分析采集的網(wǎng)頁是否可以進(jìn)行重復(fù)采集,再對(duì)數(shù)據(jù)信息進(jìn)行精加工,只有滿足以上需求,才能夠有效實(shí)現(xiàn)信息采集技術(shù)在教育領(lǐng)域中的有效應(yīng)用。

猜你喜歡
頁面功能信息
大狗熊在睡覺
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
刷新生活的頁面
關(guān)于非首都功能疏解的幾點(diǎn)思考
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會(huì)信息
中西醫(yī)結(jié)合治療甲狀腺功能亢進(jìn)癥31例
辨證施護(hù)在輕度認(rèn)知功能損害中的應(yīng)用
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
主站蜘蛛池模板: 欧美一区福利| 国产成人AV大片大片在线播放 | 亚洲第一在线播放| 999在线免费视频| 欧美区一区| 亚洲成a∧人片在线观看无码| 国产二级毛片| 四虎精品国产AV二区| 无码一区18禁| 九九九精品成人免费视频7| 欧美视频二区| 国产午夜一级毛片| 中国国产A一级毛片| 人妻精品全国免费视频| 国产成人精品视频一区二区电影| 国产高清在线精品一区二区三区 | 免费久久一级欧美特大黄| 久热re国产手机在线观看| 国产精品白浆在线播放| 成人国产一区二区三区| 亚洲国产成熟视频在线多多| 亚洲制服丝袜第一页| 国产无码精品在线播放 | 亚洲综合精品第一页| 亚洲婷婷丁香| 国产精品福利在线观看无码卡| 欧美不卡视频一区发布| 免费一看一级毛片| 国产欧美日韩另类| 五月天综合婷婷| 无码'专区第一页| 国产精品乱偷免费视频| 欧美成人日韩| 国产粉嫩粉嫩的18在线播放91| 中国国语毛片免费观看视频| 久久久久青草大香线综合精品| 亚洲精品无码在线播放网站| 亚洲av日韩综合一区尤物| 日韩无码视频播放| 日本不卡在线视频| 一本二本三本不卡无码| 午夜精品区| 日韩免费毛片| 国产精品七七在线播放| 日本成人一区| 国产成人三级| 国内老司机精品视频在线播出| 欧美国产在线看| 中文字幕66页| 91麻豆国产精品91久久久| 亚洲天堂首页| 综合五月天网| 女人18毛片一级毛片在线| 亚洲成人高清在线观看| 97在线国产视频| 亚洲精品第五页| 国产乱子伦视频在线播放| 久久久久亚洲AV成人网站软件| 99re经典视频在线| 国产系列在线| 亚洲人成人伊人成综合网无码| 亚洲成人在线免费| 999国内精品视频免费| 国产精品免费久久久久影院无码| 色综合天天视频在线观看| 国产97色在线| 热思思久久免费视频| 久久精品亚洲热综合一区二区| 亚洲成人精品在线| 国产高清在线观看91精品| 天天综合色天天综合网| 国产日产欧美精品| 亚洲精品动漫| 中文字幕无线码一区| 国产a v无码专区亚洲av| 国产成人无码AV在线播放动漫| 日韩成人午夜| 国产美女精品人人做人人爽| 欧美日本一区二区三区免费| 成人午夜在线播放| 在线五月婷婷| 国产丰满成熟女性性满足视频|