999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學科發展熱點推薦平臺的實施模式研究

2011-04-29 00:00:00徐敏楊應全陳祖琴
現代情報 2011年1期

〔摘 要〕提出一個學科發展熱點推薦平臺的模型,致力于讓許多新進科研人員能夠迅速了解到相關學科領域的前沿和研究熱點。本文詳細闡述了模型系統的邏輯結構和設計思想并以信息采集模塊為例,詳細說明了信息推送的過程和如何通過爬蟲程序在學術期刊網站上獲取關鍵信息。

〔關鍵詞〕學科熱點;熱點推薦;信息采集

DOI:10.3969/j.issn.1008-0821.20.01.032

〔中圖分類號〕G250.73 〔文獻標識碼〕B 〔文章編號〕1008-0821(20)01-0127-03

Research of Implement Model of Recommended Disciplines Focus Platform

——Take the Function of Information Collection as ExampleXu Min Yang Yingquan Chen Zuqin

(Library,Chongqing University of Science Technology,Chongqing 401331,China)

〔Abstract〕It proposed the mode of recommended disciplines focus platform which in order to enable new researchers to realize the subjects frontier study focus.The essay elaborated the logic structure and designed thought of system model and with the process of information collection as example to expound the information sending and how to get key messages from academic journals website via crawlers program.

〔Keywords〕disciplines focus;recommended focus;information collection

隨著現代科學研究的深入,前沿研究熱點越來越難把握,如何整合學術信息資源分類提取前沿熱點,實現信息共建共享日益成為科研學術界普遍關注的問題。本文系中國冶金教育學會教育科學研究計劃課題“學科發展熱點推薦平臺的實施模式研究”的成果之一,以冶金領域為例,構架一個為科研學術用戶提供高質量、個性化和及時的熱點信息服務的學科發展熱點推薦平臺模型。

1 平臺簡介

學科發展熱點推薦平臺指的是針對不同學科,首先收集該學科的核心期刊,以期刊或期刊中的不同版塊為單位按其涉及的研究方向進行分類整理,再以每個期刊和期刊欄目下的文章為單位,通過對期刊的影響因子、期刊被引頻次、期刊反應速率、期刊平均引文率、論文的自引和被引頻次、論文發表周期等進行分析,進行數據挖掘,形成有效的學科熱點。舉例來說,以維普或萬方的期刊全文數據庫為數據源,以網頁爬蟲程序為數據采集工具,后臺通過對不同指標賦予不同的權重進行數據評價,然后對結果進行分類匯總,用戶通過前臺界面進行查詢瀏覽。

由于不同學科甚至同一學科的不同研究領域的發展程度是不同的,比如生物科技類期刊的影響因子一般高于機械類期刊,再就是醫學臨床類期刊的影響因子一般高于醫學內科類期刊,所以我們對于期刊以及論文搜集整理后的第一步是以期刊或期刊中的不同欄目為單位按其涉及的研究方向進行分類整理,將其劃分為一個個彼此獨立的小單元,這樣可以避免期刊論文評價中的強勢學科的干擾,再以每個期刊和期刊欄目下的文章為單位,通過事先已經建立的具有不同權重值的指標評價體系表對采集的論文進行評價,提取其中關鍵信息。但是每個研究領域都有其自身的特點,不可能通過完全固化一種指標評價體系,所以考慮每個學科實力較強的一些研究機構可以制定出適合本學科的指標評價體系并能調整修改,為讓結果更加符合用戶的需求,用戶可以對結果進行評價或提交自己認可的學科熱點,從而產生用戶主觀知識熱點。

2 學科發展熱點推薦平臺模型

學科發展熱點推薦平臺的相關人員分為平臺設計者、平臺架構者、數據提供者、數據獲取者、終端用戶五部分(見圖1),其中平臺設計者可以是一個或多個成員,他們往往來源于每個學科的核心研究機構,從概念模型到實際架構,從宏觀設計到細節布局提出想法,最終形成實施方案,平臺架構者利用技術來實現。平臺架設成功之后其他成員主要進行數據提供和數據獲取,而終端用戶主要是熱點信息獲取的單位、組織和個人,他們可以獲取熱點并進行評價反饋。整個系統平臺中操作權限和優先級別從高到底分別為“平臺設計者和架構者>數據提供者和獲取者>終端用戶”。

20年1月第31卷第1期學科發展熱點推薦平臺的實施模式研究Jan.,20平臺的操作一定是簡潔高效的,符合用戶使用習慣的,而后臺數據的存儲和處理過程是用戶不可見的。當在用戶界面進行信息需求的提交操作之后,通過數據存取接口來對需求進行分析,首先確定用戶需求知識所屬的學科,可以由一級學科劃分至二級學科直至細分到某些特定研究方向,再根據研究方向確定知識點的來源,然后將數據返回至用戶界面。由于現代學科的研究往往是多學科交叉,所以當用戶在用戶界面提交查詢之后,通過數據存取接口的分析處理,可能會分別從學科1的成員1和學科3的成員q中提取知識(見圖2),越是復雜的熱點所涉及的成員就越多。簡而言之就是對用戶的需求進行分解歸類,然后從特定欄目中提取資源提交用戶,這些資源都是來源于各個學科的不同成員。以冶金學科為例,北京科技大學的冶金與生態工程學院作為平臺中該學科類目的主干力量,起著制定冶金學科指標體系、提供資源、分解任務等方面的作用,然后其他冶金類的專科或本科院校或者個人用戶可以通過適量付費的方式獲取平臺資源。

圖2 學科熱點推薦平臺成員結構圖

3 平臺主要實現

平臺能夠為用戶很好服務的前提是有一個良好的數據基礎,因此如何能夠及時、方便、快捷地從互聯網上獲取海量學術信息的指標信息成為一個關鍵,這些指標信息指的就是論文的題名、作者、單位、摘要、關鍵詞、參考文獻、相似文獻、自引和被引頻次、發表周期以及所屬期刊的影響因子、被引頻次、反應速率、平均引文率等,通過以上這些信息能夠很好的捕捉出每個學科專業的熱點。而這些數據的采集源就是一些大型的學術期刊網,眾所周知,百度谷歌等大型搜索引擎都是可以直接索引學術期刊網的論文頁面,同樣也是獲取以上那些關鍵信息的過程,只要不索引論文的全文和一些保密信息是不會產生版權問題的,因為對其的索引首先是方便用戶的信息查詢;其次是對學術期刊網的宣傳,用戶通過搜索引擎找到文章之后進入相應的學術期刊網采用單篇文本付費方式獲取資源。本平臺數據采集的流程與搜索引擎類似,只采集期刊論文的指標信息,不采集論文全文信息,同樣不會產生版權問題,另外一個區別是除了索引信息之外還利用其進行熱點推薦,讓用戶在點開某學科欄目頁面之后了解最新的前沿,并能夠通過點擊熱點論文直接跳轉至學術資源網站的相應頁面查看更多信息或付費下載。

平臺的主要實現是依靠后臺的信息收集整理和前臺的用戶推薦。平臺前臺主要是為了實現信息推送、信息展示和信息搜索這3種功能。前臺學科熱點服務主要為會員用戶、訪客用戶和特定用戶服務。首先是一般性的訪客用戶,他們只是利用本平臺進行信息的瀏覽,通過平臺的用戶界面主觀性地找尋某些研究領域的熱點信息或學術資源,由于是一般性訪客,出于知識版權的考慮,往往對其開放的資源很少;而對于在本平臺注冊的會員用戶除了具備一般性訪客的所有使用權限之外,平臺還會定期利用E-mail和站內郵件等方式為其推送熱點信息,同時會員用戶也可以定制自己感興趣的熱點欄目,并根據級別開放不同層次的學術資源。而特定用戶是指需求不明確,研究領域較復雜的特殊用戶,平臺在熱點推薦的模式上可以既采用郵件式主動推送方式也可采取用戶提交需求,專家答疑的方式解決問題(見圖3)。而平臺后臺的實現主要是首先通過爬蟲程序對學術網站相關學科的頁面進行信息抓取,將所獲得的關鍵信息存儲起來,然后由該學科研究的專家成員根據本學科特點進行分析制定出熱點評價指標體系,所獲取的信息經過指標評價處理之后便形成熱點,然后各個成員再根據要求提供自有資源,從而構成一個既有熱點推薦也有學術資源共享的平臺。本部分以平臺后臺信息采集為例,通過分析外部學術資源網情況來實現關鍵信息抓取的過程。以維普的中文科技期刊數據庫為例,由于采用類似搜索引擎只抓取期刊論文展示頁面的各項關鍵信息而不涉及其全文信息,所以不會產生版權糾紛等問題。

圖3 前臺熱點服務模式圖

3.1 后臺信息采集過程

3.1.1 超鏈接分析

前面所討論的是各個成員主動性地將自身資源貢獻給平臺加以整合利用,但是學術網站的資源往往更加豐富,本平臺的一個熱點指標評價系統就需要通過爬蟲程序對互聯網上某一領域學術文章的篇名、關鍵詞以及所屬期刊等指標進行收集比對分析,統計這些字段中的實義詞的絕對詞頻、相對詞頻、期刊影響因子等屬性來劃定哪些為學科熱點詞匯。通過后臺的爬蟲程序定期對期刊網站進行頁面信息的抓取以實現數據收集的目的,以維普期刊網的一篇名為“高塑性耐熱Ni基合金”的文章為例,其頁面鏈接為http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通過對該超鏈接的分析發現,其中www.cqvip.com為維普期刊網站的一級域名;之后的qk字段為期刊的拼音縮寫,即維普的所有期刊頁面都存儲在該域名下的qk目錄中;95120X字段表示本篇論文所屬的期刊《兵器材料科學與工程》,即《兵器材料科學與工程》的所有論文的頁面都在該目錄下;201003字段表示該期刊的發行年月或刊號,即該目錄中為2010年3月份的《兵器材料科學與工程》的所有論文頁面;最后的34264684.html就是本篇論文的頁面。通過以上規律,我們的爬蟲程序可以分層級地在指定的期刊頁面進行遍歷,以《兵器材料科學與工程》期刊為例,首先爬蟲程序會在http:∥www.cqvip.com/qk/95120X/頁面上獲取所有年份以及月份的期刊的目錄(見圖4),接著再從每期的期刊的頁面中進入每篇論文的頁面,獲取每篇論文的關鍵信息。

爬蟲程序對頁面的搜索是一個深度遍歷的過程(見圖5),首先爬蟲對給予超鏈接的第一層進行遍歷,如果沒有發現下一層的超鏈接,則出錯,捕捉異常,進行下一個超鏈接的遍歷;若成功則抓取該頁面的關鍵信息并進行存儲,然后進入下一層的超鏈接。以維普期刊網的一個超鏈接為例,我們指定了《兵器材料科學與工程》這份期刊,爬蟲程序會首先進入特定網址http:∥www.cqvip.com/qk/95120X/,本頁面代碼中

    字段是本期刊歷年來每一期目錄的頁面鏈接,爬蟲程序抓取之后進行信息存儲再分別進入每一個子頁面,例如http:∥www.cqvip.com/qk/95120X/201003/,這是本期刊2010年3月份的期刊文章目錄,本頁面代碼中字段是所有文章的頁面鏈接,再抓取存儲之后進入每篇文章的子頁面,例如http:∥www.cqvip.com/qk/95120X/201003/34264684.html,而這個頁面的布局和代碼格式是固定的,爬蟲程序很容易抽取特定信息并存儲。

圖5 頁面信息提取流程圖

3.1.3 頁面代碼分析

爬蟲程序對于頁面信息的抓取是通過分析頁面的HTML語言,從不同的HTML標簽中獲取正確的信息。以維普期刊網為例,在論文頁面的HTML代碼中字段所對應的為文章篇名、是為了便于搜索引擎采集文章大體內容的描述性字段、是為了便于搜索引擎采集文章關鍵詞的字段、字段為摘要信息、字段為關鍵詞信息、字段為作者信息、

字段為所屬期刊名稱及目錄網址信息、
字段為期刊的期刊號及目錄網址信息、字段中包含了頁數和頁碼范圍信息、字段為學科分類信息、字段為相關文章信息。

4 結 語

學科發展熱點推薦平臺是為了輔助學術力量薄弱或不了解學科前沿的團體和個人進行學術研究。本文提出的設計構想在應用上還存在著一些不足,其理論研究以及實踐研究也有一些待商榷之處,但是從總體來看,該平臺可以起到促進學術交流共享,提高學術研究層次的目的。相信這個不斷完善的系統模型能夠為學科領域的學術共享發展起到積極的作用。

參考文獻

[1]宋宇.從主題爬蟲角度看數字資源建設[J].中國索引,2010,8(1):47-51.

[2]陳麗君,林懷忠.搜索引擎頁面刷新策略研究綜述[J].計算機系統應用,2009,18(7):210-214.

[3]劉漢興,劉財興.主題爬蟲的搜索策略研究[J].計算機工程與設計,2008,29(12):3160-3162.

[4]蘇學.期刊論文學術水平定量評價指標體系的初步設計[J].情報探索,2010,(5):7-9.

[5]陳樹聲,陳琳.基于Agent的面向主題信息查詢研究[J].現代電子技術,2007,30(3):7-120.

主站蜘蛛池模板: 女人18毛片一级毛片在线| 成人综合在线观看| 最新日本中文字幕| 国内丰满少妇猛烈精品播| 亚洲无码不卡网| 亚洲国产成人精品一二区 | yjizz视频最新网站在线| 国产靠逼视频| 五月婷婷综合网| 国产高清在线观看91精品| 久久人体视频| 亚洲国产第一区二区香蕉| 欧美在线综合视频| 久久精品一品道久久精品| 亚洲天堂网站在线| 狠狠久久综合伊人不卡| 亚洲无码精品在线播放| 国产在线观看精品| 成·人免费午夜无码视频在线观看 | 国产在线视频自拍| 91伊人国产| 国产人人乐人人爱| 一区二区欧美日韩高清免费 | 欧美国产日产一区二区| 亚洲专区一区二区在线观看| 国产精品妖精视频| 日韩高清一区 | 欧美日一级片| 四虎精品黑人视频| 免费观看国产小粉嫩喷水| 色悠久久久久久久综合网伊人| 亚洲视频欧美不卡| 国产成人啪视频一区二区三区| 2020亚洲精品无码| 日韩在线2020专区| 另类综合视频| 日韩区欧美国产区在线观看| 日本在线欧美在线| 制服丝袜一区二区三区在线| www成人国产在线观看网站| 国产日韩丝袜一二三区| 在线另类稀缺国产呦| 国产国语一级毛片在线视频| aa级毛片毛片免费观看久| 露脸国产精品自产在线播| 欧美啪啪一区| 欧美成人午夜影院| 九色在线观看视频| 亚洲精品午夜天堂网页| 91久久国产综合精品| 日本亚洲国产一区二区三区| 在线观看视频一区二区| 久久不卡精品| 久久精品波多野结衣| 国产精品制服| 亚洲精品无码AV电影在线播放| 色综合中文字幕| 四虎成人精品在永久免费| 国产激情无码一区二区APP | 日本午夜视频在线观看| 国产精品亚欧美一区二区三区| 一级成人欧美一区在线观看| 国产欧美日韩资源在线观看| 好紧好深好大乳无码中文字幕| 国产精品女在线观看| 国产精品毛片一区| 国产免费久久精品99re不卡| 国产精品污污在线观看网站| 国产96在线 | 四虎精品免费久久| 欧美自慰一级看片免费| 无码区日韩专区免费系列| 国产精品99在线观看| 久久人人爽人人爽人人片aV东京热 | 国产日韩欧美黄色片免费观看| 国产免费精彩视频| 欧美日韩v| 国产精品林美惠子在线播放| 在线免费观看AV| 久久永久视频| 国产在线观看一区精品| 91丝袜美腿高跟国产极品老师|