999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學科發展熱點推薦平臺的實施模式研究

2011-04-29 00:00:00徐敏楊應全陳祖琴
現代情報 2011年1期

〔摘 要〕提出一個學科發展熱點推薦平臺的模型,致力于讓許多新進科研人員能夠迅速了解到相關學科領域的前沿和研究熱點。本文詳細闡述了模型系統的邏輯結構和設計思想并以信息采集模塊為例,詳細說明了信息推送的過程和如何通過爬蟲程序在學術期刊網站上獲取關鍵信息。

〔關鍵詞〕學科熱點;熱點推薦;信息采集

DOI:10.3969/j.issn.1008-0821.20.01.032

〔中圖分類號〕G250.73 〔文獻標識碼〕B 〔文章編號〕1008-0821(20)01-0127-03

Research of Implement Model of Recommended Disciplines Focus Platform

——Take the Function of Information Collection as ExampleXu Min Yang Yingquan Chen Zuqin

(Library,Chongqing University of Science Technology,Chongqing 401331,China)

〔Abstract〕It proposed the mode of recommended disciplines focus platform which in order to enable new researchers to realize the subjects frontier study focus.The essay elaborated the logic structure and designed thought of system model and with the process of information collection as example to expound the information sending and how to get key messages from academic journals website via crawlers program.

〔Keywords〕disciplines focus;recommended focus;information collection

隨著現代科學研究的深入,前沿研究熱點越來越難把握,如何整合學術信息資源分類提取前沿熱點,實現信息共建共享日益成為科研學術界普遍關注的問題。本文系中國冶金教育學會教育科學研究計劃課題“學科發展熱點推薦平臺的實施模式研究”的成果之一,以冶金領域為例,構架一個為科研學術用戶提供高質量、個性化和及時的熱點信息服務的學科發展熱點推薦平臺模型。

1 平臺簡介

學科發展熱點推薦平臺指的是針對不同學科,首先收集該學科的核心期刊,以期刊或期刊中的不同版塊為單位按其涉及的研究方向進行分類整理,再以每個期刊和期刊欄目下的文章為單位,通過對期刊的影響因子、期刊被引頻次、期刊反應速率、期刊平均引文率、論文的自引和被引頻次、論文發表周期等進行分析,進行數據挖掘,形成有效的學科熱點。舉例來說,以維普或萬方的期刊全文數據庫為數據源,以網頁爬蟲程序為數據采集工具,后臺通過對不同指標賦予不同的權重進行數據評價,然后對結果進行分類匯總,用戶通過前臺界面進行查詢瀏覽。

由于不同學科甚至同一學科的不同研究領域的發展程度是不同的,比如生物科技類期刊的影響因子一般高于機械類期刊,再就是醫學臨床類期刊的影響因子一般高于醫學內科類期刊,所以我們對于期刊以及論文搜集整理后的第一步是以期刊或期刊中的不同欄目為單位按其涉及的研究方向進行分類整理,將其劃分為一個個彼此獨立的小單元,這樣可以避免期刊論文評價中的強勢學科的干擾,再以每個期刊和期刊欄目下的文章為單位,通過事先已經建立的具有不同權重值的指標評價體系表對采集的論文進行評價,提取其中關鍵信息。但是每個研究領域都有其自身的特點,不可能通過完全固化一種指標評價體系,所以考慮每個學科實力較強的一些研究機構可以制定出適合本學科的指標評價體系并能調整修改,為讓結果更加符合用戶的需求,用戶可以對結果進行評價或提交自己認可的學科熱點,從而產生用戶主觀知識熱點。

2 學科發展熱點推薦平臺模型

學科發展熱點推薦平臺的相關人員分為平臺設計者、平臺架構者、數據提供者、數據獲取者、終端用戶五部分(見圖1),其中平臺設計者可以是一個或多個成員,他們往往來源于每個學科的核心研究機構,從概念模型到實際架構,從宏觀設計到細節布局提出想法,最終形成實施方案,平臺架構者利用技術來實現。平臺架設成功之后其他成員主要進行數據提供和數據獲取,而終端用戶主要是熱點信息獲取的單位、組織和個人,他們可以獲取熱點并進行評價反饋。整個系統平臺中操作權限和優先級別從高到底分別為“平臺設計者和架構者>數據提供者和獲取者>終端用戶”。

20年1月第31卷第1期學科發展熱點推薦平臺的實施模式研究Jan.,20平臺的操作一定是簡潔高效的,符合用戶使用習慣的,而后臺數據的存儲和處理過程是用戶不可見的。當在用戶界面進行信息需求的提交操作之后,通過數據存取接口來對需求進行分析,首先確定用戶需求知識所屬的學科,可以由一級學科劃分至二級學科直至細分到某些特定研究方向,再根據研究方向確定知識點的來源,然后將數據返回至用戶界面。由于現代學科的研究往往是多學科交叉,所以當用戶在用戶界面提交查詢之后,通過數據存取接口的分析處理,可能會分別從學科1的成員1和學科3的成員q中提取知識(見圖2),越是復雜的熱點所涉及的成員就越多。簡而言之就是對用戶的需求進行分解歸類,然后從特定欄目中提取資源提交用戶,這些資源都是來源于各個學科的不同成員。以冶金學科為例,北京科技大學的冶金與生態工程學院作為平臺中該學科類目的主干力量,起著制定冶金學科指標體系、提供資源、分解任務等方面的作用,然后其他冶金類的專科或本科院校或者個人用戶可以通過適量付費的方式獲取平臺資源。

圖2 學科熱點推薦平臺成員結構圖

3 平臺主要實現

平臺能夠為用戶很好服務的前提是有一個良好的數據基礎,因此如何能夠及時、方便、快捷地從互聯網上獲取海量學術信息的指標信息成為一個關鍵,這些指標信息指的就是論文的題名、作者、單位、摘要、關鍵詞、參考文獻、相似文獻、自引和被引頻次、發表周期以及所屬期刊的影響因子、被引頻次、反應速率、平均引文率等,通過以上這些信息能夠很好的捕捉出每個學科專業的熱點。而這些數據的采集源就是一些大型的學術期刊網,眾所周知,百度谷歌等大型搜索引擎都是可以直接索引學術期刊網的論文頁面,同樣也是獲取以上那些關鍵信息的過程,只要不索引論文的全文和一些保密信息是不會產生版權問題的,因為對其的索引首先是方便用戶的信息查詢;其次是對學術期刊網的宣傳,用戶通過搜索引擎找到文章之后進入相應的學術期刊網采用單篇文本付費方式獲取資源。本平臺數據采集的流程與搜索引擎類似,只采集期刊論文的指標信息,不采集論文全文信息,同樣不會產生版權問題,另外一個區別是除了索引信息之外還利用其進行熱點推薦,讓用戶在點開某學科欄目頁面之后了解最新的前沿,并能夠通過點擊熱點論文直接跳轉至學術資源網站的相應頁面查看更多信息或付費下載。

平臺的主要實現是依靠后臺的信息收集整理和前臺的用戶推薦。平臺前臺主要是為了實現信息推送、信息展示和信息搜索這3種功能。前臺學科熱點服務主要為會員用戶、訪客用戶和特定用戶服務。首先是一般性的訪客用戶,他們只是利用本平臺進行信息的瀏覽,通過平臺的用戶界面主觀性地找尋某些研究領域的熱點信息或學術資源,由于是一般性訪客,出于知識版權的考慮,往往對其開放的資源很少;而對于在本平臺注冊的會員用戶除了具備一般性訪客的所有使用權限之外,平臺還會定期利用E-mail和站內郵件等方式為其推送熱點信息,同時會員用戶也可以定制自己感興趣的熱點欄目,并根據級別開放不同層次的學術資源。而特定用戶是指需求不明確,研究領域較復雜的特殊用戶,平臺在熱點推薦的模式上可以既采用郵件式主動推送方式也可采取用戶提交需求,專家答疑的方式解決問題(見圖3)。而平臺后臺的實現主要是首先通過爬蟲程序對學術網站相關學科的頁面進行信息抓取,將所獲得的關鍵信息存儲起來,然后由該學科研究的專家成員根據本學科特點進行分析制定出熱點評價指標體系,所獲取的信息經過指標評價處理之后便形成熱點,然后各個成員再根據要求提供自有資源,從而構成一個既有熱點推薦也有學術資源共享的平臺。本部分以平臺后臺信息采集為例,通過分析外部學術資源網情況來實現關鍵信息抓取的過程。以維普的中文科技期刊數據庫為例,由于采用類似搜索引擎只抓取期刊論文展示頁面的各項關鍵信息而不涉及其全文信息,所以不會產生版權糾紛等問題。

圖3 前臺熱點服務模式圖

3.1 后臺信息采集過程

3.1.1 超鏈接分析

前面所討論的是各個成員主動性地將自身資源貢獻給平臺加以整合利用,但是學術網站的資源往往更加豐富,本平臺的一個熱點指標評價系統就需要通過爬蟲程序對互聯網上某一領域學術文章的篇名、關鍵詞以及所屬期刊等指標進行收集比對分析,統計這些字段中的實義詞的絕對詞頻、相對詞頻、期刊影響因子等屬性來劃定哪些為學科熱點詞匯。通過后臺的爬蟲程序定期對期刊網站進行頁面信息的抓取以實現數據收集的目的,以維普期刊網的一篇名為“高塑性耐熱Ni基合金”的文章為例,其頁面鏈接為http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通過對該超鏈接的分析發現,其中www.cqvip.com為維普期刊網站的一級域名;之后的qk字段為期刊的拼音縮寫,即維普的所有期刊頁面都存儲在該域名下的qk目錄中;95120X字段表示本篇論文所屬的期刊《兵器材料科學與工程》,即《兵器材料科學與工程》的所有論文的頁面都在該目錄下;201003字段表示該期刊的發行年月或刊號,即該目錄中為2010年3月份的《兵器材料科學與工程》的所有論文頁面;最后的34264684.html就是本篇論文的頁面。通過以上規律,我們的爬蟲程序可以分層級地在指定的期刊頁面進行遍歷,以《兵器材料科學與工程》期刊為例,首先爬蟲程序會在http:∥www.cqvip.com/qk/95120X/頁面上獲取所有年份以及月份的期刊的目錄(見圖4),接著再從每期的期刊的頁面中進入每篇論文的頁面,獲取每篇論文的關鍵信息。

爬蟲程序對頁面的搜索是一個深度遍歷的過程(見圖5),首先爬蟲對給予超鏈接的第一層進行遍歷,如果沒有發現下一層的超鏈接,則出錯,捕捉異常,進行下一個超鏈接的遍歷;若成功則抓取該頁面的關鍵信息并進行存儲,然后進入下一層的超鏈接。以維普期刊網的一個超鏈接為例,我們指定了《兵器材料科學與工程》這份期刊,爬蟲程序會首先進入特定網址http:∥www.cqvip.com/qk/95120X/,本頁面代碼中

    字段是本期刊歷年來每一期目錄的頁面鏈接,爬蟲程序抓取之后進行信息存儲再分別進入每一個子頁面,例如http:∥www.cqvip.com/qk/95120X/201003/,這是本期刊2010年3月份的期刊文章目錄,本頁面代碼中字段是所有文章的頁面鏈接,再抓取存儲之后進入每篇文章的子頁面,例如http:∥www.cqvip.com/qk/95120X/201003/34264684.html,而這個頁面的布局和代碼格式是固定的,爬蟲程序很容易抽取特定信息并存儲。

圖5 頁面信息提取流程圖

3.1.3 頁面代碼分析

爬蟲程序對于頁面信息的抓取是通過分析頁面的HTML語言,從不同的HTML標簽中獲取正確的信息。以維普期刊網為例,在論文頁面的HTML代碼中字段所對應的為文章篇名、是為了便于搜索引擎采集文章大體內容的描述性字段、是為了便于搜索引擎采集文章關鍵詞的字段、字段為摘要信息、字段為關鍵詞信息、字段為作者信息、

字段為所屬期刊名稱及目錄網址信息、
字段為期刊的期刊號及目錄網址信息、字段中包含了頁數和頁碼范圍信息、字段為學科分類信息、字段為相關文章信息。

4 結 語

學科發展熱點推薦平臺是為了輔助學術力量薄弱或不了解學科前沿的團體和個人進行學術研究。本文提出的設計構想在應用上還存在著一些不足,其理論研究以及實踐研究也有一些待商榷之處,但是從總體來看,該平臺可以起到促進學術交流共享,提高學術研究層次的目的。相信這個不斷完善的系統模型能夠為學科領域的學術共享發展起到積極的作用。

參考文獻

[1]宋宇.從主題爬蟲角度看數字資源建設[J].中國索引,2010,8(1):47-51.

[2]陳麗君,林懷忠.搜索引擎頁面刷新策略研究綜述[J].計算機系統應用,2009,18(7):210-214.

[3]劉漢興,劉財興.主題爬蟲的搜索策略研究[J].計算機工程與設計,2008,29(12):3160-3162.

[4]蘇學.期刊論文學術水平定量評價指標體系的初步設計[J].情報探索,2010,(5):7-9.

[5]陳樹聲,陳琳.基于Agent的面向主題信息查詢研究[J].現代電子技術,2007,30(3):7-120.

主站蜘蛛池模板: 亚洲天堂.com| 亚洲视频在线青青| 亚洲无码四虎黄色网站| 国产精品网址在线观看你懂的| 国产一区二区三区在线观看视频| 国产永久免费视频m3u8| 精品五夜婷香蕉国产线看观看| 免费全部高H视频无码无遮掩| 女人18一级毛片免费观看| 国产一区二区三区在线精品专区| 欧美中文字幕一区| 国产精品天干天干在线观看| 久久性视频| 日韩免费毛片视频| 色综合激情网| 99在线观看免费视频| 国产成人做受免费视频| yjizz视频最新网站在线| 成人午夜视频在线| 91亚洲影院| 日本一区二区三区精品国产| 国产视频你懂得| 国产精品亚欧美一区二区| 午夜三级在线| 在线亚洲小视频| 99在线观看视频免费| 欧美激情综合| av手机版在线播放| 97免费在线观看视频| 日韩欧美国产综合| 日本尹人综合香蕉在线观看| 91无码人妻精品一区| 91精品日韩人妻无码久久| 97精品久久久大香线焦| 91毛片网| 国产美女一级毛片| 亚洲精品人成网线在线 | 制服丝袜 91视频| 精品人妻无码区在线视频| 麻豆国产精品| 免费观看欧美性一级| 精品久久综合1区2区3区激情| 日韩性网站| 久久中文无码精品| 五月综合色婷婷| 国产精品久久久久久久久久98| 国产美女在线免费观看| 精品国产Av电影无码久久久| 国产精品熟女亚洲AV麻豆| 91热爆在线| 国产在线第二页| 免费高清a毛片| 99久久国产综合精品女同| 色噜噜综合网| 日韩成人高清无码| 国产成人精品午夜视频'| 国产丝袜第一页| 精品久久国产综合精麻豆| 丰满少妇αⅴ无码区| 国产理论最新国产精品视频| 一级全免费视频播放| 久久狠狠色噜噜狠狠狠狠97视色| 3p叠罗汉国产精品久久| 5555国产在线观看| 亚洲成a人片在线观看88| 国产精品高清国产三级囯产AV | 国产精品55夜色66夜色| 波多野结衣爽到高潮漏水大喷| 国产一区二区三区夜色| 免费高清毛片| 69av在线| 美女扒开下面流白浆在线试听| 亚洲欧洲AV一区二区三区| 国产91丝袜在线播放动漫| 精品国产成人av免费| 亚洲成A人V欧美综合| 精品国产一区二区三区在线观看 | 久久中文无码精品| 欧美成在线视频| 手机成人午夜在线视频| 午夜天堂视频| 97色婷婷成人综合在线观看|