劉 念,張魯冀,趙燕燕,陳 默
(1. 北京電子科技學(xué)院 北京100070;2. 北京市科學(xué)技術(shù)情報(bào)研究所 北京100048;3. 大唐電信科技股份有限公司 北京100094;4. 機(jī)械工業(yè)信息研究院 北京100037)
基于項(xiàng)目檔案的學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)設(shè)計(jì)研究
劉 念1,張魯冀2,趙燕燕3,陳 默4
(1. 北京電子科技學(xué)院 北京100070;2. 北京市科學(xué)技術(shù)情報(bào)研究所 北京100048;3. 大唐電信科技股份有限公司 北京100094;4. 機(jī)械工業(yè)信息研究院 北京100037)
學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)是北京市情報(bào)所建設(shè)的科技情報(bào)資源網(wǎng)絡(luò)服務(wù)平臺(tái),是科技情報(bào)信息資源網(wǎng)絡(luò)體系的重要組成部分。學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)其根本是為了服務(wù)于社會(huì)科技進(jìn)步和科技創(chuàng)新,系統(tǒng)的設(shè)計(jì)則是充分運(yùn)用信息技術(shù)、網(wǎng)絡(luò)技術(shù)等科技手段,對(duì)科技情報(bào)信息資源進(jìn)行戰(zhàn)略重組和系統(tǒng)優(yōu)化,促進(jìn)科技情報(bào)信息資源的高效、合理的配置,將科技情報(bào)信息資源價(jià)值得到最大化的實(shí)現(xiàn)。對(duì)系統(tǒng)設(shè)計(jì)進(jìn)行了分析研究。
檔案 情報(bào) 學(xué)術(shù)專題
學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)是北京市情報(bào)所建設(shè)的科技情報(bào)資源網(wǎng)絡(luò)服務(wù)平臺(tái),是科技情報(bào)信息資源網(wǎng)絡(luò)體系的重要組成部分。學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)的宗旨是服務(wù)社會(huì)科技進(jìn)步和科技創(chuàng)新,系統(tǒng)設(shè)計(jì)充分運(yùn)用信息技術(shù)、網(wǎng)絡(luò)技術(shù)等科技手段,對(duì)科技情報(bào)信息資源進(jìn)行戰(zhàn)略重組和系統(tǒng)優(yōu)化,促進(jìn)科技情報(bào)信息資源的高效、合理配置,使科技情報(bào)信息資源價(jià)值得到最大化的實(shí)現(xiàn)。
“科技計(jì)劃項(xiàng)目檔案”(以下簡稱項(xiàng)目檔案),專指以國家或地方政府財(cái)政投入為主,并列入國家或地方科技計(jì)劃項(xiàng)目,在其管理和實(shí)施全過程中形成的、具有保存價(jià)值的各種類型和載體的原始記錄。
項(xiàng)目檔案不僅是項(xiàng)目成果的重要組成部分(有時(shí)甚至是唯一成果),是項(xiàng)目管理的載體,是項(xiàng)目實(shí)施、驗(yàn)收及成果推廣應(yīng)用的真實(shí)記錄和可靠依據(jù),也是國家科技信息資源的重要組成部分。
目前情報(bào)學(xué)做的大多是基于圖書期刊文獻(xiàn)的情報(bào),因此好多人認(rèn)為圖情檔是一家。不過近幾年,許多專家都呼吁情報(bào)學(xué)要與圖書館學(xué)區(qū)別開來,認(rèn)為情報(bào)學(xué)做圖書對(duì)于學(xué)科來說是倒退,要提升情報(bào)學(xué)的地位,真正做到普通大眾所認(rèn)同的情報(bào)。
1.1 總體目標(biāo)
本系統(tǒng)的實(shí)現(xiàn)對(duì)于促進(jìn)情報(bào)工作的現(xiàn)代化將具有重要意義與作用。對(duì)于情報(bào)專業(yè)機(jī)構(gòu)來說,其最大的價(jià)值就是通過建設(shè)大數(shù)據(jù)采集與篩選工具能夠?qū)崟r(shí)進(jìn)行檔案數(shù)據(jù)庫的采集、篩選、抽取,為各種情報(bào)服務(wù)提供數(shù)據(jù)資源。本系統(tǒng)的實(shí)施將會(huì)有效促進(jìn)情報(bào)工作的現(xiàn)代化,具體表現(xiàn)在以下4個(gè)方面:①系統(tǒng)的“科技情報(bào)搜索”實(shí)現(xiàn)檔案大數(shù)據(jù)實(shí)時(shí)采集,提供全面高效數(shù)據(jù)支持;②系統(tǒng)的“大數(shù)據(jù)篩選”實(shí)現(xiàn)大數(shù)據(jù)預(yù)處理,提高數(shù)據(jù)質(zhì)量;③系統(tǒng)的“動(dòng)態(tài)情報(bào)跟蹤”實(shí)現(xiàn)對(duì)情報(bào)對(duì)象動(dòng)態(tài)跟蹤,為預(yù)測、預(yù)警奠定數(shù)據(jù)基礎(chǔ);④系統(tǒng)的“基于科技主體社會(huì)網(wǎng)絡(luò)的情報(bào)分析”能提供科技主體社會(huì)關(guān)系導(dǎo)航圖,解決情報(bào)流程中專家及機(jī)構(gòu)的選擇問題。
1.2 重要意義
該項(xiàng)目的實(shí)施可以有效解決北京市科學(xué)技術(shù)情報(bào)研究所情報(bào)工作中數(shù)據(jù)資源不足和海量信息處理能力不足的問題,對(duì)于打造該所核心競爭力具有重要的促進(jìn)作用。
“大數(shù)據(jù)采集與篩選工具建設(shè)”項(xiàng)目是集科技情報(bào)搜索工具、情報(bào)處理工具、基于科技主體網(wǎng)絡(luò)的情報(bào)工具為一體的情報(bào)工具,可以有效提高情報(bào)所為情報(bào)服務(wù)的數(shù)據(jù)資源建設(shè)能力。
通過科技情報(bào)搜索工具的設(shè)計(jì)與封裝以及大數(shù)據(jù)篩選工具的開發(fā),可以輔助解決情報(bào)所信息處理能力不足的問題,對(duì)于情報(bào)工作本身的現(xiàn)代化具有重要的推進(jìn)作用。
通過設(shè)計(jì)開發(fā)動(dòng)態(tài)情報(bào)跟蹤工具可以實(shí)現(xiàn)過程情報(bào)數(shù)據(jù)庫的建立,可以為情報(bào)預(yù)測預(yù)警服務(wù)提供基礎(chǔ)數(shù)據(jù)支撐,為情報(bào)所從大數(shù)據(jù)中汲取“大洞察”“大智慧”提供助力工具,進(jìn)而增強(qiáng)情報(bào)所的行業(yè)競爭力。
本課題開發(fā)并實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下的搜索引擎技術(shù)、本體庫、SVM分類算法、聚類算法和信息篩選技術(shù),構(gòu)建面向互聯(lián)網(wǎng)大數(shù)據(jù)、人際網(wǎng)絡(luò)數(shù)據(jù)和信息篩選的大數(shù)據(jù)采集與篩選工具,為情報(bào)服務(wù)的數(shù)據(jù)資源建設(shè)提供工具。
2.1 科技情報(bào)搜索工具的設(shè)計(jì)與封裝
科技情報(bào)搜索工具設(shè)計(jì)與封裝將通過信息抽取技術(shù)自動(dòng)構(gòu)建科技情報(bào)領(lǐng)域本體庫,然后使用領(lǐng)域本體對(duì)用戶查詢需求進(jìn)行語義處理去實(shí)現(xiàn)。
本課題設(shè)計(jì)與實(shí)現(xiàn)的科技情報(bào)搜索工具能夠返回用戶多種相互關(guān)聯(lián)的信息,較好地解決目前基于關(guān)鍵詞的搜索引擎存在查全率和查準(zhǔn)率方面的不足。
2.2 基于科技主體社會(huì)網(wǎng)絡(luò)的情報(bào)分析
本課題基于移動(dòng)網(wǎng)絡(luò)環(huán)境下的情報(bào)采集技術(shù),根據(jù)社會(huì)網(wǎng)絡(luò)理論,完成科技主體(單位和個(gè)人)相互關(guān)系的表達(dá),從而確定某一主題下各個(gè)科技主體的特征,以便找到適合進(jìn)行情報(bào)分析判讀的行業(yè)專家。
2.3 動(dòng)態(tài)情報(bào)跟蹤
本課題建設(shè)的動(dòng)態(tài)情報(bào)跟蹤工具是將情報(bào)搜索工具搜索的數(shù)據(jù)導(dǎo)入,利用以下技術(shù)進(jìn)行整理:本體庫、各領(lǐng)域?qū)W科詞表中的詞匯距離、SVM分類算法、聚類算法,將整理出的高品質(zhì)數(shù)據(jù)導(dǎo)入動(dòng)態(tài)情報(bào)跟蹤工具中,完成數(shù)據(jù)抽取,將網(wǎng)頁中的主體、時(shí)間、地點(diǎn)、做什么事、數(shù)據(jù)和設(shè)定的主體一并寫入基礎(chǔ)數(shù)據(jù)庫,完成描述一個(gè)主體正在為了某個(gè)目的進(jìn)行的活動(dòng)過程的記錄。
2.4 大數(shù)據(jù)篩選
本課題根據(jù)研究內(nèi)容設(shè)定采集數(shù)據(jù)的范圍,將采集到的數(shù)據(jù)去噪、剔除相似數(shù)據(jù)后,根據(jù)領(lǐng)域詞匯距離、情報(bào)點(diǎn)關(guān)鍵詞錄、情報(bào)報(bào)告關(guān)鍵詞錄摘錄出較具情報(bào)價(jià)值的信息,力爭把以10萬計(jì)的海量信息壓縮到600條以內(nèi),同時(shí)核心信息保存一半以上。
3.1 性能需求
學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)是大數(shù)據(jù)數(shù)字情報(bào)挖掘的綜合系統(tǒng),在遇到突發(fā)事件時(shí)峰值時(shí)間的并發(fā)用戶數(shù)較高。另外,考慮到情報(bào)業(yè)務(wù)的流動(dòng)性,歷史數(shù)據(jù)的積累會(huì)非常大。因此需要較高的性能要求:
3.1.1 系統(tǒng)可用性
系統(tǒng) 7×24,h持續(xù)可用,可對(duì)系統(tǒng)進(jìn)行維護(hù);數(shù)據(jù)存取服務(wù)要求準(zhǔn)確,保證數(shù)據(jù)不丟失。
3.1.2 系統(tǒng)可擴(kuò)展性
系統(tǒng)留有擴(kuò)充的接口,將來功能擴(kuò)充時(shí)不影響現(xiàn)有系統(tǒng)功能和結(jié)構(gòu),能夠方便其他系統(tǒng)模塊的后續(xù)擴(kuò)張。系統(tǒng)的設(shè)計(jì)和開發(fā)充分考慮了將來數(shù)據(jù)量和訪問量急劇擴(kuò)張的情況,當(dāng)系統(tǒng)數(shù)據(jù)量和訪問量增大而導(dǎo)致系統(tǒng)配置不能滿足要求時(shí),可以通過僅增加服務(wù)器等硬件進(jìn)行解決,而不用在軟件上修改響應(yīng)性能。
3.1.3 服務(wù)時(shí)效性
一般 Web 查詢的響應(yīng)時(shí)間在15,s以內(nèi),而帶有復(fù)雜的餅圖、棒圖、矩陣圖的統(tǒng)計(jì)分析,響應(yīng)時(shí)間在60,s以內(nèi)。服務(wù)器的 CPU 平均負(fù)荷率≤55%,。
3.1.4 可恢復(fù)性
在系統(tǒng)發(fā)生故障時(shí),傳輸數(shù)據(jù)服務(wù)恢復(fù)和數(shù)據(jù)庫恢復(fù)都可在24,h內(nèi)完成,并且可以保證數(shù)據(jù)不丟失。
3.2 安全需求
由于檔案情報(bào)信息涉及面廣泛,可能觸及敏感信息,因此提出如下安全需求:用戶信息嚴(yán)格保密;驗(yàn)證手段安全可靠;搜索、訪問重要數(shù)據(jù)必須授權(quán),拒絕匿名訪問;對(duì)重要數(shù)據(jù)的操作可以追蹤;能夠抵御常見的惡意攻擊。
學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)業(yè)務(wù)流程為:根據(jù)關(guān)鍵詞并行進(jìn)行文檔庫爬取,獲取有效的文檔信息,去重、去噪后得到需要的網(wǎng)頁信息與論文信息。對(duì)數(shù)據(jù)進(jìn)行特定的處理,采用特定的算法對(duì)獲取的數(shù)據(jù)進(jìn)行處理分析,生成需要的圖表格式并得出結(jié)論。
本學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)按照情報(bào)流程節(jié)點(diǎn)的不同,可以細(xì)分為幾個(gè)大模塊:搜索大模塊、控制大模塊、整理大模塊、分析大模塊及結(jié)論生成大模塊。大模塊下又可細(xì)分為幾個(gè)小模塊。學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)模塊劃分如下圖1所示。

圖1 系統(tǒng)功能模塊圖Fig.1 System function module
4.1 搜索大模塊需求分析
搜索大模塊主要包括網(wǎng)頁搜索模塊和論文搜索模塊兩個(gè)模塊。網(wǎng)頁搜索模塊致力于在網(wǎng)絡(luò)上搜索與關(guān)鍵字相關(guān)的網(wǎng)頁集合,為后續(xù)的操作提供初始的網(wǎng)頁信息材料來源。論文搜索模塊是在我們制定好的論文庫中搜索與關(guān)鍵字相關(guān)的論文集合,得到與關(guān)鍵字有密切關(guān)系的論文集合,為之后的整理分析等工作提供初始的材料來源。
4.2 控制大模塊需求分析
控制大模塊主要包括兩個(gè)小模塊:內(nèi)存控制模塊和線程控制模塊。無論是從網(wǎng)頁中獲取信息還是從論文中獲取信息,系統(tǒng)在獲取信息過程中獲取的信息容量比較大,所以需要內(nèi)存控制模塊來高效運(yùn)行此系統(tǒng)的計(jì)算機(jī)內(nèi)存,以提高系統(tǒng)運(yùn)行效率。由于要獲取的信息內(nèi)容十分多,所以采用并行技術(shù)獲取信息。多線程操作可以保證系統(tǒng)并行開展信息的獲取。
4.3 整理大模塊需求分析
整理大模塊主要有網(wǎng)頁內(nèi)容整理和論文內(nèi)容整理模塊。網(wǎng)頁內(nèi)容整理模塊主要是對(duì)獲取到的網(wǎng)頁進(jìn)行去重、去噪等處理,得到干凈、整齊的網(wǎng)頁內(nèi)容。論文內(nèi)容整理模塊是對(duì)已經(jīng)獲取到的論文集合進(jìn)行去重、去噪等處理,獲取格式整齊的論文內(nèi)容,以便進(jìn)行下面的工作。
4.4 分析大模塊需求分析
分析大模塊主要包含網(wǎng)頁內(nèi)容分析和論文內(nèi)容分析兩個(gè)模塊。網(wǎng)頁內(nèi)容分析模塊是對(duì)前面已經(jīng)處理過的網(wǎng)頁信息采用分類、對(duì)比等特定分析方法進(jìn)行分析,以幫助后面的模塊得到想要的結(jié)果。論文內(nèi)容分析模塊是針對(duì)之前通過搜索、處理得到的整齊的論文,采用特定的分類、對(duì)比等分析方法對(duì)論文內(nèi)容進(jìn)行分析,得到分析的結(jié)果。
4.5 結(jié)論生成大模塊需求分析
結(jié)論生成大模塊主要包含網(wǎng)頁生成結(jié)論模塊和論文生成結(jié)論模塊。網(wǎng)頁生成結(jié)論模塊使用通過關(guān)鍵詞篩選出的網(wǎng)頁信息,經(jīng)整理、分析得出的結(jié)果采用表格、圖表等方式展現(xiàn)給用戶,讓用戶對(duì)結(jié)論有一個(gè)直觀的了解。論文生成模塊使用通過關(guān)鍵詞篩選出的論文信息,經(jīng)過整理、分析得到的結(jié)果采用與網(wǎng)頁生成結(jié)論模塊基本相同的樣式,如以表格、柱狀圖、餅圖等方式向用戶展示,便于用戶進(jìn)行相關(guān)的決策等。■
[1] 賀德方. 我國科技情報(bào)行業(yè)發(fā)展戰(zhàn)略與發(fā)展路徑的思考[J]. 情報(bào)學(xué)報(bào),2007,26(4):54-61.
[2] 羅欣,夏德麟. 基于詞頻差異的特征選取及改進(jìn)的TF-IDF公式[J]. 計(jì)算機(jī)應(yīng)用,2005,25(9):54-59.
[3] 鄭彥寧,宋振峰. 我國科技情報(bào)行業(yè)現(xiàn)狀與發(fā)展對(duì)策分析[J]. 情報(bào)學(xué)報(bào),2007,26(5):10-15.
Design of Academic Research Information Rapid Generating System Based on Project Archives
LIU Nian1,ZHANG Luji2,ZHAO Yanyan3,CHEN Mo4
(1.Beijing Electronic Science and Technology Institute,Beijing 100070,China;2.Beijing Institute of Science and Technology Information,Beijing 100048,China;3.Datang Telecom Technology Co.,LTD,Beijing 100094,China;4.Machinery Industry Information Institute,Beijing 100037,China)
Built by Beijing Institute of Science and Technology Information,academic research information fast generating system is a science and technology information resource network service platform and also an important part of science and technology information resources network.The fundamental academic research information fast generating system is to serve the social scientific and technological progress and scientific and technological innovation.The design of the system is based on the fully using of technology such as information technology and network technology to perform reorganization of strategy of science and technology information resources and system optimization and to promote efficient and reasonable configuration of science and technology information resources to maximize the implementation of science and technology information resources value.The system design was analyzed in the paper.
archives;intelligence;academic topic
G27
A
1006-8945(2016)08-0013-03
本論文得到“北京市科技計(jì)劃項(xiàng)目”資助,項(xiàng)目名稱:數(shù)字科技檔案自動(dòng)化與利用服務(wù)系統(tǒng)設(shè)計(jì)研發(fā)(Z151100003215042)。
2016-08-02