張志恒+張顯庫+楊光平馬超+馮永孝
摘要摘要:利用Excel手動處理大量數(shù)據(jù)時工作量大、繁瑣,難以及時、準(zhǔn)確篩選數(shù)據(jù)。用VC++(Visual C++)編程實現(xiàn)工作簿數(shù)據(jù)處理,能夠快速、準(zhǔn)確地篩選出所需要的信息。以每年公布的1 1000余種SCI(Science Citation Index)期刊數(shù)據(jù)為例,編程實現(xiàn)對所需領(lǐng)域SCI期刊數(shù)據(jù)的快速篩選,便于科研工作者獲得領(lǐng)域具有高影響因子的SCI期刊數(shù)據(jù)信息,方便科研工作開展。
關(guān)鍵詞關(guān)鍵詞:VC++;數(shù)據(jù)處理;Excel工作簿;SCI期刊
DOIDOI:10.11907/rjdk.162170
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2017)001013502
引言
美國科學(xué)情報研究所出版的《科學(xué)引文索引》(Science Citation Index,簡稱SCI)是世界核心期刊文獻(xiàn)檢索的主要工具,其收錄了全世界最重要和最具影響力的研究成果。具有高影響因子的SCI論文對于科研具有極高的參考價值。SCI數(shù)據(jù)庫內(nèi)容繁多,快速、準(zhǔn)確地篩選所需要的SCI期刊相關(guān)信息,對于科研人員具有重要意義。Excel是Office家族中功能強(qiáng)大的辦公軟件,使用廣泛。SCI數(shù)據(jù)可以通過Excel直接導(dǎo)出,大多數(shù)科研人員采用Excel手動篩選,以獲得所需的內(nèi)容。人工處理SCI數(shù)據(jù)庫工作量大、易發(fā)生誤刪,影響最終結(jié)果的準(zhǔn)確性。用VC++編程對Excel工作簿進(jìn)行數(shù)據(jù)處理可以較好地解決這一問題。
VC++是Microsoft開發(fā)環(huán)境Visual Studio Professional 的一部分[1],VC++是常用的可視化界面開發(fā)工具,具有界面設(shè)計靈活多樣、代碼執(zhí)行效率高、數(shù)據(jù)處理速度快等優(yōu)點。利用VC++操作Excel,將兩者結(jié)合起來使用,對于快速處理數(shù)據(jù)具有重要意義[2]。
使用本文程序在Window10系統(tǒng)中利用VC++2013對Excel 2013的處理、編譯,達(dá)到了預(yù)期效果。
1Excel接口與對象模型
COM(Component Object Model)是一種面向?qū)ο蟮木幊棠J?,它定義了對象在單個應(yīng)用程序內(nèi)部或多個應(yīng)用程序之間的行為方式。VC++編譯的外部程序通過接口與Excel對象模型進(jìn)行交互,從而實現(xiàn)對Excel的操作,相比早期2003版本,該程序接口和對象模型發(fā)生了一定變化,程序中用到的對象主要有Application、Workbook、Worksheet等[3]。
首先插入一個類:按2013版的Excel安裝位置對應(yīng)地選擇為Excel.exe。選中常用的類對象:Application、Workbook、Workbooks、Worksheet、Worksheets、Range、Font,注釋類的頭文件#import。
3軟件介紹
3.1軟件設(shè)計原理
首先根據(jù)相關(guān)領(lǐng)域業(yè)關(guān)鍵詞進(jìn)行初步篩選,篩選出含有此關(guān)鍵詞的所有SCI論文;然后在此基礎(chǔ)上,利用程序收集的關(guān)鍵詞庫作進(jìn)一步篩選,刪除含有這個詞匯同時含有其它專業(yè)核心詞匯的一行數(shù)據(jù);最后較為準(zhǔn)確地篩選出所需要的論文數(shù)據(jù)。程序流程如圖1所示。
自定義篩選原理:通過學(xué)科關(guān)鍵字刪除不含有該學(xué)科的無關(guān)數(shù)據(jù),通過自定義篩選之后還有一部分含有學(xué)科關(guān)鍵字詞根,同時明顯屬于其它學(xué)科的數(shù)據(jù)、例如“disease”中含有“sea”關(guān)鍵字,但明顯與航海交通無關(guān),需要通過關(guān)鍵詞庫進(jìn)一步刪除。
關(guān)鍵詞庫中含有10個學(xué)科的主要專業(yè)詞匯。部分關(guān)鍵詞如下[78]:
圖1程序流程 交控類:traffic;ocean;isa;ship;navig;Transport;model;automat
醫(yī)學(xué)類:Medic;diabet;psycho;toxicolog;dermatolog;cardiolog;nurs
生物類:Bio;parasitolog;nutrit;entomolog;metabolism;Anthropo
人文類:Cultur;publi;manage;
market;famil;child;Sociolog
環(huán)境類:Water;geographclimat;environ;ecolog;earth;geolog
物理類:material;nano;molecular;physic;nuclear
化學(xué)類:Combustion;carbon;oil;chem; tobacco;plastic;algebra;steel;
經(jīng)濟(jì)類:Business;econom;financ;invest
農(nóng)林類:Forest;fish;agr;struct;sphere;geomet
天文類:astronomy;osmos ;solar;Venus;lunar;meteor。3.2軟件界面介紹
系統(tǒng)界面如圖2所示。點擊“選擇”按鈕調(diào)取需要處理的Excel文件,可自定義關(guān)鍵字(系統(tǒng)有默認(rèn)關(guān)鍵字,同時支持自定義填寫),勾選需查詢的領(lǐng)域,系統(tǒng)會在自定義篩選的基礎(chǔ)上重新刪除明顯與該領(lǐng)域無關(guān)的論文,界面中設(shè)有進(jìn)度條,可以顯示數(shù)據(jù)處理情況,方便使用者獲得數(shù)據(jù)處理進(jìn)度。點擊開始按鈕,進(jìn)行篩選。