999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Matlab的共詞矩陣構(gòu)造

2017-05-12 23:59:30陳道蘭趙恒軍
合作經(jīng)濟(jì)與科技 2017年9期
關(guān)鍵詞:頁面分析

陳道蘭+趙恒軍

[提要] 共詞分析在文獻(xiàn)研究中被廣泛采用,共詞分析方法最關(guān)鍵的環(huán)節(jié)是共詞矩陣的構(gòu)造。本文詳細(xì)介紹基于中國知網(wǎng)數(shù)據(jù)庫的關(guān)鍵詞原始數(shù)據(jù)采集具體過程,利用Excel的分列功能和數(shù)據(jù)透視表功能進(jìn)行關(guān)鍵詞的分離和詞頻的統(tǒng)計(jì),以及高頻關(guān)鍵詞提取的預(yù)處理技巧,給出共詞矩陣構(gòu)造的算法及其Matlab程序。算例表明:文中所給共詞矩陣的構(gòu)造實(shí)施方便快捷、簡單易行。

關(guān)鍵詞:共詞矩陣;構(gòu)造;高頻關(guān)鍵詞;預(yù)處理;Matlab

基金項(xiàng)目:重慶市教委科研項(xiàng)目:“基于曲率的無參考圖像清晰度評價(jià)研究”(項(xiàng)目編號:KJ1401127);重慶文理學(xué)院科研項(xiàng)目:“共詞矩陣的構(gòu)造及其在文獻(xiàn)聚類分析方法中的應(yīng)用”(項(xiàng)目編號:Z2016TS72)

中圖分類號:G350 文獻(xiàn)標(biāo)識(shí)碼:A

收錄日期:2017年3月3日

一、引言

文獻(xiàn)計(jì)量學(xué)是采取定量手段來分析知識(shí)載體的交叉科學(xué),關(guān)鍵詞共詞分析作為通用的文獻(xiàn)計(jì)量法,主要是通過統(tǒng)計(jì)兩個(gè)關(guān)鍵詞在同一篇文獻(xiàn)中共同出現(xiàn)的次數(shù),并以此進(jìn)行聚類進(jìn)而分析預(yù)測特定學(xué)科的研究熱點(diǎn)。關(guān)鍵詞共詞一般可分為以下幾個(gè)環(huán)節(jié):采集原始數(shù)據(jù)→統(tǒng)計(jì)關(guān)鍵詞詞頻→提取高頻關(guān)鍵詞→構(gòu)造共詞矩陣→構(gòu)造相異矩陣→關(guān)鍵詞聚類→結(jié)果分析。在整個(gè)分析過程中,最后一步至關(guān)重要,它體現(xiàn)了研究的結(jié)論和價(jià)值,而最關(guān)鍵的一步則是共詞矩陣的構(gòu)造。共詞矩陣會(huì)直接影響到相異矩陣的構(gòu)造進(jìn)而影響聚類的結(jié)果,對研究的結(jié)論起著不可忽視的作用。

國內(nèi)學(xué)者對關(guān)鍵詞聚類分析主要表現(xiàn)在利用共詞矩陣對所研究的主題進(jìn)行預(yù)測,而對共詞矩陣如何構(gòu)造,大多數(shù)文獻(xiàn)只是略微提及。鑒于此,儲(chǔ)節(jié)旺等提出了利用Excel進(jìn)行共詞矩陣的構(gòu)造,他提出的方法在關(guān)鍵詞詞頻的統(tǒng)計(jì)、高頻關(guān)鍵詞的提取方面有較好的便利,但在共詞矩陣的具體構(gòu)造這一環(huán)節(jié),由于只是單純用Excel軟件處理,在清除低頻關(guān)鍵詞、關(guān)鍵詞組對等環(huán)節(jié)需要人工操作,導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)容易出錯(cuò)。因此,簡化關(guān)鍵詞的預(yù)處理和共詞矩陣構(gòu)造的過程是值得研究的課題。

Matlab是由美國Mathworks公司發(fā)布的數(shù)學(xué)軟件。考慮到Matlab軟件在數(shù)值計(jì)算方面的強(qiáng)大功能,本文提出以Matlab為編程軟件,編寫構(gòu)造共詞矩陣的Matlab文件。通過Matlab程序的編寫,簡省了低頻關(guān)鍵詞的清除過程和高頻關(guān)鍵詞的組對過程,降低了關(guān)鍵詞預(yù)處理的難度,簡化了共詞矩陣的構(gòu)造過程。Matlab算例表明編寫的Matlab程序?qū)苍~矩陣構(gòu)造實(shí)施方便快捷,簡單易行。

二、數(shù)據(jù)的采集與處理方法

(一)數(shù)據(jù)的采集

第一步:選擇文獻(xiàn)。在中國知網(wǎng)搜索頁面下,按照一定的數(shù)據(jù)采集標(biāo)準(zhǔn)進(jìn)行搜索得到檢索的文獻(xiàn),然后在所顯示的第一頁頁面中勾選所顯示的文獻(xiàn),點(diǎn)擊“下一頁”,再勾選第二頁顯示的文獻(xiàn),直到勾選完所有文獻(xiàn)。

第二步:數(shù)據(jù)輸出準(zhǔn)備。在勾選文獻(xiàn)的最后一頁點(diǎn)擊“導(dǎo)出/參考文獻(xiàn)”按鈕,在彈出的頁面中再次勾選剛才選擇的所有文獻(xiàn),再次點(diǎn)擊“導(dǎo)出/參考文獻(xiàn)”按鈕(很重要),然后出現(xiàn)標(biāo)題為“文獻(xiàn)管理中心_文獻(xiàn)輸出”頁面。在該頁面的左下方有“CAJ-CD”、“查新”、“CNKI-E-Study”等按鈕。點(diǎn)擊不同的按鈕,在頁面的右下方會(huì)顯示不同的結(jié)果,也可以點(diǎn)擊“自定義”按鈕,此時(shí)在頁面的右上方會(huì)顯示可供選擇的輸出字段,然后可以勾選所需要選擇輸出的字段即可。

第三步:數(shù)據(jù)輸出。在“文獻(xiàn)管理中心_文獻(xiàn)輸出”頁面中點(diǎn)擊按鈕“XLS”,在彈出的“文件下載”對話框中點(diǎn)擊“保存”按鈕后,在“另存為”對話框中選擇所需要保存的路徑和文件名,得到原始數(shù)據(jù)Excel表格。

說明:當(dāng)采集的數(shù)據(jù)超過500篇文獻(xiàn)時(shí),需要在完成前三步后,清除所勾選的文獻(xiàn),然后再選擇余下的文獻(xiàn),重復(fù)上述三個(gè)步驟,直到采集完所有文獻(xiàn)為止。

(二)數(shù)據(jù)的預(yù)處理

第一步:提取數(shù)據(jù)。復(fù)制關(guān)鍵詞所在列,將其拷貝到一張新的空白Excel文件中,將文件命名為”keywords.xls”。

第二步:分離關(guān)鍵詞。選擇文件keywords.xls的第一列所有的數(shù)據(jù),利用查找替換功能將關(guān)鍵詞的分隔符統(tǒng)一用單個(gè)分號進(jìn)行分隔。再次選中所有數(shù)據(jù),利用數(shù)據(jù)的分列功能將關(guān)鍵詞進(jìn)行分離到單一單元格中。

第三步:刪除單一關(guān)鍵詞。將分列得到的工作表按第二列進(jìn)行降序排列,將單一關(guān)鍵詞所在的行下移到了末尾,刪去這些單一關(guān)鍵詞所在的行,然后保存文件”keywords.xls”,得到關(guān)鍵詞表。

第四步:提取高頻關(guān)鍵詞。將關(guān)鍵詞表“Keywords.xls”的內(nèi)容復(fù)制到一個(gè)新的Excel文件中,文件命名為高頻關(guān)鍵詞統(tǒng)計(jì)表“Hfkw_count.xls”。在“Hfkw_count.xls”中,將所有單元格的內(nèi)容復(fù)制到第一列,然后進(jìn)行降序排列,將所有的空白單元格刪去。

在第一行前插入一行,在新的第一行依次輸入“關(guān)鍵詞”,“頻數(shù)”。從第二列的第二行起,每個(gè)單元格中輸入數(shù)字“1”。利用Excel數(shù)據(jù)透視表功能統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的頻數(shù)。將得到的數(shù)據(jù)透視表的第二列按降序排列,此時(shí)第二列數(shù)值較大的單元格所對應(yīng)的第一列的關(guān)鍵詞即為高頻關(guān)鍵詞。保存文件“Hfkw_count.xls”。

將頻數(shù)較高的關(guān)鍵詞復(fù)制,利用“選擇性粘貼——轉(zhuǎn)置”,粘貼到一個(gè)新的Excel文件中的第一行,將文件命名為高頻關(guān)鍵詞表“Hfkw.xls”。

三、共詞矩陣的Matlab程序?qū)崿F(xiàn)

(一)共詞矩陣的算法。共詞矩陣主要是統(tǒng)計(jì)兩個(gè)關(guān)鍵詞在同一篇文章中出現(xiàn)的篇數(shù)。將關(guān)鍵詞錄入Excel表格后,同一篇文獻(xiàn)的關(guān)鍵詞出現(xiàn)在同一行。但Excel表格中的數(shù)據(jù)不能直接作為Matlab的數(shù)組,因此應(yīng)先將Excel數(shù)據(jù)導(dǎo)入到Matlab文件變?yōu)镸atlab數(shù)組。從而統(tǒng)計(jì)兩個(gè)關(guān)鍵詞在同一篇文章中出現(xiàn)的篇數(shù)就變?yōu)榱私y(tǒng)計(jì)兩個(gè)關(guān)鍵詞在數(shù)組中同一行出現(xiàn)的次數(shù)。在高頻關(guān)鍵詞數(shù)組中任意抽取兩個(gè)關(guān)鍵詞,逐行統(tǒng)計(jì)兩個(gè)關(guān)鍵詞同行的次數(shù),將結(jié)果保存在共詞數(shù)組中,再將所得結(jié)果輸出到Excel表格中。

基于以上分析,共詞矩陣的算法可表述如下:第一步:讀取關(guān)鍵詞和高頻關(guān)鍵詞Excel數(shù)據(jù),并保存到OriginalData和TargetSet變量中;第二步:設(shè)置共詞矩陣大小,初值默認(rèn)為零矩陣;第三步:構(gòu)造關(guān)鍵詞同行次數(shù)計(jì)數(shù)函數(shù)countMatrix(Number1,Number2,Matrix)。從高頻關(guān)鍵詞TargetSet數(shù)組中任意抽取第i個(gè)和第j個(gè)元素,統(tǒng)計(jì)它們在關(guān)鍵詞OriginalData數(shù)組中同一行出現(xiàn)的次數(shù)Output(i,j)。具體方案為:使用函數(shù)ismember(a,Vector)對每一行都進(jìn)行判斷,如果a出現(xiàn)在Vector中,返回結(jié)果為1;否則為0。如果兩個(gè)關(guān)鍵詞的ismember結(jié)果都為1,則表示這兩個(gè)關(guān)鍵詞同時(shí)出現(xiàn)在這一行中,因此同行次數(shù)增加1;第四步:將關(guān)鍵詞同行的次數(shù)保存在共詞矩陣中,并將所得結(jié)果輸出到Excel表格中進(jìn)行顯示。

(二)共詞矩陣的Matlab程序。根據(jù)前述關(guān)于共詞矩陣的算法,利用Matlab 7.0軟件,編制構(gòu)造共詞矩陣的Matlab代碼如下:

將上述代碼錄入到Matlab M-File窗口,然后以Cowordmatrix.m為文件名進(jìn)行保存。

(三)Matlab程序的運(yùn)行。假設(shè)Matlab安裝在電腦的如下目錄:d:\Program Files\MATLAB7,則將前面按照關(guān)鍵詞數(shù)據(jù)的采集和預(yù)處理方法得到兩個(gè)Excel文件“Keywords.xls”和“Hfkw.xls”,以及前述的共詞矩陣構(gòu)造的Matlab文件Cowordmatrix.m一起復(fù)制到d:\Program Files\MATLAB7\work目錄下。

打開Matlab程序,在Matlab命令窗口Command window中鍵入Cowordmatrix,回車,等待數(shù)分鐘后就會(huì)在d:\Program Files\MATLAB7\work目錄下出現(xiàn)共詞矩陣Excel文件Output.xls,打開該文件所顯示的內(nèi)容即為共詞矩陣。

四、共詞矩陣的Matlab算例

下面以中國知網(wǎng)數(shù)據(jù)庫為數(shù)據(jù)源,對國內(nèi)的共詞分析的研究進(jìn)行共詞矩陣的構(gòu)造。以篇名為“共詞”進(jìn)行搜索,檢索時(shí)間為2016年8月26日,共搜索到553篇文獻(xiàn),按前述方法提取它們的關(guān)鍵詞,分列并刪去單一關(guān)鍵詞后得到關(guān)鍵詞表“Keywords.xls”。然后使用Excel表格的數(shù)據(jù)透視功能統(tǒng)計(jì)關(guān)鍵詞的頻次,得到高頻關(guān)鍵詞表“Hfkw.xls”。本文選取詞頻大于等于10的關(guān)鍵詞列表(其中剔除了“共詞分析法”、“共詞分析”、“共詞”等三個(gè)關(guān)鍵詞),具體頻次為:聚類分析(128)、社會(huì)網(wǎng)絡(luò)分析(36)、共詞聚類分析(20)、文獻(xiàn)計(jì)量(16)、研究熱點(diǎn)(91)、共詞聚類(26)、關(guān)鍵詞(19)、文獻(xiàn)計(jì)量學(xué)(16)、知識(shí)圖譜(53)、可視化(25)、 戰(zhàn)略坐標(biāo)(19)、共詞矩陣(14)、多維尺度分析(42)、共詞網(wǎng)絡(luò)(22)、詞頻分析(17)、共詞可視化(13)、因子分析(37)、研究主題(21)、SPSS(16)、知識(shí)管理(10)。

將得到的兩個(gè)Excel文件“Keywords.xls”、“Hfkw.xls”以及編程得到的Matlab文件Cowordmatrix.m復(fù)制到Matlab工作目錄d:\Program Files\MATLAB7\work目錄下。打開Matlab,在Maltab命令窗口輸入Matlab命令:Cowordmatrix,回車,出現(xiàn)的共詞矩陣結(jié)果(左上10×10部分)見表1。(表1)

五、結(jié)語

通過上述編寫的Matlab程序,研究者只需要對所研究的主題進(jìn)行關(guān)鍵詞原始數(shù)據(jù)的采集和預(yù)處理,形成兩個(gè)Excel文件即可,大大簡化了原始數(shù)據(jù)的預(yù)處理和共詞矩陣的構(gòu)造過程,輸出的Excel顯示結(jié)果直觀。算例表明本文所編寫的Matlab程序?qū)苍~矩陣的構(gòu)造實(shí)施方便快捷,簡單易行。

主要參考文獻(xiàn):

[1]鄒美辰.基于共詞分析和社會(huì)網(wǎng)絡(luò)分析的國內(nèi)外關(guān)聯(lián)數(shù)據(jù)研究探析[J].現(xiàn)代情報(bào),2016.3.

[2]陸慧雯.基于共詞分析的我國近十年行業(yè)與戰(zhàn)略情報(bào)研究[J].情報(bào)科學(xué),2016.5.

[3]周麗英,冷伏海,左文革.引文耦合增強(qiáng)的共詞分析方法改進(jìn)研究——以ESI農(nóng)業(yè)科學(xué)研究主題劃分為例[J].情報(bào)理論與實(shí)踐,2015.11.

[4]俞仙子,高英蓮,馬春霞等.提取核心特征詞的懲罰性矩陣分解方法——以共詞分析為例[J].現(xiàn)代圖書情報(bào)技術(shù),2014.3.

[5]王玉林,王忠義.細(xì)粒度語義共詞分析方法研究[J].圖書情報(bào)工作,2014.21.

[6]儲(chǔ)節(jié)旺,郭春俠.共詞分析法的基本原理及EXCEL實(shí)現(xiàn)[J].情報(bào)科學(xué),2011.6.

[7]張圣勤.MATLAB 7.0實(shí)用教程[M].北京:機(jī)械工業(yè)出版社,2015.

猜你喜歡
頁面分析
微信群聊總是找不到,打開這個(gè)開關(guān)就好了
大狗熊在睡覺
刷新生活的頁面
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
主站蜘蛛池模板: 久久狠狠色噜噜狠狠狠狠97视色| 国产成人高清精品免费5388| 国精品91人妻无码一区二区三区| 亚洲Aⅴ无码专区在线观看q| 国产第一页免费浮力影院| 亚洲色图欧美激情| 爽爽影院十八禁在线观看| 亚洲精品无码日韩国产不卡| 中日无码在线观看| 四虎AV麻豆| 国产美女丝袜高潮| 免费看美女自慰的网站| 亚洲人妖在线| 91精品伊人久久大香线蕉| 日韩AV手机在线观看蜜芽| 成人噜噜噜视频在线观看| 国产精欧美一区二区三区| 国产综合网站| 久草视频福利在线观看| 三区在线视频| 免费大黄网站在线观看| 精品久久久久久久久久久| 伊人久久久大香线蕉综合直播| 亚洲午夜天堂| 色婷婷亚洲综合五月| 日韩AV无码一区| 久青草网站| 国产97视频在线观看| 欧洲欧美人成免费全部视频| 免费网站成人亚洲| 亚洲首页国产精品丝袜| 国产在线视频导航| 97影院午夜在线观看视频| 国产二级毛片| 亚洲人在线| 国产第一页亚洲| 日韩 欧美 小说 综合网 另类| 亚洲码一区二区三区| 久久人与动人物A级毛片| 成人午夜视频免费看欧美| 色婷婷狠狠干| 精品综合久久久久久97| 国内精品小视频福利网址| 精品视频91| 日本福利视频网站| 久久综合伊人 六十路| 九九热视频精品在线| 久久黄色小视频| 手机在线国产精品| 亚洲三级色| 色综合成人| 久久这里只有精品66| 精品一区二区三区自慰喷水| 亚洲永久视频| 亚洲爱婷婷色69堂| 中文字幕无码电影| 亚洲精品无码av中文字幕| 国产成人免费视频精品一区二区| 亚洲午夜综合网| 色哟哟国产精品一区二区| 真人免费一级毛片一区二区| 国产手机在线ΑⅤ片无码观看| 国产精品jizz在线观看软件| 中文字幕欧美日韩| 国产精品九九视频| 国产一区二区三区免费| 国产一线在线| 四虎成人免费毛片| 亚洲国产精品国自产拍A| 国产精品yjizz视频网一二区| 国产男女免费完整版视频| 国产精品内射视频| 中文字幕伦视频| 日本精品影院| 国产精品免费p区| 亚洲精品中文字幕无乱码| 狠狠操夜夜爽| 亚洲天堂日本| 91精品国产无线乱码在线| 精品国产一二三区| 国产成人成人一区二区| 九九九精品成人免费视频7|