999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF矩陣方法的學科研究熱點提取

2021-03-12 14:06:07李一平
甘肅科技縱橫 2021年12期

李一平

摘要:目的:以信息計量學為基礎的學科研究熱點提取多以作者自行定義的關鍵詞為研究對象,關鍵詞個數較隨意且帶有論文作者的主觀猜想。故提出一種基于TF-IDF矩陣結合高權重詞出現頻率的方法,提取學科研究熱點。方法:釆集2017年度《現代情報》的載文內容,對每篇文章進行全文分詞,生成詞向量空間,創建TF-IDF權重矩陣。統計高權重詞的出現頻率提取研究熱點。結論:通過與用信息計量學方法得到的結果進行對比,證明該方法有效且客觀。

關鍵詞:研究熱點;TF-IDF矩陣;全文分詞

中圖分類號:G250文獻標志碼:A

0引言

研究熱點是反映某一學科發展規律和特征的重要指標,有助于把握該學科領域發展的軌跡和趨勢。情報學是研究信息、知識和情報的產生、傳遞、利用規律,運用現代科學技術有效地管理和利用信息、知識和情報的_門交叉學科E。對情報學研究熱點及其變化過程的分析將有助于從整體上把握情報學發展動向,促進情報學與其他學科的融合發展。

目前,國內學者對情報學研究熱點的探究主要從不同類型的論文入手,比如分析期刊論文、學位論文、會議論文,從不同的角度對情報學熱點進行剖析⑵。研究內容隨著新興技術的更新而不斷完善和發展,開始關注知識層面的數據管理和挖掘,更注重知識本身的潛在價值,同時也開始關注科技文獻、科技數據等的內容發現,以及情報學教育的探索。研究方法也是多種多樣,具體來說,多是將定性與定量相結合,還包括很多工具和手段,諸如知識圖譜、聚類工具、高被引分析和機器學習方法等。

在定量的研究方法中,通過關鍵詞進而揭示研究目的是眾多研究學者青睞的研究方式。一方面關鍵詞是表達文獻主題概念的自然語言詞匯'氣其能夠高度概括文章的核心主旨和作者的主觀思想。關鍵詞詞頻的變化波動和社會現象、學科發展存在著密不可分的聯系。通過分析文獻中存在的大量關鍵詞,可在一定程度上揭示學科發展的總體特征和內容特點,了解學術研究的發展脈絡及發展動向,關鍵詞的變化也是前沿熱點的另_種表現形式。但現有研究中仍然存在不足之處,一是關鍵詞無法準確概括文本核心內容,二是關鍵詞的數量也會對分析文章起到重要作用,簡單地將某個階段文獻中某個關鍵詞的頻次累加或進行共現分析,顯然對于研究結果的結論會造成不同程度的影響,具有一定的局限性'氣

基于此,本論述著眼于期刊全文內容,不依賴題錄信息進行關鍵詞特征提取。首先對文章全文進行分詞,去除無意義的停用詞,構建所有數據樣本的詞袋模型。然后計算每篇文章詞語的TF-IDF權重,生成TF- IDF矩陣。最后提取高TF-IDF權重詞匯并結合出現頻率,得到研究熱點語詞。

1相關理論與技術

1.1中文分詞

中文分詞是指將連續的中文字符串按照一定的規范分割成詞序列的過程'可。不同于拉丁語系用天然的空格來分隔每一個單詞,漢語的“詞”和“詞組”界限很模糊,中文語言的特殊性無疑為分詞的技術增加了難度。例如,目前關于字或詞還沒有一個公認的、權威的標準;歧義詞的切分也需要考慮不同語境;未登錄詞更是加大了識別、分詞的難度。因此在進行中文文本處理的過程中,首先需要把中文文本切分成一個一個的詞或者詞組,這樣的技術成為中文分詞技術面。中文分詞是中文文本的自然語言處理任務的基礎,分詞結果直接影響到自然語言處理任務的好壞5。

目前常見的中文分詞方法主要有基于規則和詞表的方法與基于統計模型的中文分詞方法,現階段深受學者青睞的分詞Python庫主要有:jieba、SnowNLP、TH- ULAC、NLPIR,NLTK和LTP等。上述幾種庫各有優缺點,本文將采用jieba進行分詞處理分析。其核心算法主要有:(1)基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖;(2)采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合;(3)對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了 Viterbi算法。

此外.jieba庫還有如下特點:(1)支持三種分詞模式:精確模式,試圖將句子最精確的切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非??欤遣荒芙鉀Q歧義;搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用戶搜索引擎分詞;(2)支持繁體分詞;(3)支持自定義詞典;用戶可以指定自己自定義的領域詞典,以便包含jieba詞庫里沒有的詞。雖然jieba有新詞識別能力,但是自行添加的新詞可以保證更高的正確率。同時,自定義的字典還支持詞頻和詞性的設置。

1.2詞頻率變換矩陣(TF-IDF)

TF-IDF對于數據分析師和大部分程序員來說應該都不陌生,它是一種用于資訊檢索與文本挖掘的常用加權技術,它加權的各種形式通常會被各大搜索引擎所應用,作為文件與用戶利用之間相關程度的衡量或評級,比較常用的就是計算查詢關鍵詞所對應的向量和文檔所對應的向量之間的相關度。TF-IDF實際上是TF與IDF的乘積[12]。

特征項頻率TF,也稱短期頻率,是指某個詞在某個文檔中出現的總次數與該文檔的詞總數的商,用于衡量該詞在該文檔中的出現頻率。因為每個文檔總詞數差距較大,因此一個詞在某個文檔中出現的次數可能遠大于另一個文檔,所以詞頻通常就是一個詞出現的次數除以文檔的總長度,相當于做了一次歸一化。TF 的特點在于,要想有效地反映某個字或詞在文檔中的頻率,就必須讓它在該文檔中出現的次數足夠多且在其他文檔中出現頻率小。但是,如果只使用TF可能會產生以下問題:第一,有些字或詞在文檔中可能會很自然地反復出現,比如連詞、語氣詞、指示代詞等,這些詞大多起著連接語句的作用,是保持語言連貫不可或缺的部分,甚至許多關鍵詞中都有包含,會出現在許多文檔中,這時TF就難以幫助我們區分文檔的相關度;第二,若搜索一個關鍵詞,它在所有文本中的TF值都高,那么該關鍵詞也就不利于進行文本分類。因此,為了解決上述問題,業界經常將特征項頻率TF與反文檔頻率IDF結合起來使用糾

IDF背后的隱含假設是:查詢關鍵詞中的字或詞應該相對于其他字或詞更加重要,而文檔的重要程度,也就是相關度,與字或詞在文檔中出現的字數成正比。例如,“圖書館”一詞在文檔A中出現了5次,而在文檔B里出現了20次,那么TF計算就認為文檔B可能更相關。

1.3 Scikit-Learn

Scikit-Leam是基于Python的機器學習模塊,是高級數據分析中非常重要的工具包,同時也是一款簡單有效的數據挖掘和數據分析工具。一方面,它具有種類豐富的成熟算法和案例,機器學習模型包括支持向量機、決策樹、樸素貝葉斯、K近鄰等,可分為監督學習和非監督學習。它的基本功能主要被分為6個部分:分類、回歸、聚類、數據降維、模型選擇、數據預處理。另一方面,Scikit-Leam能夠以問題為導向,選擇合適的模型進行分析,比如分類,即可以訓練電腦識別不同的圖片;線性回歸可以用來預測某一事物的趨勢走向,非監督學習則是讓計算機自己“思考”數據的不同,從而形成分類標準。本論述主要應用Scikit-Leam來生成TF- IDF矩陣。

2數據來源與分析模型

2.1數據來源

本論述選取《現代情報》2017年度的載文作為數據來源,通過自己編寫的Python腳本和瀏覽器測試框架 Selenium工具從中國知網上爬取上述文獻。同時為了提高精度,爬取過程中過濾文章大小標題、中英文摘要、作者簡介、頁眉頁腳標注以及參考文獻等內容,只保留文章的正文段落內容,然后將爬取到的內容以 TXT格式文本存儲,具體形式如圖1所示。最后剔除通知、簡訊、評論等不相關的非學術文獻,共計得到268篇情報學研究相關文獻。

2.2分析模型

本論述的分析模型與一般的文本分析框架無異,主要是:(1)文本預處理,先將文章進行分詞,然后去除停用詞,生成每篇文章的核心詞組;(2)特征提取,匯總每篇文章的核心詞,構建整個分析數據的詞袋,計算每個詞的TF-IDF權重值;(3)構建TF-IDF矩陣,根據TF- IDF權重值和詞向量的頻率進行分析,得出研究熱點。實驗流程如圖2所示。

3分析過程與分析結果

3.1文本預處理

用Python的jieba工具將上述采集的268篇文章進行分詞,在去除一些常見詞、無意義的語詞的同時,還引入了情報學領域的專有名詞,并設置了較高的權重,防止分詞時將其分割。其中某一篇文章的部分處理結果如圖3所示。

3.2構建TF-IDF矩陣

統計268篇文章的核心詞匯,得到整個數據集的詞袋共計21717個。利用skleam工具計算出每個文檔在詞袋中的TF-IDF權重值。匯總每篇文章的TF-IDF構造整個數據集的TF-IDF矩陣,得到一個268x21717大小的稀疏矩陣。該矩陣中每一行表示一篇文章,每一列表示詞袋中的一個詞語。生成的TF-IDF矩陣如圖4所示。

3.3分析TF-IDF矩陣

在TF-IDF矩陣的基礎上,先獲取前1000位權重值較大的數據。這些權重大的數據意味著對應的特征詞對所屬文章、整個詞向量空間都很重要。截取前20位見表1所列。

權重大的特征詞不一定會成為研究熱點,而在多篇文章都出現權重值較大的同一特征詞時則可以說明該詞語是眾多研究學者關注的熱點。所以,遍歷這1 000個權重值較大的特征詞,得出結果見表2所列。

3.4實驗對比與解釋

為了驗證本文方法的有效性,本論述用信息計量學軟件BICOMB對相同的數據進行關鍵詞提取,對比試驗只需要獲取2017年《現代情報》載文的題錄信息,統計由作者自行標注的關鍵詞,截取前20位見表3所列。

對比表2和表3,可以發現:由全文分詞得出的特征詞基本和作者自行提供的關鍵詞相契合。但由全文分詞后得到的特征詞更具有客觀性,所以更能體現出當前學科的研究熱點。不過需要指出的是,特征詞的最終成型不僅僅取決于該詞的權重大小,還與文章分詞的粒度相關,因為本論述在分詞過程中沒有添加任何干預,所以分詞的粒度都比較小,詞語粒度過小將導致所形成的詞語因被切割而權重降低。比如“知識圖譜”在Jieba分詞后被分成“知識”和“圖譜”兩個詞語,“圖譜”一詞在TF-IDF的計算中數值較小,因此無法得出其是核心關鍵詞的結論。同時,也會存在全文分詞得到的關鍵詞在語義層面高度囊括作者提出的關鍵詞,比如表2中的“數據”和表3中的“大數據”,甚至也可以解釋為不同的語義層面范疇。

4結論

本論述通過對2017年《現代情報》的載文進行全文分詞,利用TF-IDF權重和高權重詞的出現頻率得出學科研究熱點。實驗結果與用信息計量學研究方法得出的結果大體一致。受中文分詞粒度的影響,研究熱點的語義范疇比信息計量學得到的熱點范疇更高。所以本文的下一步工作將對中文分詞的過程進行干預,引入圖情領域的專有詞匯,保證專有詞匯的成詞率,屆時再和信息計量學方法進行對比。

綜上,基于TF-IDF權重和高權重詞的出現頻率得出的研究熱點擺脫了論文作者的主觀臆想,更客觀的得出當前學科的研究熱點。

參考文獻:

[1]中國科學技術信息研究所.情報學[EB/OL], [2018-11- lS].http ://www.istic.ac.cn/t-abid/304/default.aspx.

[2]黃曉斌,羅海媛.從會議征文看近五年我國情報學研究熱點的發展[J].情報理論與實踐,2018,41⑼:31-36.

[3]李文蘭,楊祖國.中國情報學期刊論文關鍵詞詞頻分析[J].情報科學,2005(1):68-70,143.

[4]劉小慧,李長玲,馮志剛.基于改進的TF*IDF方法分析學科研究熱點一以情報學為例[J].情報科學,2017, 35(7):82-87.

[5]金宸,李維華,姬晨,等.基于雙向LSTM神經網絡模型的中文分詞[J].中文信息學報,2018,32⑵:29-37.

[6]徐戈,王厚峰.自然語言處理中主題模型的發展[J].計算機學報,2011,34(8):1423-1436.

[7]余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013,50(9):1799-1804.

[8]Jie C, Cai C, Yi L. Optimized TF- IDF Algorithm with the Adaptive Weight of Position of Word [C]//. Science and Engi?neering Research Center.Proceedings of 20162nd Internation?al Conference on Artificial Intelligence and Industrial Engi?neering(AIIE2016),2016:4.

[9]武永亮,趙書良,李長鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學報,2017,31⑸:138-145.

主站蜘蛛池模板: 在线精品欧美日韩| av一区二区三区高清久久| 亚洲婷婷丁香| 欧美啪啪一区| 97久久超碰极品视觉盛宴| 91精品国产麻豆国产自产在线| a色毛片免费视频| 亚洲成人精品| 成人午夜精品一级毛片| 亚洲日韩精品无码专区97| 波多野结衣一级毛片| 91麻豆国产视频| 国产免费黄| 色综合热无码热国产| 青草91视频免费观看| 2021无码专区人妻系列日韩| 永久免费AⅤ无码网站在线观看| 青青操视频在线| 91精品人妻一区二区| 免费国产高清视频| 狠狠干综合| 婷婷综合亚洲| 高清亚洲欧美在线看| 国产成人综合在线观看| 色九九视频| 88av在线| 国产欧美日韩专区发布| 蜜桃视频一区二区| 99在线视频免费观看| 色噜噜中文网| 精品福利网| 欧洲av毛片| 国产最新无码专区在线| 亚洲人网站| 欧美精品啪啪| 国产又黄又硬又粗| 综合人妻久久一区二区精品 | 久久国产成人精品国产成人亚洲 | 精品视频一区二区观看| 亚洲一区二区精品无码久久久| 国产免费黄| 激情五月婷婷综合网| 四虎国产在线观看| 国产美女一级毛片| 国产AV毛片| 99久久精品久久久久久婷婷| 国产欧美日韩另类精彩视频| 人与鲁专区| 午夜久久影院| 日本人妻丰满熟妇区| 成人综合在线观看| 在线欧美日韩国产| 亚洲日韩久久综合中文字幕| 无码AV日韩一二三区| 女人毛片a级大学毛片免费| 一级毛片基地| 四虎永久免费地址| 久久永久精品免费视频| 在线中文字幕网| 日韩无码黄色| 国产91小视频在线观看| 国产SUV精品一区二区| 在线视频一区二区三区不卡| 九九免费观看全部免费视频| 日韩AV无码一区| 综合亚洲网| 亚洲啪啪网| 一级爱做片免费观看久久| 国产黄网永久免费| 中国黄色一级视频| 在线国产你懂的| 女同国产精品一区二区| 青青青国产精品国产精品美女| 97视频免费在线观看| 国产午夜无码专区喷水| 欧美日韩动态图| 欧美伊人色综合久久天天| 夜夜操天天摸| 亚洲精选高清无码| 免费无码又爽又黄又刺激网站| 亚洲天堂精品在线| 免费不卡在线观看av|