刁羽 薛紅



*本文系四川省高等學校人文社會科學重點研究基地——新建院校改革與發展研究中心項目“新建本科院校重點學科教學參考資源數據庫構建——基于RISS2資源建設與服務平臺”(項目編號:XJYX2019B05)研究成果之一。
摘 要 論文旨在將現有的機器學習研究成果運用到圖書館文獻推薦的實際工作中,以充分發揮電子資源的作用。鑒于難以獲得用戶對文獻資源的顯式評價,因此將用戶瀏覽、下載的文獻視為正類文獻,將用戶未交互的文獻視為未標記文獻,通過卷積網絡文本分類模型并結合PU-Learning算法對待推薦文獻的推薦概率進行預測。實踐證明該方法具有較高的精準性,能夠在圖書館文獻推薦實際應用中發揮作用。
關鍵詞 卷積神網絡;電子文獻推薦;PU-Learning;文本分類
分類號 G252.62
DOI 10.16810/j.cnki.1672-514X.2024.02.010
Research on Literature Recommendation Methods Based on TextCNN and PU-Learning
Diao Yu,? Xue Hong
Abstract This paper aims to apply existing machine learning research to the practical work of library literature recommendation, in order to make full use of electronic re-sources. Due to the difficulty in obtaining users explicit ratings on literature re-sources, the literature browsed and downloaded by users is treated as the positive, and literature without user interaction is treated as unlabeled. The recommendation probability of candidate literature is predicted through TextCNN classification model combined with PU-Learning algorithm. Practice has proved that this method has high accuracy and can play a role in the actual application of library literature recommendation.
Keywords Convolutional neural network. Electronic literature recommendation. PU-Learning. Text classification.
目前,學術文獻的出版發行量呈指數形式增長[1],與此同時,在后疫情時期,線上服務仍然是圖書館服務的重要手段[2]。在此背景下,電子文獻資源已經成為了圖書館文獻資源保障體系的重要組成部分,高效的文獻推薦能為用戶提供精準的個性化文獻信息服務,成為了業界緩解“信息過載”的有力武器[3]。
1 研究綜述
當前,機器學習應用在推薦的研究中位列前三甲的分別是,基于內容的推薦(占比為55%)、協同過濾推薦(占比為18%)、基于圖的推薦(占比為16%),其余則為混合推薦、基于術語的推薦和模式化推薦等推薦方法[4]。比如,Bulut B等[5]提取用戶搜索的論文及其發表的論文的題名、責任者、摘要、關鍵詞和發表時間作為用戶的特征數據,作為向用戶研究領域推薦文獻的特征數據,通過計算它們的TF-IDF值并比較余弦相似度進行推薦。West J D等[6]基于學科在范疇、領域、子領域等自然而然形成的層次等級,建立文章級別的時間方向上的有向非循環引文網絡圖,通過隨機游走模型實現EigenFactor算法,并最終實現文章評級。Zhao X等[7]利用神經網絡的輸出構建新的評級矩陣,同時結合隱語義模型生成推薦列表。Yang W[8]等提出通過收集用戶基礎數據、文獻外借數據、網站行為數據、物流網數據、社交平臺數據,利用樸素貝葉斯算法將推薦問題轉化為分類問題,提供個性化圖書推薦服務。Sariki T P等[9]綜合使用spaCy、VGG-16和Goodreads API三種模型的結果進行推薦。Wang C等[10]使用潛在狄利克雷分布概率主題模型而非傳統的矩陣分解學習論文的隱表示,經過改進的協同過濾推薦算法較原算法具有更高的精準度。Tang H等[11]采用了基于內容和知識圖譜的推薦方法進行論文推薦。這些方法雖取得了良好的推薦效果,但是這些研究多選用CiteULike等機器學習常用基準數據集進行實證,而目前國內各圖書館主要獲取的是用戶與文獻資源之間的交互數據,這些數據的結構與它們大相徑庭,且這些基準數據集多為英文數據集,在語言特征上與漢語差異也較大,因此本文擬對現有研究成熟的推薦方法進行改良以更好地適應各館特色的實際需求。
本文提出的推薦方法是建立在文本分類的基礎之上。當挖掘出的文獻特征與用戶需求的貼合度之間設定一個閾值進行推薦時,推薦行為則可以視作一個二分類行為。近年來,深度學習在文本分類研究方面已經取得十分豐碩的成果。H. Wu等[12]提出基于卷積神經網絡、循環神經網絡等深度學習的文本分類在文本情感分析、新聞分類、主題分類等方面皆有優異表現。Johnson? R等[13]運用了一種詞級的深度金字塔狀卷積神經網絡進行文本分類。張浩然等[14]提出采用 Word2vec 和 TextCNN 模型結合來設計出來的情感分類模型,相較于直接用傳統卷積神經網絡 CNN 實現的分類器準確率更高,效果更佳。何野,楊會成等[15]提出了使用卷積神經網絡(CNN)的多個分支與長短時記憶神經網絡(LSTM)層的組合內核來進行情感分析的方法,并通過實證驗證了該方法的可行性和有效性。丘心穎,陳漢武等[16]提出使用多層卷積神經網絡和自注意力機制改進原有的SHOMA模型,在識別印尼語復合名詞時的精準性上有所提升??傊矸e網絡神經能夠從豐富的數據源中學習文本內容的關鍵特征,同時具有解決冷啟動和數據稀疏等問題的優勢,是發展趨勢較好的文獻推薦算法。為此,本文結合TextCNN文本分類法以及PU-Learning學習用戶感興趣文獻的隱表示,從用戶未選擇的文獻中發現其潛在可能感興趣的文獻并進行推薦,旨在將現有的機器學習研究成果運用到圖書館文獻推薦的實際工作中,對于形成可普及、推廣的文獻推薦范式具有重大意義,同時也為探索更加貼合用戶需求的文獻推薦之路提供重要的參考依據。
2 研究思路及關鍵技術
Adomavicius G等[17]歸納了推薦算法的形式化定義公式:
(公式一)
其中,C為用戶集合,S為項目集合,u為效用函數??梢?,個性化推薦的過程是找到根據用戶的特征、項目的特征以及用戶對項目的歷史評分記錄外推出用戶對未知項目的評分結果的效用函數。因此,從本研究的角度來說,需要解決以下關鍵問題:(1)如何獲取用戶對電子資源評價的歷史記錄;(2)用戶的特征數據;(3)文獻的特征數據;(4)采用何種算法建模以尋找效用函數。
2.1 用戶對電子資源評價的歷史記錄及PU-Learning
首先,因中國知網、重慶維度、萬方等主要電子資源網站都沒有提供用戶實名評價電子資源的工具,為此,圖書館不能采集用戶對電子資源的評價數據,所以也很難應用有監督機器學習方式訓練文獻推薦模型。其次,在文獻推薦系統里,若只有用戶點擊的正類文獻,卻沒有顯性負類文獻,不能認為用戶沒有點擊這個文獻就認為它是負類文獻,很可能這個文獻存在的位置很隱匿,導致用戶沒有點擊。這種情況需要PU-Learning(Positive-unlabeled learning)進行處理,即在只有正類數據和無標記數據的情況下,訓練二分類模型[18]。用戶訪問電子資源行為通常能間接地反映其對文獻的態度,所以可將用戶瀏覽、下載文獻的行為視為他們對這些文獻的肯定,即將這些文獻稱之為正類文獻(Positive),而其它未被瀏覽、下載的專業文獻中存在著用戶感興趣和不感興趣的文獻,可將這些文獻稱之為未標記文獻(Unlabeled),本研究的目的即利用PU-Learning從這些未標記文獻中找到正類文獻。
目前,PU-Learning有以下三種主要方式并在實證中獲得較好結果:(1)Elkan C, Noto K[19]證明了當樣本是完全隨機采樣的條件下,樣本為正類的概率等于樣本被采樣的概率除以一個常量c,并且c可以通過交叉驗證求解。(2)Kaboutari A[20]提出的兩步法。第一步,使用正樣本數據并抽選部分未標記數據標記為負樣本訓練一個分類器,用該分類器對未標記樣本進行預測,選擇負類概率高的樣本標記為可靠負類數據;第二步,使用分類器針對正類數據和可靠負類數據進行學習,對學習的模型預測未標記樣本的分類概率,并從中提取可靠負類數據,反復迭代該步驟至未篩選出可靠負類數據為止。則剩余未標記樣本可視為正類數據。(3)Mordelet F和Vert J P[21]利用bootstrap抽樣法可以估計樣本統計量總體分布的原理,從未標記樣本數據中反復隨機抽樣,并將抽樣結果標記為負類數據。這樣通過訓練SVM分類器對未抽樣數據進行預測,通過一定數量的反復抽樣和預測后,計算未標記數據的平均分類概率則為最終分類概率。本文借鑒第三種方法,利用自助法反復抽樣,以綜合評估待推薦文獻的推薦概率。
2.2 電子資源特征數據
獲取電子資源特征數據相對容易,可以通過各大電子資源數據庫平臺自身提供的導出工具收割電子文獻包括題名、關鍵詞、摘要等關鍵信息在內的題錄信息,并在此基礎上提取文獻的特征數據。
2.2.1 TF-IDF權重
作為CNN模型輸入端的數據,其維度需要保持一致。但是文獻分詞后的詞條數量參差不齊,因此需要將這些記錄的詞條數量對齊。通常,對齊詞條數量的方法有以下幾種:(1)向最多詞條數量對齊。采取這種方式有可能出現較少詞條的記錄需要用大量的無意義詞向量進行填充,從而降低模型的精準度;(2)根據各記錄詞條數量的分布情況,通過4分位數或眾數選取適量的數值予以對齊。如果數量低于指定值,則用無意義的詞向量填充,如果數量多于指定值,則截取。截取多余數量詞條的方式常采用左對齊方式,即保留起始位置至指定數量的詞條,多余部分則直接刪除。但是,這種方式沒有考慮不同詞條在表達語義時的不同重要程度,可能出現刪除對文獻內容起關鍵表征作用的詞條的問題。故此,本文根據詞條的TF-IDF權重確定刪除或保留的詞條,此方法有效避免上述問題。
作為一種數值統計方法,TF-IDF能夠有效地表達一個詞條在語句中的權重。TF-IDF的計算公式主要有以下三個[22]:
tfidf (t, d, D)=tf (t, d)×idf (t, D)? ? ? ?(公式二)
(公式三)
(公式四)
其中,D為語料庫的文檔,d∈D,t為d中的詞條;tf (t, d )即TF(term frequency,詞頻)代表詞條在語句中出現的頻率;idf (t,D)即IDF(inverse document frequency,逆文檔頻率),其作用是抵消體現語料庫中文檔共性詞條的權重,增加體現在單個文檔的特性的詞條的權重。
從公式可以看出,TF-IDF體現了以下思想:(1)去掉無意義的應刪除詞后,詞條在文檔中出現的次數越多,則對文檔的語義起的作用越大;(2)詞條在越多的文檔中出現,則詞條越不能起到區分語料庫中文檔的作用。(3)TF-IDF既考慮了文檔共性詞條的權重,又兼顧了單個文檔的特征詞條的權重。
通過TF-IDF篩選處理的文檔特征數據,既可以保留對表達文檔語義起較高作用的詞條,又降低了無意義詞條的噪音污染,從而有助于提高模型的精準性。
2.2.2 word2vec詞向量
不論是傳統的機器學習還是目前流行的深度學習,都需要將文本轉換為數值,即向量化,才能作為訓練模型時的輸入。在自然語言處理中,文本向量化有兩種基本模型:詞袋模型(Bag-of-Words,BOW)和詞嵌入模型(Word Embedding)。詞袋模型構造簡單,但它不考慮詞條順序以及上下文關系,同時又采用離散方式表示文本。如此一來,語料庫中的詞條種類有多少,表征一個語句的向量維度就有多少,且不能表征詞條的語義,因此存在著維度災難和語義鴻溝問題[23]。
為此,本研究使用word2vec對詞條建模并進行特征學習。word2vec屬于詞嵌入模型,使用分布式表示進行文本表示。Harris Z S[24]指出,語言具有分布式結構,即一組音素或數據與其上下文特征的概率分布相關。該理論奠定了分布式表示的理論基礎。Mikolov T[25]使用RNN訓練詞的分布式表征。訓練結果表明詞向量可以通過簡單的算術運算(Vector Offset Method)推測詞語的句法和語義關系。例如,“King -Man + Woman”這三個單詞的向量進行加減運算后的結果與語料庫中的其他單詞進行余弦相似性比較,則單詞“Queen”與其最相似。實驗結果表明,word2vec既能使用連續、稠密的數字表征詞語的語義,又能減少訓練的復雜度,大幅度提高訓練效率,極大緩解了BOW的維度災難和語義鴻溝等問題。
2.3 TextCNN文本分類模型
CNN最早應用于計算機視覺處理領域,比如手寫數字識別、圖像分類等,之后,CNN在自然語言處理領域也大獲成功。利用CNN進行文本分類的原理為:首先,CNN利用濾波操作學習文本數據的特征,并在此基礎上生成新的特征圖。其次,CNN通過池化層對特征圖進行下采樣,從而減少數據分布不均衡時容易出現的過擬合問題。最后,CNN在全連接層中使用softmax函數將特征圖中的特征向量映射到不同的類別概率分布以完成文本分類?;诖耍琄im Y[26]提出了一種使用CNN進行句子分類的方法,即TextCNN。該方法將句子中的單詞的構成類似于圖像的n×k矩陣,然后對輸入數據進行卷積操作,再使用最大池化層選擇關鍵特征,降低維度,最后使用softmax函數計算句子所屬類別的概率。
3 實證研究
根據研究思路和電子資源特征,實證過程中的數據采集處理的推薦流程如圖1所示。
圖1 基于PU-Learning和TextCNN的電子文獻推薦流程圖
3.1 準備實驗數據集
3.1.1 數據采集
(1)用戶認可文獻的題錄數據。一般而言,如果用戶曾經瀏覽或下載某文獻,則代表該文獻具有吸引用戶的特征。故此,本研究將這些文獻視為用戶認可的文獻。本研究從本館電子資源校外訪問系統提取用戶行為數據,并據此抓取用戶感興趣文獻的題錄數據并保存為excel文件。本次實證抓取了法學院某用戶認可文獻的題錄數據442條,稱之為Du。
(2)待推薦文獻。因實證用戶為法學院用戶,所以待推薦文獻的來源期刊為北大核心和CSSCI來源期刊中的法學專業期刊,文獻發表的時間范圍為2017—2022年,經過刪除非中文或非論文的無關文章以及去除用戶已經認可的文獻,導出的待推薦文獻題錄數據共計7878條,保存為excel文件,稱之為Dr。
3.1.2 數據預處理
第一步,從Du和Dr剔除不需要的數據,如Du中的重復數據、無摘要的數據,Dr中的投稿指南、注釋體例、英文文獻等,最終保留數據360條;第二步,比對Du和Dr上的數據,如果有論文同時存在于Du和Dr,則刪除Dr中的此類數據,最終保留數據7521條;第三步,合并Du和Dr為一個具有7881條記錄的新excel文件,稱之為D;第四步,因為題名、關鍵詞和摘要是題名數據中最能反映文獻內容特征的數據,故將D中的這三列合并為新列,同時刪除D中除關鍵詞和新列之外的其他列;第五步,為D新增名為Labeled的列,原來屬于Du中的數據取值為1,表示為正類數據,Dr中的數據取值為0,代表未標識數據。實證的目標即是從未標記數據從中找出符合用戶需求的正類數據。
3.2 開發環境
本研究的開發環境為Python 3.10,scikit-learn 1.1.2,使用jieba 0.42.1對用戶瀏覽下載文獻的摘要進行分詞,使用gensim 4.2.0對摘要的分詞結果計算TF-IDF權重和訓練word2vec詞向量,使用tensorflow-gpu 2.9.0構建TextCNN模型并進行訓練。
3.3 主要步驟
3.3.1 分詞
本研究在jieba分詞的基礎,將從D中提取的關鍵詞和《清華大學開放中文詞庫》[27]添加為自定義詞典,并將它們依次設置為分詞依據的第一和第二順位,這樣就能確保專業詞匯分詞的準確性。同時,為了減少語氣助詞等無意義詞匯的干擾,本研究調用《百度停用詞表》《哈工大停用詞表》《中文停用詞表》和《四川大學機器智能實驗室停用詞庫》作用停用詞表,去除分詞后的無意義詞匯[28]。
3.3.2 計算TF-IDF權重
各記錄分詞后的詞條數量參差不齊,基本統計量見表1。
表1 分詞后的詞條數量統計表
統計量 值
最少詞條數 15
最多詞條數 801
下四分位數 54
中位數 64
上四分位數 76
眾數 62
因為訓練TextCNN時輸入的詞向量的維度必須保持一致,結合各記錄分詞后詞條的統計量,本次實證將各記錄的詞條數統一為70,超過70的則根據TF-IDF權重剔除對文獻內容較低影響的詞條。優點在于:(1)大部分文獻的詞條數量低于70,限定詞條數量不會對它們的語義完整性造成影響;(2)對于那些超過70個詞條的文獻來說,通過剔除低TF-IDF權重的詞條的方式進行處理,對它們的語義完整性影響較少;(3)盡量避免了訓練時需要輸入數據維度對齊而必須用無意義的向量補全而對模型質量造成的不利影響。
3.3.3 訓練word2vec詞向量
訓練詞條的word2vec詞向量主要參數如下:
(1)vector_size :此參數表示詞向量的維數,其實質是word2vec神經網絡模型隱藏層的神經元個數。本研究取值為200,訓練結束后單詞的詞向量維度為200;
(2)windows:當前詞與預測詞之間間隔的詞語數量。本研究取值為5;
(3)sg:模型訓練算法。本研究取值為0,表示采用CBOW模式,即根據上下文預測目標詞。
(4)當文獻的詞條數少于70時,不足之數的word2vec詞向量使用10-10進行補全。
3.3.4 建立TextCNN模型
圖2 TextCNN模型結構圖
如圖2所示,TextCNN模型的結構如下。
(1)輸入層。給定一篇電子資源文獻 X∈RM×M,其中M表示分詞后的詞條數,N為詞條的word2vec詞向量維度。本實證中,刪除低TF-IDF權重詞和訓練word2vec詞向量后,再將二維數據擴展為三維數據,最終輸入數據X∈R70×200×1。
(2)卷積層。在CNN中,設W為卷積核,U和V為卷積核的尺寸,則 W∈RU×V。本實證建立的TextCNN模型有三個卷積層,卷積核的分別為:8@5×10、16@5×10和32@5×10。同時,每個卷積層均使用ReLU作為激活函數。
(3)池化層。目前有兩種常見的池化層,即最大池化層和平均池化層。顧名思義,最大池化層的取值是子區域內神經元的最大活性值;平均池化層的取值是子區域內神經的平均活性值。因為word2vec詞向量的幾何意義是詞在向量空間的映射,其值的大小與詞的實際語義沒有關系,所以本研究采用平均池化層,而非最大池化層。池化層的尺寸分別是4×4、2×2和2×2。
(4)DropOut。為了降低模型的過擬合,在最后一個池化層進行了概率為40%的DropOut。
(5)Flatten和全連接層。經過卷積層和池化層運算的特征值需要通過全連接層以綜合所有的局部信息,因此采用Flatten層將特征映射數據壓平為一維數據,隨后通過一個全連接層匯聚局部信息,最后利用softmax計算并輸出是否對文獻進行推薦和不推薦的概率分布。
3.3.5 bootstrap抽樣訓練
首先,創建兩個DataFrame對象,分別用于保存待推薦文獻的抽樣次數和每次訓練TextCNN模型預測的推薦概率的累加結果;其次,使用正類數據,并結合隨機抽取與正類數據相同數量的待推薦數據作負類數據訓練TextCNN模型,并用該模型預測其他未抽樣的待推薦文獻的推薦概率,然后在DataFrame對象中分別保存它們的預測次數以及推薦概率之和;最后,重復進行100次第二步后,計算待推薦文獻的平均推薦概率。
3.4 實證結果
經過100次反復迭代之后,抽樣次數和平均推薦的基本情況如表2所示:
表2
統計量 預測次數
最少值 86
最大值 100
下四分位數 94
中位數 95
上四分位數 97
眾數 96
對待推薦文獻是否進行預測的概率總體情況如表3所示:
表3
推薦概率 文章數量(篇)
≥0.5 718
≥0.6 551
≥0.7 398
≥0.8 275
≥0.9 161
因本次實證的待推薦文獻數量是無標記數據,故不能使用精準率、召回率等重要指標對實驗效果進行評估,但是可通過人工檢查低推薦概率和高推薦概率的文獻具體內容,并與用戶實際瀏覽、下載的文獻內容進行比對,以驗證用戶曾經關注的文獻與高推薦率文獻是否具有高度的貼合性?;诒疚牡膶嵶C案例,通過閱讀用戶關注的文獻的內容發現,該用戶重點關注的專業領域在于公益訴訟、環境保護訴訟、社區矯正等方面,而本實證的高推薦概率的文獻也多為此方面的論文,如《行政命令型生態環境修復機制研究》《檢察院提起公益訴訟面臨的困境和推進方向》、《檢察環境公益訴訟之訴前程序研究》等,這些文獻的相關內容與用戶實際研究方向的相關性較高。而推薦概率較低的論文,如《再論土地經營權的性質——基于對<農村土地承包法>的目的解釋》、《面向法治話語體系建構的中國法理學》、《論惡意串通型代理權濫用》等,這些文獻與用戶關注的主題相去甚遠。由此可以看出,本方法能夠過濾出高推薦概率的文獻,具有較高的準確性。
4 結語
“十四五”時期,管理好數據,才能贏得未來。與此同時,對電子文獻資源的推薦已成為業界的重點研究方向。在此背景下,本文圍繞以數據驅動服務推動行業變革與創新的行動路線,對深度學習視域下文獻推薦方法進行深入研究,提出構建基于PU-Learning和TextCNN的文獻推薦模型,該方法實用性強,且能在圖書館文獻推薦的實際工作中高效發揮電子資源的作用,助力用戶的科學研究。除此之外,為保障用戶訪問電子資源行為數據的規范采集和合理利用,后續還需進一步完善相應的規章制度,既要嚴格保護用戶隱私,又要把控用戶自主選擇權限,如哪些類型的用戶特征數據在哪些時段、哪些范圍可被采集和利用等??傊狙芯繉儆诖龠M圖書館文獻推薦服務理論的應用性和前瞻性研究,旨在為構建可普及、推廣的基于深度學習視域文獻推薦范式夯實基礎,同時也為業界同行在個性化文獻推薦服務的研究及實踐方面提供重要的決策參考。
參考文獻:
BORNMANN L, MUTZ R. Growth rates of modern science: a bibliometric analysis based on the number of publications and cited references[J]. Journal of the Association for Information Science and Technology, 2015, 66(11): 2215-2222.
吳愛芝, 后疫情時代高校圖書館知識服務模式創新探索:以北京大學圖書館為例[J]. 現代情報, 2022,42(5): 132-140.
KUAI H, YAN J, CHEN J, et al. A knowledge-driven approach for personalized literature recommendation based on deep semantic discrimination[C]//Proceedings of the International Conference on Web Intelligence. 2017: 1253-1259.
BEEL J, GIPP B, LANGER S, et al. Paper recommender
systems: a literature survey[J]. International Journal on Digital Libraries, 2016, 17(4): 305-338.
BULUT B, KAYA B, ALHAJJ R, et al. A paper recommendation system based on users research interests[C]//2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). IEEE, 2018: 911-915.
WEST J D, WESLEY-SMITH I, BERGSTROM C T. A recommendation system based on hierarchical clustering of an article-level citation network[J]. IEEE Transactions on Big Data, 2016, 2(2): 113-123.
ZHAO X, KANG H, FENG T, et al. A hybrid model based on LFM and BiGRU toward research paper recommendation[J]. IEEE Access, 2020(8): 188628-188640.
YANG W. Personalized intelligent recommendation algorithm design for book services based on deep learning[J/OL]. Wireless Communications and Mobile Computing, 2022,2022: 9203665 [2022-12-13]. https://www.hindawi.com/journals/wcmc/2022/920
3665/.
SARIKI T P, GUNTUR B K. An aggrandized framework for enriching book recommendation system[J]. Malaysian Journal of Computer Science, 2022, 35(2): 111-127.
WANG C, BLEI D M. Collaborative topic modeling
for recommending scientific articles[C]//Proceedings
of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. 2011: 448-456.
TANG H, LIU B, QIAN J. Content-based and knowledge graph-based paper recommendation: Exploring user preferences with the knowledge graphs for scientific paper recommendation[J]. Concurrency and Computation: Practice and Experience, 2021, 33(13): 6227.
WU H, LIU Y, WANG J. Review of text classification methods on deep learning[J].Computers, Materials & Continua, 2020,63(3):1309-1321.
JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categoriza-tion[C/OL]//Proceedings of the 55th Annual Meeting of the Association for Computational Lin-guistics. 2017: 562-570[2022-04-13].https://aclanthology.org/P17-1052.pdf.
張浩然,謝云熙,張艷榮.基于TextCNN的文本情感分類系統[J].哈爾濱商業大學學報(自然科學版),2022,38(3):285-292.
何野,楊會成,潘玥,等.基于改進CNN的文本情感分析[J].平頂山學院學報,2021,36(5):59-62.
丘心穎,陳漢武,陳源,等.融合Self-Attention
機制和n-gram卷積核的印尼語復合名詞自動
識別方法研究[J].湖南工業大學學報,2020,34
(3):1-9.
ADOMAVICIUS G, TUZHILIN A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE transactions on knowledge and data engineering, 2005, 17(6): 734-749.
PU learning簡介[EB/OL].[2022-04-15].https://www.
cnblogs.com/klausage/p/12582016.html.
ELKAN C, NOTO K. Learning classifiers from only positive and unlabeled data[C]//Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and datamining. 2008: 213-220.
KABOUTARI A, BAGHERZADEH J, KHERADMAND F. An evaluation of two-step techniques for positive-unlabeled learning in text classification[J]. International Journal of Computer Applications in Technology, 2014, 3(9): 592-594.
MORDELET F, VERT J P. A bagging SVM to learn from positive and unlabeled examples[J]. Pattern Recognition Letters, 2014(37): 201-209.
TF-IDF [EB/OL].[2022-07-10].https://en.wikipedia.org/wiki/Tf-idf.
涂銘,劉祥,劉樹春.Python自然語言處理實戰
核心技術與算法[M].北京:機械工業出版社,
2018.
HARRIS Z S. Distributional structure[J]. Word, 1954, 10(2/3): 146-162.
MIKOLOV T, YIH W, ZWEIG G. Linguistic regularities in continuous space word representations[C]//Proceedings of the 2013 conference of the north american chapter of the association for computational linguistics: Human language technologies. 2013:746-751.
KIM Y. Convolutional neural networks for sentence
classification [C/OL]// ACL Association for Computational Linguistics. Proceedings of the 2014
Conference on Empirical Methods in Natural Language
Processing (EMNLP):2014:1746-1751[2022-04-15].
https://arxiv.org/pdf/1408.5882.pdf.
孫茂松, 陳新雄, 張開旭, 等.THULAC:一個高效的中文詞法分析工具包. [EB/OL].[2021-03
-15].http://thuocl.thunlp.org/.
中文常用停用詞表[EB/OL].[2021-03-13].https://
github.com/goto456/stopwords.
刁 羽 四川輕化工大學圖書館副研究館員。 四川自貢,643000。
薛 紅 四川輕化工大學圖書館研究館員。 四川自貢,643000。
(收稿日期:2023-07-07 編校:陳安琪,謝艷秋)