999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于學術社交網絡用戶關系的文獻搜索推薦研究

2021-09-07 10:42:44范圓圓王日芬
現代情報 2021年9期
關鍵詞:文本內容用戶

范圓圓 王日芬

DOI:10.3969/j.issn.1008-0821.2021.09.004

[中圖分類號]TP391.1;G252.7 [文獻標識碼]A [文章編號]1008-0821(2021)09-0032-08

在大數據時代,信息過載與不對稱的問題逐漸在不同的領域突顯。隨著第四次科技革命的發展演進,人類面臨的科學難題愈加復雜且涉及面廣,單一學科視角的局限性逐漸顯露,跨學科研究已經成為當前重要的研究范式。科研人員面對海量文獻、陌生的交叉領域時,及時有效地獲取多樣化的學術信息并了解研究進展與前沿顯得迫切,因此,專注于學術領域的垂直搜索引擎扮演的角色越來越重要。但目前該類平臺都是面向大眾的,對于每個用戶所具有的不同特征尚缺考慮。這意味著不同的學者輸入相同的搜索內容獲得的文獻資源是相同的,即簡短的查詢式并不足以充分表達其搜索意圖且關鍵詞不夠精準,這導致用戶搜索到所需的文獻變得困難。而本文解決這一難題的思路便是引進個性化推薦策略,通過分析不同學者產生的行為數據來構建學術行為及興趣特征模型,從而更快速精確地提供其所需的文獻。但是,隨之而來的問題則是學者學術行為數據從何而來以及如何加以利用。

學術社交網絡是學術科研領域的一種專業社交網絡平臺,如ResearchGate等,科研人員可以在此發布近期研究成果、關注其他學者、參與學術問答等,使得科研交流與合作模式更加開放與便捷。學術社交網絡蘊含了大量的學術行為信息,其中影響力大的學者對學術社區的形成具有一定的促進作用,并且對影響力低的學者的科學研究具有一定的導向作用。充分地對學術社交網絡中用戶社交行為產生的復雜網絡拓撲關系以及用戶生成的內容加以利用和分析,能夠發現具有相似研究興趣的群體,從而用于文獻搜索的個性化推薦當中。

同時,眾多學者在積極構建新的、以“人工智能+圖書館”為大方向的知識服務路徑,并且認為以館員為中心到以用戶為中心、從被動等待服務到主動尋求服務、從館內陣地服務到館外延伸服務的“后知識服務時代”已經來臨。而未來的知識服務平臺將融合一站式文獻搜索引擎、科技情報服務、智慧學術社區等功能,開創智慧服務模式,其中產生的用戶數據可用于功能交互與優化。因此,本文以ResearchGate為例,將學術社交網絡、文獻搜索引擎服務和用戶生成數據結合起來,構建學者關注關系網絡,通過發現不同學者的相似興趣點,對特定用戶搜索內容進行擴展,實現文獻搜索個性化推薦,從而提升用戶文獻搜索結果滿意度,進而為增強與優化知識服務平臺功能提供新的思路。

1相關工作

個性化推薦最早起源于計算機和信息科學領域,是通過分析用戶歷史行為數據為其生成和展示可能感興趣的信息的過程。相關學者主要致力于基于關聯規則的推薦算法、基于內容的推薦算法、基于協同過濾的推薦算法以及混合推薦算法的優化與設計。

推薦算法常被應用于信息搜索引擎的功能優化中。信息搜索一般是指根據用戶需求,從大規模相對靜止的數據庫中搜索用戶需要的信息。目前主流的學術搜索引擎有中國知網、萬方、Web of Science、Science Direct、Google Scholar等,其中文獻搜索行為本質上屬于信息搜索的一種,按照是否考慮用戶的偏好數據可分為通用的和個性化的信息搜索過程。

通用學術搜索引擎主要根據搜索內容與文獻內容的文本相似度構建索引,考慮到與搜索內容不直接具有較高文本相似度但實際緊密相關的文獻難以被發現,有學者嘗試通過利用合著網絡和引文網絡引入社群發現來優化學術搜索引擎算法;或提出基于樸素貝葉斯概率模型,對標題、引文等屬性進行條件概率運算來標記文獻。盡管已有研究使得搜索字段與搜索內容得到進一步擴展,然而在此過程中,學術搜索引擎的角色是靜止且被動的,無法主動了解和掌握用戶的學術興趣及其動態變化過程,同時也需要用戶足夠了解相關學術領域或花費大量的時間精力做額外的準備工作。

當學術行為數據與學術興趣信息被納入計算范疇并允許學術搜索引擎主動地向學者用戶推薦文獻,這就使得文獻搜索邁向個性化、動態化,而個性化文獻搜索過程就相當于個性化文獻推薦。意味著文獻搜索與文獻推薦的界限變得模糊,兩者涉及的關鍵技術可以通過結合使用來提高學術搜索引擎服務質量與效率。近年來利用社交軟件或服務場景中的用戶數據來發現用戶行為規律、理解用戶需求,從而實現信息資源個性化推薦的相關研究也較為主流,例如全方位地利用智慧圖書館生態鏈中各環節的數據,將用戶、資源及其關聯關系進行重構從而實現多種資源的個性化推薦;或利用Twit-ter等社交網絡平臺中的用戶關系及博文標簽數據來計算隱式相似用戶從而進行個性化推薦等。

學術社交網絡的興起使得開展文獻搜索推薦研究所需數據的門檻逐步降低,尤其是面對科研新手類型的用戶,其發表的論文數量可能較少甚至沒有,但可以通過學術社區隨時參與對某一學術話題的討論來生成大量的用戶行為數據。因此,將用戶學術交互行為數據納入文獻搜索推薦研究中,是個性化學術信息搜索面臨的新課題。從已有的研究看,基于學術社交網絡的相關研究主要集中在學者推薦與內容推薦兩方面,其中,學者推薦往往針對可合作學者、權威學者等進行推薦,涉及基于學術影響力感知及合作關系網絡的研究、基于鏈路預測發現潛在合作關系的研究等;而內容推薦涉及融合文獻、作者等不同實體影響力的學術論文推薦、基于用戶差異化與協同過濾算法的跨學科情報推薦等。

綜上,個性化推薦技術廣泛地被運用在信息搜索領域中,尤其是電子商務平臺的商品推薦和社交媒體的短視頻傳播,相關的研究都較為成熟且具有成功的商業化案例。而在知識服務領域,個性化推薦技術的研究與運用大都集中在文獻“獲取后”的相關推薦中或信息咨詢的獲取途徑中,面向用戶學術文獻搜索推薦的研究有待進一步開展。因此,本文試圖通過將學術社交網絡的用戶關系數據與蘊含大量用戶學術興趣點的生成內容用于文獻搜索推薦中,從而更主動、更動態地捕獲用戶搜索意圖,以解決文獻有效“獲取到”的難題,實現個性化學術信息搜索,增強學術搜索引擎的功能。

2理論基礎及研究設計

為了對用戶進行個性化的文獻搜索推薦,并提高推薦滿意度,本文基于學術社交網絡中的用戶關系數據,構建學者關注關系網絡.并基于網絡拓撲結構發現與具體用戶相連節點中具有影響力的學者,從而利用用戶生成內容對搜索內容進行擴展。接下來,本節將分別從學者關注關系網絡構建、學者推薦計算、搜索內容二次擴展與文獻推薦這3個方面對所提方法及相關理論進行詳細的介紹,整體框架如圖1所示。

2.1學者關注關系網絡構建

如果聯系從一個行動者指向另一個行動者.則關系是有向的,在社交網絡結構中,節點和邊分別對應了用戶和用戶間的關注關系,因此,學者關注關系可模型化為有向圖。由于原始數據以鄰接表的形式進行存儲,為便于計算可達矩陣,需要將其轉化為鄰接矩陣。鄰接矩陣(Adiacency Matrix)是表示節點之間相鄰關系的矩陣。設G=是一個簡單圖,它有n個節點V={v1,v2,…,vn},則n階方陣A(G)=(αij)稱為G的鄰接矩陣。

對于已構建的網絡而言,假設用戶A關注了用戶B,而用戶B關注了用戶C,那么節點A是可以到達節點C的。對于用戶A而言,不僅需要分析其直接關注的用戶B的學術興趣及關注點,也應分析由間接關注關系帶來的豐富信息內涵。

其中,該值越大,代表節點具有更高的聲望。在學術界,權威性往往是科研人員文獻搜索時關注的一大要素,所以,將學術社交網絡中學者的權威性作為推薦指標之一。

Friedkin N E在1984年提出,當兩個人之間存在正向互動關系時會存在趨向一致的壓力,即使兩個人不是直接接觸,這種壓力也可能通過中介人的轉移而產生,并且與傳輸途徑的數量相關,即接觸緊密的人與人之間具有更多的同質性,而強度會隨親密度的降低而降低。這也意味著應將用戶與具有直接關注和間接關注關系的用戶之間的距離作為推薦計算中的影響因素。Diikstra算法是圖論學中求解最短路問題的經典算法,基本思路是從起始點開始,采用貪心算法的策略,每次遍歷到始點距離最近且未訪問過的節點的鄰接節點,直至擴展到終點為止。

在已獲取具體用戶與可達節點的最短距離D的基礎上,根據距離越短節點越重要的原則,對距離取倒數得到D′,并作為第二個推薦指標。為綜合考量學者的權威性和關系緊密程度對具體某個用戶的影響,則對兩個指標進行加權計算并合并,且定義為:

通過對指標U進行降序排序可得學者推薦列表。此外,如果出現冷啟動問題時,則僅對用戶搜索內容相關主題域的學者進行網絡構建與聲望計算,為其推薦相關主題下被較多人關注認可的學者,后續步驟中則僅完成搜索內容的一次擴展。

2.3搜索內容擴展與文獻推薦

搜索內容擴展是基于特定用戶視角展開的,包括一次擴展和二次擴展。其中,第一次擴展關注的是用戶自身表達出的潛在研究興趣,主要通過將搜索內容與該用戶在學術社交網絡中發布的內容、參與的問答討論等文本數據進行相似度計算而得到。在這個過程中,由于原始的用戶生成內容可能涵蓋不同的研究領域,即使是同一個用戶發布的內容,也可能包含多樣的研究興趣與意圖。所以,需要先探究搜索內容與用戶自身生成內容的相關主題,在獲得與搜索內容主題相關的語料后,對其進行關鍵詞抽取并用于搜索內容擴展中。第二次擴展則在第一次基礎上,主要基于學者推薦列表中涉及的學者用戶生成的文本數據與第一次擴展后的搜索內容進行相似度計算而獲得。

在搜索內容擴展中,涉及在完成文本預處理后的向量空間映射、文本特征提取、相似度計算。本文分別選取向量空間模型、詞頻一逆文檔頻次算法和余弦相似度算法進行相關研究。

向量空間模型(Vector Space Model,VSM)是文本挖掘中的一種文本表示模型,構建向量空間模型的過程通常分為特征項構造與特征項權重計算。由于VSM需要特征項集合,對于文本而言,往往使用詞作為特征項,可用詞袋(Bag-of-Words,BOW)模型加以表示。

詞頻一逆文檔頻次(Term Frequency-Inverse Document Frequency,TF-IDF)算法實現過程簡單,且使結果具有較高的準確率和召回率,既可以用于特征提取與權重計算,也可以用于對文本關鍵詞進行抽取。

余弦相似度(Cosine Similarity)通過測量兩個向量之間夾角的余弦值以度量它們之間的相似性,余弦值越接近1,說明兩個向量越相似。

將文本特征提取出來后,映射至向量空間即可進行余弦相似度計算,進而獲取可用于推薦的語料,再對其進行關鍵詞抽取后與搜索內容合并,形成新的搜索語句。同樣,上述步驟可處理已有的論文集,在獲取每篇論文的主題后與搜索內容進行相似度計算,從而得到具有個性化的文獻搜索推薦結果。

3實證分析

創建于2008年的在線學術社交平臺Research-Gate,具有用戶可以發布研究項目、分享研究成果、關注科研人員、回答學者提問等功能。截至2021年4月,該平臺注冊研究人員達2000萬,擁有超過1.35億的研究成果,用戶活躍度相對較高,是全球最成功的在線社交平臺之一。因此,本文選擇ResearchGate作為學術社交平臺案例,使用八爪魚采集器從中爬取“Artificial Intelligence”主題下的學術用戶及其關注關系數據,并構建關注關系網絡,其中包含學者用戶節點14366個,邊17381條,如圖2所示,實現過程基于Python語言。

考慮到不同的用戶特征,有的用戶更樂于積極參與問答討論,有的用戶傾向于發表學術文章,為保證用戶生成內容數據盡可能完整,同時抽取了每個用戶發布的學術成果及其問答文本數據。此外,學者從事的研究主題可能會隨其學術生涯的發展而演變,不同時間節點的學術興趣存在時效性,所以僅爬取2019—2021年的用戶生成內容。待推薦論文集源于Web of Science,時間跨度為2017—2021年,盡可能獲取“Artificial Intelligence”相關論文,共9948篇。

由于用戶關注關系數據以鄰接表的形式進行存儲,不便于可達矩陣的計算,首先需要將學者關注關系網絡模型化為鄰接矩陣,如圖3所示,其中每個用戶都具有唯一編碼,避免重名引起的歧義問題。本文隨機選取了編碼為“ND00051”的用戶作為實驗對象,其關注了49個學者用戶,并在后續的實驗中假設該用戶的搜索內容為“Artificial In-telligence”。

通過可達矩陣計算,ND00051用戶直接關注與間接關注的學者共有13083個,綜合度數聲望與最短距離可得學者推薦列表,本文選取了其中的前10位作為后續實驗對象,如表1所示。其中前兩位的學者不是ND00051用戶直接關注的,但是由于其聲望較高,有更多的學者認可并關注而被推薦。

在對學者用戶已發布學術成果與參與問答的文本數據進行分析前,需要對其進行預處理,由于是英文文本,主要步驟有大寫轉小寫字母、去除文本中的網址、去除標點符號與數字、去除停用詞等過程,具體實現使用了自然語言處理工具NLTK。

得到學者推薦列表后,將對用戶搜索內容進行二次擴展,主要基于Gensim包加以實現文本相似度計算,流程如圖4所示。

首先,通過TF-IDF算法對ND00051用戶發布的學術成果以及參與的問答文本進行特征項提取,將文本特征項進行向量化處理,得到文本表示。其次,將其與搜索內容進行相似度計算后可得到該用戶生成內容中與搜索內容相關的文本集合。基于相似文本可得到一組關鍵詞,其能夠表示該學者其他與搜索內容相關的研究興趣點,就此實現了對搜索內容的第一次擴展。而根據推薦學者列表中學者生成內容的進一步挖掘結果表示了更廣泛的,該用戶潛在的研究興趣,即完成對搜索內容的第二次擴展。

根據ND00051用戶自身生成內容進行的第一次搜索內容擴展結果如圖5所示,取排名前十的關鍵詞作為擴展內容。由此可知,該用戶更關注人工智能的下一代技術革命以及人工智能理論與技術在全球變暖等領域的應用。

第二次擴展結果如圖6所示。根據擴展結果可知,為ND00051用戶推薦的學者也比較關注全球變暖的課題,以及相關問題產生的經濟變化趨勢,并且傾向于數據驅動型研究范式。

綜上可得,最終的搜索內容為“[global climatewarming state differences financial change local data community intelligence artificial next revolution ai glob-al warming scientific causes consequences]”,將該搜索內容與數據庫中的論文集進行相似度計算,部分結果如圖7所示。

排名前10的論文搜索推薦結果如表2所示。根據論文標題不難看出其所涉及的研究領域與研究主題基本符合擴展后的搜索內容所表達的傾向。其中排名第一的論文標題為“大數據時代中國氣候變化科學數據共享服務的發展現狀與趨勢分析”,該論文發表在《地理研究》上,文中針對氣候變化驅動因素科學數據、氣候變化事實科學數據等五類數據及其共享服務進行了系統分析,并對大數據背景下氣候變化科學數據共享服務未來的發展趨勢如人工智能、數據挖掘、機器學習、基于模型計算的動態數據共享等進行了展望_3引。

對學者用戶ND00051的主頁進行分析,其在自我簡介欄中寫道:“Currently Interested in De-marcation and Testability Aspects of Global Warming Theory”,可知該用戶當前的研究興趣主要集中在對全球變暖理論的劃分和可測性方面。該用戶自我標注的主攻研究領域為“Philosophv of Science”“En-gineering Physics”“Electrical Engineering”,擅于研究“Climate Modeling”“Reliability Analysis”“Prob-abilistic Risk Analysis”“Scientific Method”等,可見該用戶正在從事氣候變暖理論模型的研究某,其中不乏關注人工智能與該領域的交叉融合與應用前景,并且與實驗中針對該用戶搜索內容擴展得到的研究主題有較高的重合度。因此,認為本文提出的方法能夠較好地滿足個性化文獻搜索推薦的需求。

4總結與展望

本文針對當前學術搜索引擎難以滿足用戶個性化需求的問題,提出基于學術社交網絡用戶關系的文獻搜索推薦方法,構建學者關注關系網絡,通過發現特定用戶可達網絡中的學者權威性及其緊密程度作為基本推薦指標,并對相應的用戶生成內容與搜索內容進行相似度計算,從而實現兩次對搜索內容的擴展,最后實現個性化的學術文獻搜索。

隨著本文研究問題的解決,一些引發后續研究關注的新問題也在不斷出現。首先,在獲取學者推薦列表時,度數聲望與最短距離指標加權需要進一步調整和檢驗;并且在獲取推薦列表后,本文雖然將相似的文本進行了整體關鍵詞抽取,但是不同學者本身具有不同的推薦評分,如果對文本分別進行關鍵詞抽取并進行加權計算,可能搜索內容擴展結果會更精準。其次,在對文本內容進行分析時,本文采用的特征提取模型和向量化模型都較為基礎,由于擴展結果也會受到模型影響,后續可以考慮使用更復雜的、涉及更多語義信息的模型進行計算。最后,在文獻搜索推薦結果的驗證上,可以考慮招募志愿者參與實驗,通過訪談的方式更科學地評估實驗結果。

(責任編輯:郭沫含)

猜你喜歡
文本內容用戶
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 精品91视频| 国产精品中文免费福利| 91小视频在线观看免费版高清| 久草国产在线观看| 亚洲 成人国产| 日本国产精品| 大陆精大陆国产国语精品1024 | 亚洲精品无码抽插日韩| 毛片免费试看| 成人国产精品2021| 成人福利视频网| 国产精品成人一区二区不卡 | 呦系列视频一区二区三区| 97国产精品视频人人做人人爱| 亚洲色偷偷偷鲁综合| 亚洲福利视频网址| 91久久国产热精品免费| 国产人人乐人人爱| 久久久久国产精品熟女影院| 亚洲专区一区二区在线观看| 99re在线视频观看| 国产性精品| 亚洲av无码专区久久蜜芽| 制服丝袜一区| 亚洲第一天堂无码专区| 久99久热只有精品国产15| 毛片一区二区在线看| 久久人妻系列无码一区| 国产极品美女在线| 青青青国产视频手机| 九色91在线视频| 视频国产精品丝袜第一页| 亚洲无码A视频在线| 日韩二区三区无| 亚洲国产系列| 91青青草视频在线观看的| 久久一色本道亚洲| 国产成人欧美| 欧美性爱精品一区二区三区| a色毛片免费视频| 日韩欧美国产成人| 日本午夜三级| 国产亚洲欧美在线中文bt天堂| 亚洲国产一成久久精品国产成人综合| 亚洲人成电影在线播放| 国产伦片中文免费观看| 国产精品原创不卡在线| 中国一级毛片免费观看| 欧美日韩第三页| 71pao成人国产永久免费视频| 国产一区二区三区免费观看| 欧美国产日产一区二区| 成人在线不卡| 香蕉视频国产精品人| 中文字幕不卡免费高清视频| 久久国产拍爱| 亚洲欧美激情小说另类| 国产另类乱子伦精品免费女| 亚洲国产成人麻豆精品| 国产97公开成人免费视频| 波多野结衣一区二区三视频| 素人激情视频福利| 欧美国产日韩在线| 久久久久国产精品免费免费不卡| 亚洲综合久久一本伊一区| 欧美日韩北条麻妃一区二区| 欧美亚洲第一页| 亚洲区一区| 久久国产黑丝袜视频| 奇米精品一区二区三区在线观看| 亚洲精品桃花岛av在线| 国产三级a| 超薄丝袜足j国产在线视频| 国产一区二区三区日韩精品| 91亚瑟视频| 九九九国产| 亚洲天堂啪啪| 毛片久久网站小视频| 无码中文字幕乱码免费2| 永久天堂网Av| 亚洲综合片| 九九视频在线免费观看|