遲秀銘 房旭輝 郭順利



摘? 要:梳理中外網絡問答社區的研究熱點及其發展脈絡,總結國內外網絡問答社區研究的異同,以期為我國網絡問答社區研究提供新思路和指導。以Web of Science和CNKI為文獻來源,運用CiteSpace軟件對國內外網絡問答社區研究熱點進行可視化比較分析。我國未來網絡問答社區研究需要深化完善已有的研究領域,擴大研究范圍,創新研究方法,增強創新意識,將研究成果應用到網絡問答社區運營管理實踐中。
關鍵詞:問答社區;CiteSpace;比較分析;科學知識圖譜
中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2023)04-0125-05
Visual Analysis and Enlightenment of the Research on Network Q&A Community Based on CiteSpace
CHI Xiuming1, FANG Xuhui2, GUO ShunLi2
(1.Laishan Library, Yantai? 264003, China; 2.School of Communication, Qufu Normal University, Rizhao? 276826, China)
Abstract: This paper sorts out the research hotspots and development context of the network Q&A community at home and abroad, and summarizes the similarities and differences of the research of the network Q&A community at home and abroad, with a view to providing new ideas and guidance for the research of the network Q&A community in China. It takes Web of Science and CNKI as the source of literature, and uses CiteSpace software to visually compare and analyze the research hotspots of network Q&A community at home and abroad. In the future, China's network Q&A community research needs to deepen and improve the existing research fields, expand the research scope, innovate research methods, enhance innovation awareness, and apply the research results to the operation and management of network Q&A community.
Keywords: Q&A community; CiteSpace; comparative analysis; scientific knowledge graph
0? 引? 言
網絡問答社區作為Web 2.0模式下“用戶驅動”的典型代表,成了互聯網用戶獲取相關信息與知識的主要途徑[1]。根據2021年新知青年大會的數據,網絡問答社區代表知乎的年訪問人次超過30億,成為網民獲取知識的主要途徑之一。網絡問答社區的發展和興起,成為學術界關注的熱點和研究對象。國內外許多學者從不同的角度和維度對網絡問答社區開展了研究,涌現出大量有價值的研究。已有學者對相關成果進行了梳理分析。例如:Gazan對網絡問答社區的研究文獻進行了回顧和分析[2];姜雯梳理了網絡問答社區信息質量評價方面的相關研究[3]等。綜上所述,從內容上看,國內外已有對于問答社區的綜述類研究都偏向于某一方面文獻的梳理,鮮有學者關注國內外網絡問答社區研究的差異性,缺乏系統性的比較分析。就方法而言,以主觀的內容解讀為主,運用科學計量工具的客觀分析不多,而基于知識圖譜視角的量化研究則可以更為客觀地反映某一領域的研究熱點及趨勢。全面把握、對比剖析中外網絡問答社區的研究熱點及其發展脈絡,對于促進國內網絡問答社區方面的理論研究及實踐創新具有重大意義。
鑒于此,本文采用文獻計量學方法,運用CiteSpace可視化工具,對國內外網絡問答社區研究領域的文獻進行可視化的對比分析。綜合共詞分析、聚類分析等方法,對比分析國內外網絡問答社區的研究熱點。以期為我國網絡問答社區研究提供新思路和指導。
1? 數據來源與檢索策略
為保證所收集數據的權威性和科學性,國外文獻選自Web of Science數據庫下的Web of Science核心合集,國內文獻源于中國知網(CNKI)的期刊數據庫。在Web of Science核心合集數據庫中,采用主題檢索,以“TS=(Community Question Answer)OR TS=(Social Question Answer)OR TS=(Online Question Answer)”為檢索式,文獻類型為Articles、時間跨度為所有年份進行檢索。在中國知網使用高級檢索,以“主題=問答社區OR問答網站OR問答平臺”進行檢索,檢索范圍為學術期刊,不設置時間跨度。檢索時間為2022年4月15日。篩選檢索后的文獻,剔除關聯較小的文獻,最終將421篇國外文獻和451篇國內文獻納入分析樣本。
2? 國內外網絡問答社區研究的發展脈絡
國內外網絡問答社區年發文量如圖1所示。根據圖1可以將國內外網絡問答社區研究的發展脈絡劃分為以下三個時期。
2.1? 萌芽時期(2007年—2012年)
這一時期,國內外對于網絡問答社區研究處于起步階段,發文量均比較少。該階段隨著用戶需求的增長和互聯網的發展,社會化問答網站應運而生。國內外互聯網企業陸續上線了一些問答服務產品和平臺。學者們對于這種新興的知識獲取獲取方式開展了初步的研究。國內學者們多是對這些國內外的問答平臺進行比較分析,找出不足并提出改進建議。國外學者多是分析網絡問答社區的運作機制,探索網絡問答社區的未來發展模式。
2.2? 發展時期(2013年—2018年)
這一時期隨著移動通信技術、智能終端技術以及Web技術的飛速發展,發文數量逐漸增多,吸引了大規模的用戶群體。國內外的年發文量持續增長,引起了多個領域學者廣泛關注,涉及了用戶、問題、答案及網絡問答社區建設等多個方面。新技術和方法被應用于網絡問答社區的知識管理和服務方面。理論和技術研究推動了網絡問答社區實踐的發展,從而使得網絡問答社區相關研究也持續向前發展。
2.3? 穩定時期(2019年—至今)
這一時期國內外網絡問答社區研究年發文量均保持在了一個較高水平,是一個相對穩定時期。在這一時期,網絡問答社區用戶規模激增,網絡上用戶生成內容呈現指數性增長。隨著深度學習、大數據、文本挖掘等技術的廣泛應用,國內外學者們對網絡問答社區的研究更加深入。在未來幾年,隨著新技術的不斷進步及相關理論方法的不斷豐富,國內外網絡問答社區的研究將繼續穩定下去,并迎來飛躍式的發展。
3? 國內外網絡問答社區研究熱點比較分析
3.1? 國內網絡問答社區研究熱點分析
通過CiteSpace軟件生成國內網絡問答社區研究的關鍵詞聚類圖譜,如圖2所示。關鍵詞聚類圖譜共生成12個聚類主題,除檢索詞外,可以將剩余的11個聚類主題歸納為五大熱點主題,如表1所示。分別為網絡問答社區用戶的需求及行為研究、網絡問答社區的知識內容質量及專家研究、網絡問答社區知識付費研究、網絡問答社區內容傳播研究、網絡問答社區內容組織及挖掘研究。
3.1.1? 網絡問答社區用戶的需求及行為研究
該主題包含的聚類有#1用戶需求、#3用戶行為,包含的主要關鍵詞有影響因素、需求分析、需求聚合、演化分析、激勵機制、實證研究等。
網絡問答社區用戶需求研究主要集中在對用戶需求的分析、演化、聚合等方面。在用戶需求分析方面,學者們多采用文本挖掘技術分析用戶需求[4,5]。周國韜等[6]則通過LDA模型分析網絡問答社區用戶健康信息需求的演進趨勢。用戶需求聚合研究方面,郭順利等[7]提出了融合GMM和K-Means聚類算法的用戶信息需求聚合方法。對于用戶行為的研究主要集中在知識采納、知識分享、知識共享、知識貢獻、知識隱藏、持續使用意愿、激勵機制及對策等方面。學者們多從社會交換理論、自我決定理論、社會認知等理論視角出發,運用結構方程模型、扎根理論等實證分析方法分析用戶行為。
3.1.2? 網絡問答社區的知識內容質量及專家研究
該主題包含的聚類有#4專家發現、#7質量評價,包含的主要關鍵詞有專家推薦、推薦算法、內容質量、評價標準、質量預測等。
網絡問答社區中內容的質量評價及預測多集中于答案的評價、排序及預測。學者們對于答案評價研究多是利用各種方法理論構建答案質量評價體系或答案質量評價模型[8]。在答案排序方面,學者們通常在構建答案質量排序體系后,采用機器學習、系統工程等技術方法實現對答案的排序[9]。網絡問答社區專家發現方面,學者們多是應用自然語言處理、機器學習、深度學習等技術領域的算法來實現網絡問答社區中的專家發現或專家推薦。例如:高逸飛[10]基于Meta LDA的改進算法實現了網絡問答社區中各領域內專家用戶的發現。黃輝等[11]提出了一種基于用戶-標簽異構網絡的專家發現方法。
3.1.3? 網絡問答社區知識付費研究
網絡問答社區知識付費方面研究包含的聚類有#2知識付費,包含的主要關鍵詞有付費意愿、付費圍觀、懸賞機制等。在網絡問答社區知識付費研究中,學者們多是對影響用戶知識付費行為、知識付費產品、知識付費運營模式等方面開展研究。例如:盧恒等[12]在理性與偏差視角下,構建影響用戶知識付費意愿的潛在變量,運用模糊集的定性比較分析方法分析變量間的因果關系,探討知識付費意愿的構型。趙菲菲等[13]通過文獻調研,構建了用戶知識付費意愿影響因素模型。
3.1.4? 網絡問答社區內容傳播研究
該主題包含的聚類有#9知識傳播、#10意見領袖,包含的主要關鍵詞有、社交媒體、傳播網絡、輿論、突發事件等。在知識傳播研究方面,對于知識傳播模型、知識傳播效果、知識傳播機制的研究相對較多。學者們多是基于某種理論視角或技術方法來研究知識傳播模型、評價知識傳播效果以及探析知識傳播機制。例如:王志英等[14]基于精細加工可能性模型,對網絡問答社區信息安全突發事件應急知識傳播模型進行了研究。王忠義等[15]結合社會網絡分析方法和熵權法,分析了網絡問答社區的社會網絡結構和知識傳播機制。
3.1.5? 網絡問答社區內容組織及挖掘研究
該主題包含的聚類有#5問題分類、#6主題模型、#8索引服務、#11知識推薦,包含的主要關鍵詞有機器學習、數據分析、語義相似度、知識抽取、知識圖譜、深度學習等。對于問答社區內容的組織及挖掘,一般都是基于自然語言處理技術并結合文本挖掘、機器學習、深度學習等技術方法進行研究,可以分為對問題的組織及挖掘和對答案的組織及挖掘。
網絡問答社區中對問題的組織及挖掘研究主要集中在對問題的分類、聚類、抽取、推薦等方面。例如:蔣競等[16]應用LDA主題模型對中文軟件問答社區開展了主題分析研究。唐曉波等[17]融合了賦詞標引和抽詞標引方法,提出了一種基于BERT和TF-IDF的網絡問答社區問句自動標引模型。對于網絡問答社區中答案組織及挖掘研究主要集中在對于答案文本的摘要生成、聚合、集成、推薦研究。例如:陶興等[18]提出了一種改進的W2V-MMR自動摘要生成算法,實現了對網絡問答社區內用戶生成問答文本的自動摘要。
3.2? 國外網絡問答社區研究熱點分析
通過CiteSpace軟件生成國外網絡問答社區研究的關鍵詞聚類圖譜,如圖3所示。在關鍵詞聚類圖譜中共生成14個聚類主題。根據研究對象的不同,可以將這14個聚類主題劃分為用戶、專家、問題及答案4個大類,如表2所示。
3.2.1? 網絡問答社區用戶方面的研究
國外網絡問答社區研究中關于用戶的研究共包括3個聚類主題,分別是#0 intention、#7 behavior、#13 payment。研究主要集中在用戶行為、用戶意愿以及用戶付費方面的研究。其中關于用戶行為、用戶意愿的研究成果相對較多。
對于用戶行為的研究主要是對于網絡問答社區中用戶信息行為的研究,如用戶的持續參與行為、知識貢獻行為、價值創造行為以及信息采納行為等。學者們多基于某種理論或框架開展研究,并通過實證研究來得出結果或驗證假設是否成立。例如:Fang等[19]基于計劃行為理論,通過對網絡問答社區的在線調查,探究了激勵用戶持續參與網絡問答社區的因素以及潛伏者、詢問者和回答者之間持續參與因素的差異。Yang等[20]運用自我決定理論和刺激-有機體-反應框架研究了網絡問答社區中用戶的價值創造行為。而學者們對于用戶意愿的研究則更多的是對于用戶知識共享意愿的研究。
3.2.2? 網絡問答社區專家方面研究
國外網絡問答社區專家方面的研究共包括3個聚類主題,分別是#1 expert recommendation、#5 expert ranking、#7 expert finding。對于網絡問答社區中專家的研究一直以來都是國外問答社區中的研究熱點,研究主要集中在專家發現、專家排名、專家推薦以及專家預測等方面。
學者們對于專家發現、專家推薦的研究通常采用基于深度學習模型來實現專家發現或推薦。例如:Liu等[21]基于圖卷積神經網絡提出了GCN Doc和GCN Lstm兩種模型來進行專家識別。Wang等[22]基于卷積神經網絡提出了一種對新提出問題推薦專家的方法,從而減少了提問者的等待時間,提高了答案的質量。在專家預測方面,學者們一般采用機器學習或者深度學習的方法來實現預測。例如:Xiong等[23]基于機器學習算法設計了一個可視化分析系統,用來識別潛在的專家。
3.2.3? 網絡問答社區提問問題研究
國外網絡問答社區提問問題方面的研究共包括4個聚類主題,分別是#2 question retrieval、#3 duplicate question detection、#9 question recommendation、#11 question classification。國外對于網絡問答社區中提問問題的研究主要集中在問題組織、問題檢索、問題推薦等方面。
對于問題組織研究最多的是問題分類方面,學者們多采用分類算法來實現分類。Li等[24]提出了一種基于集成學習的半監督問題分類方法,提高了對于未標記問題進行分類的準確性。Momtazi[25]提出了一種基于無監督LDA算法的問答社區問題分類方法。在對于問題檢索方面研究,一方面是解決問題檢索中的詞匯空缺問題,另一方面是估計問題之間的相關性。在網絡問答社區對問題進行檢索時,詞匯空缺會影響問題的檢索。因此,有學者提出了不同的檢索模型來解決此問題。例如,Zhou等[26]使用基本的類別驅動模型MB-NET和增強的類別驅動模型ME-NET,利用網絡問答社區頁面中類別信息的元數據對分布式單詞表示進行建模和學習,來用于問題檢索。同時,推薦任務也是人工智能領域的研究熱點。學者們多通過構建基于深度學習的神經網絡模型來實現問題的推薦。
3.2.4? 網絡問答社區的答案方面研究
國外網絡問答社區研究中關于答案方面的研究共包括4個聚類主題,分別是#4 answer ranking、#8 answer selection、#10 answer quality evaluation、#12 answer quality features。國外網絡問答社區的答案方面研究主要集中在對于答案質量、答案組織以及答案選擇的研究。對于答案質量的研究,可以分為答案質量預測、答案質量評價、影響答案質量的因素等研究方向。學者們一般基于技術方法構建答案質量預測模型,來選擇最佳答案。在答案質量評價研究中,學者們關注答案質量評價的標準及影響答案質量評價的因素。對于答案組織的研究涵蓋了答案的排序、推薦、匹配等方面。Zhu等[27]采用異構信息組織技術作為外部知識產生器,提出了一種基于領域空間模型的排序方案,將問題中的領域術語集成在一起對答案進行了排序。在答案選擇的研究中,學者們一般基于深度學習模型來實現網絡問答社區中的答案選擇。
3.3? 國內外網絡問答社區研究熱點比較與啟示
通過比較國內外網絡問答社區研究熱點發現:首先,國內外網絡問答社區的研究內容幾乎都涵蓋了問答社區中的用戶、專家、問題和答案這四個主要領域。專家預測是國外網絡問答社區研究的熱點之一,而國內研究中卻缺乏對專家預測的研究,同樣國內對于重復問題檢測以及答案選擇的研究亦是不足。在其他方面,知識付費與知識傳播是國內網絡問答社區研究的熱門領域,而國外關于這兩個領域的研究相對較少。其次,在研究方法及技術上,可以看到國外關于網絡問答社區中的研究大都偏向于技術方面的研究,如算法的改進、模型的構建、新技術的提出與應用等,而采用理論方法的研究相對較少。而在國內網絡問答社區研究中,技術性研究與理論性研究是并重的。另外,值得注意的是,在技術性研究中,國內外網絡問答社區最近的研究中都應用了深度學習技術。最后,從研究者的專業背景及發文期刊來看,圖情領域的學者是國內網絡問答社區研究中的主要力量,其研究成果也大都發表在圖情領域的期刊上。而具有計算機學科背景的研究者則是國外網絡問答社區研究的中堅力量,國外網絡問答社區研究發表在計算機科學與信息科學領域期刊上的成果相對較多。
比較分析中外網絡問答社區的研究熱點及其發展脈絡,針對我國網絡問答社區研究具有以下啟示:
首先在研究內容上,即要深化完善已有的研究領域,又要擴大研究范圍。雖然我國網絡問答社區研究在用戶行為、質量評價、知識付費、內容組織及挖掘等研究中已取得不少研究成果,但還是應當繼續深化完善這些研究。以網絡問答社區問題的組織及挖掘研究為例,我國學者在問題的分類、聚類、檢索、推薦等方面都有研究成果,但總的來說,成果還是相對較少,要繼續深化這些研究;再是通過對比國外的研究,我們還缺乏一些方向的研究,要完善這一部分的研究。另一方面,隨著網絡問答社區的不斷發展,網絡問答社區的建設會出現新的內容,會帶來新的問題,使得研究范圍不斷擴大。學者們要不斷地去探究這些新現象的原理,不斷地去解決新問題。
其次從研究方法來看,越來越多的研究方法被學者們應用到網絡問答社區的研究中,這些研究方法大致可以分為理論研究方法和技術研究方法。在應用理論方法的研究中,既要不斷地創新網絡問答社區研究中已有的研究方法,又要善于將其他領域中成熟的、能夠促進網絡問答社區研究發展的方法應用到網絡問答社區的研究中。同時還要借鑒國外的一些理論研究方法,從而促進我國網絡問答社區研究的發展。在應用技術方法的研究中,將深度學習技術應用到網絡問答社區的研究中是不可避免的趨勢,這在國外應用技術方法的研究中都有體現。深度學習在很多方面是要優于傳統的機器學習方法的,所以要將深度學習技術應用到網絡問答社區的研究中。
最后,學者們研究過程中要以用戶為中心,從用戶需求出發,將以用戶為中心的理念貫穿到網絡問答社區的研究中。同時,也要將研究成果要應用于實踐中,這有利于提升網絡問答社區的服務質量,減少用戶獲取知識的成本,促進網絡問答社區的發展。網絡問答社區是一個不斷生長著的有機體,對于網絡問答社區的研究要與時俱進,要積極探尋新的研究方向,同時也要注意網絡問答社區在發展中所出現的問題,總結經驗教訓,促進網絡問答社區的發展與網絡問答社區研究的突破。
4? 結? 論
本文以Web of Science和CNKI為文獻來源,通過發文量分析了國內外網絡問答社區研究的發展脈絡。采用文獻計量學方法,運用CiteSpace可視化工具對國內外網絡問答社區研究領域的文獻進行可視化的對比分析。在全面分析了中外網絡問答社區的研究熱點及其發展脈絡的基礎上,根據國內外網絡問答社區研究在研究熱點及其發展脈絡上的異同,提出針對我國網絡問答社區研究的啟示和思路。然而,本研究還存在著一定的不足,僅梳理了國內外網絡問答社區研究的發展脈絡及研究熱點,并沒有預測和分析國內外網絡問答社區的研究前沿和趨勢。未來筆者將進一步分析國內外網絡問答社區的研究前沿,以期預測網絡問答社區研究未來的發展方向,從而為我國網絡問答社區研究的發展提供參考。
參考文獻:
[1] 沈旺,李世鈺,劉嘉宇,等.問答社區回答質量評價體系優化方法研究 [J].數據分析與知識發現,2021,5(2):83-93.
[2] GAZAN R. Social Q&A [J].Advances in Information Science,2011,62(12):2301-2312.
[3] 姜雯,許鑫.在線問答社區信息質量評價研究綜述 [J].現代圖書情報技術,2014(6):41-50.
[4] 趙雪芹,王青青.在線問答平臺用戶旅游信息需求研究—以途牛問答社區為例 [J].農業圖書情報學報,2020,32(10):47-55.
[5] 劉爍,陳盼,楊冰香,等.基于知乎抑郁癥問答社區的用戶健康信息需求分析 [J].護理研究,2021,35(13):2273-2279.
[6] 周國韜,龔栩,鄧勝利.基于主題分析的用戶養生健康信息需求演化趨勢研究 [J].情報科學,2022,40(4):118-126+137.
[7] 郭順利,步輝,何宏國.基于G-Kmeans的網絡問答社區話題用戶信息需求聚合方法及應用研究 [J].情報理論與實踐,2022,45(6):170-178.
[8] 郭順利,張向先,陶興,等.社會化問答社區用戶生成答案質量自動化評價研究——以“知乎”為例 [J].圖書情報工作,2019,63(11):118-130.
[9] 易明,張婷婷.大眾性問答社區答案質量排序方法研究 [J].數據分析與知識發現,2019,3(6):12-20.
[10] 高逸飛.基于主題模型的問答社區專家發現方法研究 [D].北京:北京交通大學,2020.
[11] 黃輝,劉永堅,解慶.基于用戶-標簽異構網絡的社區問答專家發現方法 [J].計算機工程,2020,46(2):53-58.
[12] 盧恒,張向先,張莉曼,等.理性與偏差視角下在線問答社區用戶知識付費意愿影響因素構型研究 [J].圖書情報工作,2020,64(19):89-98.
[13] 趙菲菲,渠性怡,周慶山.在線問答社區用戶知識付費意愿影響因素實證研究 [J].情報資料工作,2019,40(1):89-97.
[14] 王志英,鄧航宇,王念新,等.問答社區信息安全突發事件應急知識傳播模型研究 [J].情報雜志,2019,38(10):136-145.
[15] 王忠義,張鶴銘,黃京,等.基于社會網絡分析的網絡問答社區知識傳播研究 [J].數據分析與知識發現,2018,2(11):80-94.
[16] 蔣競,呂江楓,張莉.中文軟件問答社區主題分析研究 [J].軟件學報,2020,31(4):1143-1161.
[17] 唐曉波,劉江南.基于BERT和TF-IDF的問答社區問句自動標引研究——以金投網問答社區為例 [J].情報科學,2021,39(3):3-10.
[18] 陶興,張向先,郭順利,等.學術問答社區用戶生成內容的W2V-MMR自動摘要方法研究 [J].數據分析與知識發現,2020,4(4):109-118.
[19] FANG C C,ZHANG J T. Users' continued participation behavior in social Q&A communities: A motivation perspective [J].Computers in Human Behavior,2019,92:87-109.
[20] YANG X C,SUI Y. Value cocreation behavior of users in an online social question-andanswer community [J].Social Behavior and Personality,2021,49(5):1-14.
[21] LIU C,HAO Y C,SHAN W,et al. Identifying Experts in Community Question Answering Website Based on Graph Convolutional Neural Network [J].IEEE Access,2020,8:137799-137811.
[22] WANG J,SUN J Q,LIN H F,et al. Convolutional neural networks for expert recommendation in community question answering [J/OL].Science China-Information Sciences,2017,60(11).[2022-09-28].https://link.springer.com/article/10.1007/s11432-016-9197-0#citeas.
[23] XIONG X X,FU M,ZHU M,et al. Visual potential expert prediction in question and answering communities [J].Journal of Visual Languages and Computing,2018,48:70-80.
[24] LI Y Y,SU L,CHEN J,et al. Semi-supervised learning for question classification in CQA [J].Natural Computing,2017,16(4):567-577.
[25] MOMTAZI S. Unsupervised Latent Dirichlet Allocation for supervised question classification [J].Information Processing & Manahement,2018,54(3):380-393.
[26] ZHOU G Y,HUANG J X J. Modeling and Learning Distributed Word Representation with Metadata for Question Retrieval [J].IEEE Transactions on Knowledge and Data Engineering,2017,29(6):1226-1239.
[27] ZHU N N,ZHANG Z J,MA H Q. Ranking answers of comparative questions using heterogeneous information organization from social media [J].Signal Image and Video Processing,2019,13(7):1267-1274.
作者簡介:遲秀銘(1988—),女,漢族,山東煙臺人,館員,碩士,研究方向:數字圖書館、信息管理;房旭輝(1997—),男,漢族,山東德州人,碩士研究生在讀,研究方向:信息管理、知識服務;郭順利(1989—),男,漢族,山東臨沂人,副教授,博士,研究方向:信息管理、知識服務。
收稿日期:2022-10-18
基金項目:國家社會科學基金青年項目(20CTQ028)