史可玉 羅洋


摘 ?要: 作為由多個問答社區組成的問答網站,StackExchange上擁有諸多用戶的問答數據。想要實現知識的有效傳播,還要加強專業回答的挖掘。基于此,本文對數據挖掘技術及其在社區網絡平臺中的應用方法進行了探討,然后結合StackExchange特點提出了相應的數據挖掘算法,為網站個性化問答推薦服務生成提供支持,促使用戶知識獲取需求得到滿足。
關鍵詞: StackExchange問答網站;社區網絡平臺;數據挖掘
中圖分類號: TP3 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.06.048
本文著錄格式:史可玉,羅洋. 關于StackExchange問答社區網絡數據挖掘的分析[J]. 軟件,2020,41(06):233236
【Abstract】: As Q & A website composed of multiple Q & A communities, StackExchange has Q & A data of many users. To achieve effective dissemination of knowledge, it is necessary to strengthen mining of professional answers. Based on this, the paper discusses data mining technology and application method in community network platform, and puts forward corresponding data mining algorithm combined with characteristics of StackExchange, which provides support for generation of personalized Q & A recommendation service on website, and meets ?knowledge acquisition requirement of users.
【Key words】: StackExchange Q & A website; Community network platform; Data mining
0 ?引言
在信息大爆炸時代,知識出現了多元化交融的趨勢。面對人們日漸增加的知識和信息獲取需求,社區網絡平臺得到了迅速發展,為人們獲取知識提供途徑。對于網站用戶來講,希望在第一時間通過訪問平臺滿足自身求知欲。因此在網站經營方面,還應同夠數據挖掘實現精準營銷,以推動平臺的可持續發展。
1 ?數據挖掘技術
數據挖掘技術實際為利用算法從大量數據中完成有用信息提取的過程,需要先獲取數據源,然后進行預處理和數據變換,將提取到的有用信息轉換為知識,向用戶可視化展現。針對數據推向,應確定特征信息。在合適數據庫中完成數據存儲,能夠保證數據綜合性、完整性,然后根據經驗確定分析指標。對數據進行清洗、歸約等處理,去除無效和冗余數據,完成噪聲點處理,保證數據一致性,從而使數據質量得到提高[1]。對得到的數據進行歸約,能夠得到形式更小的數據集,保證數據挖掘效率。實際在數據挖掘期間,需要確定目標,對研究主題進行選擇,然后解決數據抽樣問題。根據挖掘程度,能夠對與任務相關的知識類型進行確認。選擇適合的分析工具,如決策樹、模糊集等,能夠完成數據挖掘,最后以圖表、報告等不同形式呈現結果。
2 ?數據挖掘在社區網絡平臺中的應用
2.1 ?確定訪問習慣
社區網絡平臺在運營的過程中,需要為用戶提供個性化服務,確保平臺點擊量和人流量能夠得到提高。為此,平臺需要把握受眾心理,呈現用戶感興趣的內容。通過為用戶提供相對自由的網絡空間,根據自身需求發表意見和建議,能夠使用戶對平臺服務感到滿意,繼而使平臺競爭力得到提升。因此運用數據挖掘技術,需要對訪問平臺的用戶數據展開深入分析,結合用戶習慣對其日常偏好、界面瀏覽方式等進行推斷,以便提供有針對性的服務[2]。通過提供人性化服務,能夠使用戶對平臺的好感度得到提升,促使平臺運營效益得到保證。結合這一目標,對用戶網絡數據進行分析需要確定用戶行為流程,如瀏覽點擊、搜索等過程。根據用戶瀏覽規律和訪問習慣,能夠對頻繁訪問路徑進行抽取,實現前端界面優化,使用戶能夠迅速完成符合需求的結果查找。
2.2 ?實現類群分組
按照上述思路,在對平臺數據進行挖掘時需要完成用戶搜索特征信息采集,從中分析得到用戶搜索行為特點。通常的情況下,用戶需要利用關鍵詞對想要的信息進行搜索。根據這一習慣對平臺關鍵詞進行選取,使平臺搜索符合用戶操作習慣,能夠使用戶目光在第一時間被吸引。實際在關鍵詞選取時,需要做到合理分組,完成詞庫建立,以便使擁有類似行為特征的用戶需求得到兼顧,確保用戶群能夠根據平臺推廣搜索到想要的內容。按照這一要求,需要對用戶后端數據展開分析和處理,根據用戶問答提供的文本信息完成興趣標簽的設置,完成潛在用戶特征數據提取,得到準確的用戶類群信息。根據興趣標簽完成用戶分組,能夠推斷用戶對哪些信息感興趣。結合用戶傾向進行信息推廣,能夠使挖掘得到的有用信息更具價值,幫助平臺成功實現用戶關系維系。
2.3 ?完善網站運營
利用數據挖掘結果,能夠對用戶訪問結果進行完善,促使用戶得到關注度得到提高。結合用戶群興趣愛好,可以對平臺界面布局進行調整和動態更新,在顯著位置推廣關鍵信息。在平臺規劃設計階段,也可以采取該措施實現資源整合,通過提供大量有效信息完成用戶感興趣內容挖掘,使平臺對用戶的吸引力得到提高。應用數據挖掘技術,也能完成網站日志數據分析,做到合理判斷用戶日常瀏覽行為,為用戶操作提供便捷服務。針對潛在客戶,也可以在瀏覽信息中推送感興趣的內容[3]。從平臺運營角度來看,可以結合用戶群偏好進行廣告適度推送,在保證用戶順利接收各種信息的同時,為平臺帶來更多收益,繼而使平臺在維持穩定用戶數的同時,能夠取得可持續發展。
其中,EQui→qj為回答ui對問題涉及各知識領域專業可信度,Tagqj為問題qj知識領域標簽。在實際分析的過程中,需要對相關參數進行歸一化處理,得到Tui→tk的特定取值范圍。根據分析得到的用戶在不同領域回答可信度,并根據用戶提問涉及的知識領域,能夠完成專業可信用戶群劃分,對用戶的回答進行推薦,達到生成網站個性化回答推薦服務的目標[9]。
3.5 ?網站個性化推薦服務生成
利用數據挖掘方法完成社區網絡數據分析后,可以得到不同的用戶群。在平臺個性化回答推薦服務生成方面,可以先利用篩選得到的高信譽用戶集合進行驗證,然后利用特殊貢獻用戶集合展開驗證分析。在此基礎上,針對某個問題,可以完成全部用戶專業可信度評價,從中篩選出專業可信用戶,得到專家用戶集合。在問題回答驗證上,可以對三種用戶群的回答命中個數展開比較,確定不同推薦服務的有效性。實際開展評估時,可以采用準確率和平均相似度兩大指標,前者為回答命中數占推薦個數的比率,后者為命中個數占用戶個數的比率。如表1所示,為驗證結果。在回答擁有一定推薦數的情況下,相較于其他用戶群,專業用戶群的回答顯然擁有更高的準確率和較小平均相似度。但在一些問題回答上,專業可信回答用戶數量較少,以至于推薦數量比設定的數量要少。出現這一情況,主要是由于專業用戶數量本身較少。為提高專業用戶的活躍度,平臺還應采取一定獎勵措施。但總體 ?來看,專業用戶回答推薦性能依然較高,因此還應將專業用戶回答當成是優選結果,在新問題提出 ?后進行個性化推薦,繼而使網站服務水平得到提 ? 高[10]。
4 ?結語
綜上所述,針對社區網絡中大量問答數據,可以利用數據挖掘技術加強用戶訪問習慣分析,通過類群分組對訪問結果進行完善,保證用戶能夠盡快獲得想要的信息。在StackExchange網站運營方面,通過實現數據采集和處理,能夠完成專業回答數據挖掘,生成個性化推薦服務,從而通過構建高效社區滿足用戶訪問需求。
參考文獻
[1] 陳華慶, 冼遠清, 賴建明. 網站彈幕視頻數據的挖掘與分析[J]. 福建電腦, 2019, 35(08): 102-103.
[2] 國鋒. 數據挖掘技術在電子商務中的應用研究[J]. 電腦知識與技術, 2019, 15(24): 280-281.
[3] 劉艷, 李一銘, 劉子逸. 基于精準營銷的問答平臺數據挖掘算法需求綜述[J]. 中小企業管理與科技(中旬刊), 2018(01): 152-153.
[4] 劉迎春, 朱旭, 謝年春, 等. 基于數據挖掘的專業可信回答者個性化推薦——以Stack Overflow問答社區為例[J]. 現代教育技術, 2019, 29(05): 78-84.
[5] 常海. 數據挖掘與分析在網站運營管理中的應用[J]. 企業改革與管理, 2018(19): 66+70.
[6] 李小雙. 基于CNKI數據庫的城市社區活力知識圖譜分析[C]. 中國城市規劃學會、重慶市人民政府. 活力城鄉 美好人居——2019中國城市規劃年會論文集(20住房與社區規劃). 中國城市規劃學會、重慶市人民政府: 中國城市規劃學會, 2019: 817-832.
[7] 洪闖, 李賀, 祝琳琳, 彭麗徽. 活動理論視角下社會化問答平臺用戶知識協同模型與關鍵影響因素研究——基于模糊DANP方法[J]. 情報理論與實踐, 2019, 42(11): 100-106.
[8] 王麗萍. 智慧圖書館知識服務新思路:問答社區模式的啟示與應用[J]. 出版廣角, 2019(13): 74-76.
[9] 閆俊周, 齊念念. 基于ISM的我國戰略性新興產業創新績效影響因素分析[J]. 科技管理研究, 2019, 39(12): 159-166.
[10] 張曉清, 潘清, 龔波. 基于控制流與數據流分離機制的網絡服務方法[J]. 軟件, 2014, 35(03): 111-113.