蘇靖淇 劉煜豪



[摘 要]互聯網技術的高速發展加速了網絡與金融行業的融合,誕生了眾籌等網絡金融形式。很多具有想法但缺乏資金的人可以通過眾籌平臺吸引投資者進行投資。對眾籌項目的成功性評估及給投資者推薦合適的投資項目對發展眾籌行業具有重要意義。結合我國眾籌行業的實際情況,文章設計了一種基于語義主體模型的眾籌項目成功性預測及推薦系統,以幫助發起人更好地籌集資金,同時為投資者預測項目成功性提供更好的推薦服務。
[關鍵詞]眾籌;成功性預測;項目推薦;語義LDA
doi:10.3969/j.issn.1673 - 0194.2020.16.068
[中圖分類號]F830;TP391.3[文獻標識碼]A[文章編號]1673-0194(2020)16-0-04
0? ? ?引 言
2009年,美國成立了世界上第一個眾籌網站——Kickstarter,
自此,“眾籌”的概念正式產生。眾籌指項目發起人通過互聯網平臺向社會公眾展示自己的想法,以實現籌集資金目標的網絡金融形式。隨著互聯網技術的高速發展,越來越多的企業和個人參與到由眾籌平臺開展的眾籌項目中。據Massolution發布的《眾籌行業報告》顯示,2018年全球的眾籌行業共籌集57億美元,涉及全球超過100萬個商業活動。結合我國眾籌行業實際情況,本文提出了基于語義主體模型的眾籌項目成功性預測及推薦系統,該系統旨在挖掘文本背后的信息對眾籌項目成功率的影響,以提高發起人項目成功的可能性,并通過推薦系統為投資者提供較好的服務,提升其用戶體驗,進而提升我國眾籌市場的質量,促進我國眾籌行業發展。
1? ? ?研究背景
1.1? ?中國眾籌行業的發展歷程及現狀
1.1.1? ?中國眾籌行業發展歷程
我國眾籌行業起步較晚,但是發展速度快,具體可以總結為3個階段:由2011年7月“點名時間”上線拉開帷幕的萌芽期(2011-2013年);眾籌行業發展迅速的崛起期(2014-2015年);行業監管日趨嚴格,全國正常運營平臺數量驟減的行業洗牌階段(2016年至今)。
1.1.2? ?中國眾籌行業現狀
邊海寧等人認為眾籌分為4種形式:產品眾籌、公益眾籌、債權眾籌和股權眾籌。不同形式的眾籌使投資人獲得的回報也各不相同。侯潔等人根據籌資人與出資者的交換關系,將眾籌劃分為基于回報、基于借貸、基于捐贈和股權眾籌4種類型。據前瞻產業研究院整理,我國眾籌行業具體包括股權型、權益型、物權型、公益型以及綜合型5種類型的平臺。從相關數據了解到,2016年我國眾籌行業達到發展高峰,當年行業內運營平臺數高達532個,2017年出現平臺數目減少的現象,但成功項目數及融資金額穩步提升。同時,我國股權型及權益型平臺占比高達行業內的50%以上,行業內各類型平臺發展不均衡。圖1是2011-2018 年我國眾籌平臺年增量走勢。
1.2? ?眾籌項目成功率預測
王娜研究了發起人特征信息如受教育程度等對項目成功性的影響。楊智斌等人從參與眾籌項目的三方行為主體即發起人、投資方以及平臺方面分別考慮對項目成功性的影響。一些學者還考慮了項目當前已籌集金額等問題,如梁睿等人以淘寶眾籌為例,通過構建已籌金額預測模型,得出點贊數目、項目支持人數等與能籌集到的資金正相關的結論。
1.3? ?眾籌項目推薦
推薦指通過對用戶瀏覽網站的歷史信息或者網站的特點對用戶偏好進行分析,從而向用戶建議符合其偏好的業務等。推薦是為了在用戶沒有明確需求時,為他們提供精準、快速的業務信息。目前,我國推薦系統已發展成熟,如淘寶根據用戶的購買歷史、收藏信息等提供給用戶希望購買的商品。當前最常用的推薦算法有基于內容的推薦、基于協同過濾的推薦和基于社交網絡的推薦。而在實際應用中,推薦系統大多使用混合推薦方法,混合推薦是通過加權、變換和層疊等方式將多個算法技術進行融合推薦,以彌補單一算法的缺陷,從而獲得更優的推薦效果。推薦對用戶具有重要意義,用戶可以通過推薦以最短的時間選擇自己感興趣的信息。在不同領域的推薦可以帶來不同的價值,在電商行業,用戶不僅需要商品,還需要足夠合理的建議。精確的推薦可以增加用戶的消費頻率,增加網站的銷售額,提高用戶黏性。在眾籌領域中,給投資者提供可靠嚴謹的項目推薦,可以節省投資者瀏覽項目的時間,增強投資者對眾籌平臺的信賴。
2? ? ?系統設計
2.1? ?基于文本信息的項目成功率預測
假設已知項目主頁的項目描述可以通過文字對用戶產生吸引力,提高預測項目成功率的準確性。本文提出利用一種改進的潛在狄利克雷分布(Latent Diriclet Allocation)提取項目描述的具體信息,通過話題聚類,得到“文檔-話題”概率,該概率分布表示項目描述在不同話題下的概率值,表示該項目描述想要表達的主要內容。LDA求解的過程是無監督的,因此,本文提出利用一種SLDA(Semantic-LDA)擬在模型在詞語分配話題的過程中加入詞與詞之間的“必連”關系作為先驗知識,如果兩個詞之間存在“必連”關系,則相應提高兩個詞語在同一個話題下出現的概率。在得到“文檔-話題”的概率后,將傳統的數值型信息作為特征向量,使用機器學習的方法對已完成的項目(兩種結果:成功與失敗)進行分類實驗,并得到分類模型,以預測未來項目的發布成功率,具體流程如圖2所示。
2.1.1? ?數據獲取與預處理
在選定研究網站后,使用爬蟲軟件爬取網站中的項目信息,具體包括:直接在網站中顯示的數字型信息,如項目的目標籌集金額;通過簡單統計工作統計信息,如允許投資的金額級數以及項目描述等文本型信息,并進行相應的預處理。
2.1.2? ?建立SLDA模型
傳統的LDA并沒有在采樣過程中給詞語間的聯系增加更多的限制,因此,本文提出了基于語義的LDA模型。在采樣過程中引入了詞語間的“必連”關系,即如果兩個詞語之間有聯系,那么這兩個詞語之間就具有“必連”關系。“必連”關系的引入實際上是為LDA的訓練過程加入了相應的先驗知識,標準的LDA的前提是假設存在一個固定分布,然而分布計算依靠無監督的吉布斯采樣,加入“必連”先驗知識可以指導吉布斯采樣,可以輔助話題生成與概率分布計算。
2.1.3? ?特征選擇
設定合適的主題個數,并推斷出訓練集及測試集中文檔對主題的分布,在輸入預測模型之前,需要用特征選擇選取最具有代表性的特征,以獲取更好的預測結果。一個典型的特征選擇過程包括4個步驟,如圖3所示。
2.1.4? ?建立預測模型
眾籌平臺項目成功率預測實際上是一個分類模型,針對已經結束的項目,使用分類模型對其進行訓練。在本文中,模型的本質就是用來分類項目的成功或者失敗兩種情況,成功的案例被標注為1,失敗的案例被標注為-1,使用SVM進行訓練。本文選取SVM作為主模型進行,使用的SVM類型包括c-SVC和v-SVC,并采用3種常用的核函數。①線性(Linear)核函數:K(x,xi)=xTxi;②徑向基(RBF)核函數:K(x,xi)=exp(-γ||x-xi||2),γ>0;③兩層感知器(Sigmoid)核函數:K(x,xi)=tanh(γxTxi+r)。
同回歸模型不同的是,由于二分類模型具有兩種情況,為了保證模型的合理性,兩種分類的訓練個數要保持1∶1的比例。同時,為了保持模型的一致性與有效性,在模型訓練完成之后,需要由測試集驗證模型,同時使用交叉驗證避免數據集的偶然性。本文提出的語義主體模型是為了驗證文本描述有利于預測項目成功率,只使用了數字型信息的預測模型作為基準實驗,并調用神經網絡及決策樹等分類模型驗證主模型的有效性及高效性。
2.2? ?基于預測結果與描述相似度的項目推薦
在眾籌領域,用戶瀏覽一個項目的主頁被默認為傾向于投資此項目,對用戶提供合適且準確的項目推薦,可以提高項目的有效瀏覽率,減少用戶在首頁篩選項目的時間,并提高項目的投資額。基于SLDA的眾籌項目成功率的預測結果,結合SLDA得到的項目描述的話題分布率計算項目文案相似度,進而為用戶提供與當前瀏覽項目類似的高質量項目。基于對文獻的閱讀,本文選定了成功率及項目間的相似度作為推薦指標。基于預測結果與項目描述相似度的推薦研究框架如圖4所示。
2.2.1? ?項目結果概率值獲取
通過使用選定的數字型信息及文本型信息輸入主模型SVM進行分類,可以得到對項目最終結果的預測。在眾籌領域使用SVM對結果進行預測時,投資者僅需知道未結束項目是否成功的概率即可,這種不確定性成為軟輸出。大多數研究使用S型函數(Sigmoid)將SVM的硬判斷輸出f(x)映射到概率范圍[0,1]內。
(1)
其中,A和B通過最小化訓練樣本的負向最大似然函數獲得。
(2)
公式(2)中,。
對于二分類問題,在眾籌領域,該概率表示了眾籌項目得到最終預測結果的概率值,如果使用SVM計算項目A和項目B會成功,A項目成功概率值為0.90,B項目成功概率值僅為0.55,它們結果相同,但兩者并不能被看作價值完全相同,網站應該給用戶推薦其認為具有更大可能性成功率的項目,即優先給用戶推薦項目A。同樣,如果兩個項目C和D失敗的概率分別為0.60和0.95,那么在兩者之間選擇時,必然是選擇更不容易失敗的C項目,這樣可以避免一些不必要的投資行動,同時也可以增加用戶對該眾籌網站推薦的信任感。
2.2.2? ?項目間相似度獲取
當用戶點開一個項目主頁時,代表用戶對這個項目更加感興趣。假設用戶對項目的認知來自最詳盡介紹項目內容的項目文案。當問題從項目的相似度歸結為項目文案——文檔相似度時,主題模型是一個解決此類問題的工具。前面的SLDA可以得到主題對文檔的概率分布,文檔的相似度常使用兩個文檔概率分布之間的KL距離(Kullback-Leibler)衡量。
(3)
KL距離越大,表示兩個文檔之間的相似度越低,如果兩個文檔完全相似,那么該KL距離為0。但是需要注意兩個文檔之間的距離并不是對稱的,即文檔A和B的距離與B和A的距離并不相同。所以為了保持其對稱性,可以改變KL距離。
Dλ(p,q)=λDKL(p,λp+(1-λ)q)+(1-λ)DKL(q,λp+(1-λ)q)(4)
設λ=1/2,那么對稱的KL距離則成為JS(Jensen-Shannon)距離。
(5)
使用JS距離可以衡量文檔之間的相似度,且具有對稱性。
2.2.3? ?項目推薦
本系統采用加權平均的方式處理兩個指標,假設兩個指標的權重分別為w1和w2。在當前項目固定的情況下,成功概率越大且某項目介紹與當前項目文案的距離越小,該項目越應該被推薦。本文認為兩個因素對推薦是同等重要的,然而在用戶從當前項目頁面點開網站為其推薦的項目頁面時,對該項目的第一印象來自該推薦項目與之前的項目是否相似,而之后才會考慮項目成功率大小,所以可以得出,成功率權重應比相似度權重小。
由于JS距離考慮的是項目之間的距離,距離越小表示越相似,那么取JS距離的倒數表示項目之間的相似度。
(6)
考慮到兩個指標的基準數并不相同,需要對兩個指標進行歸一化處理,將數值控制在0~1范圍。通過加權平均兩個指標得到最終的項目評分,以項目分數最高的項目作為當前項目的推薦。
Score(p,q)=w1·nProb+w2·nDocSim(7)
該推薦方式結合了項目之間的相似度,考慮了用戶對項目的興趣度,同時推薦給用戶成功率較高的項目,使用戶可以投資高質量的項目。
3? ? ?本系統的存在價值
發起人可以了解到項目主頁上的不同信息對成功率的影響,通過與成功率較高的項目進行對比,改進自身項目主頁的相應信息,提高項目成功的可能性;對項目進行成功性預測,可有效降低投資者的機會成本,提升投資者用戶體驗;可增加成功項目數量,提高公眾參與度,進一步推進平臺建設,促進我國眾籌行業發展。
4? ? ?結 語
中國眾籌行業發展前景廣闊,將成為推動社會經濟發展的新生力量。本文結合我國眾籌行業現狀,提出了基于語義主體模型(SLDA)的眾籌項目成功性預測及推薦系統,為項目發起人及投資者提供相應參考,提高眾籌市場質量。如今我國眾籌行業在發展過程中面臨一系列挑戰與風險,國家應盡快出臺更多與之相關的完備法律,并結合國情,鼓勵大眾積極參與,使眾籌平臺在有效的監督與管理下發展得更好。
主要參考文獻
[1]秦詩云.我國眾籌平臺發展的現狀、問題與對策探究[J].現代商業,2018(31):178-179.
[2]邊海寧,張春輝,賈敏,等.產品眾籌的發展研究——以京東金融眾籌為例[J].中國商論,2019(24):221-222.
[3]侯潔.眾籌過程中發起人在線互動行為的影響機理研究[J].中國集體經濟,2018(26):72-73.
[4]王娜.發起人特征對創意眾籌成功的影響研究——以追夢網為例[J].財會通訊,2016(29):47-50,129.
[5]楊智斌,趙嵩正.產品眾籌項目融資成功率影響因素實證研究[J].東岳論叢,2019(8):74-83.
[6]梁睿,金瑋佳.基于大數據的眾籌項目成功影響因素分析——以淘寶眾籌為例[J].產業與科技論壇,2019(23):71-72.
[7]周萬珍,曹迪,許云峰,等.推薦系統研究綜述[J].河北科技大學學報,2020(1):76-87.
[8]閆子琪.以微博為例淺析社交網站中的視頻推薦算法[J].科技傳播,2018(23):148-149.
[9]張志威.個性化推薦算法研究綜述[J].信息與電腦:理論版,2018
(17):27-29
[10]趙一格.個性化推薦技術在電商網站中的應用[J].科技傳播,2019(15):136-137.