宋彥秋,屈紹建 (上海理工大學 管理學院,上海200093)
在當今社會中,眾籌已經逐漸成為一種重要的籌資渠道,與傳統的籌資方式相比,眾籌具有募資成本低以及速度快的優點,故而眾籌也成為人們投資的一種熱門趨勢。全球最大的眾籌平臺Kickstarter 于2009年推出。在過去的9年中,該平臺上的眾籌總額的增長速度有所下降。因此,研究人員應重視眾籌產品的成功率,以促進供應鏈眾籌的發展。但是眾籌成功率卻呈現出逐年遞減的狀態,對于這種狀況,要加強眾籌經濟的管理。對于眾籌項目的成功與否,以及銷售階段是否可以獲得較高的利潤,許多研究學者也對相關的因素進行了研究[1-2]。
近幾年,相關研究學者對眾籌經濟管理做出了相關的研究:楊智斌[3]等人研究了影響眾籌項目成功的因素,得出了眾籌目標的額度、關注數量、剩余的天數等因素對科技類產品眾籌的項目融資成功率有著顯著的影響。同時Stanislav[4]等人從傳統的風險融資研究中汲取教訓,股權眾籌中的市場,執行和代理風險也會影響眾籌的成功率。劉思成[5]等人分析得出了消費者的參與行為對產品眾籌有著一定影響的結果。陳文文[6]分別從眾籌發起者和眾籌平臺兩個方面,提出相關建議來吸引更多支持者加入,提高產品眾籌的成功率。Wang[7]等人研究了評論和回復特征的影響,包括評論的數量,文本的長度,評論中包含的情感以及回復的長度和速度。推薦系統旨在為用戶推薦其可能感興趣的項目,個性化推薦系統(RS) 能有效地為用戶推薦感興趣的項目。王偉[8]等人考慮到了數據的極端稀疏性,采用二分圖的模型對眾籌產品進行個性化推薦。同時,隨著大數據的發展,當今的社會正處于AI 突破性發展的時代。機器學習和人工智能也已成為越來越多的人討論的話題,甚至是學術界和企業界的熱門話題。范鑫鑫[9]也采用了機器學習的方法來解決項目推薦中的數據稀疏性和冷啟動問題,主要是依靠用戶的評分數據來處理問題。因此結合時代的發展和解決問題的性質,本文采用機器學習的方法對支持者進行眾籌產品的推薦,以此來提高眾籌產品的成功率,進而提高發起者的利潤以及促進供應鏈眾籌的發展。王偉[8]等人采用二分圖算法獲取用戶和項目的節點,同時與協同過濾相結合進而進行相似度的眾籌項目推薦。同時,機器學習和人工智能也已成為越來越多的人討論的話題,甚至是學術界和企業界的熱門話題。1994年,Agrawal 和Skrikant[10]提出了最有影響力的頻繁項集算法,用于挖掘布爾關聯規則—先驗算法。劉萍[11]以消費者的能力和動機兩個方面對消費者參與互聯網的眾籌行為進行了研究,研究影響消費者參與行為意愿的主要因素。
綜合考慮各種相關研究,我們考慮到不同的支持者會根據自己的選擇進行項目的投資,可能根據自己的品味偏好,也可能根據眾籌項目對支持者的吸引程度,也就是對眾籌項目的支持者進行推薦。而這種情況下我們是沒有辦法通過網絡平臺恒定支持者的特征屬性,因此也沒有辦法根據支持者的特征向量直接分類來進行眾籌產品的推薦。本文主要從支持者的行為記錄上進行分析。同時不同物品之間屬性的多樣性,我們沒有很好的辦法去選擇哪個特征向量作為分類的指標,從而在一定程度上使得分類的關聯程度較弱,所以本文采用Apriori 算法的基礎上進行分類來優化傳統的分類方法,能更好地為不同的支持者實現眾籌產品的推薦。
本文所提出的方法是Apriori 算法進行分類的融合,1993年R.Agrawal 等人首先提出了在交易數據項目間挖掘出關聯規則的問題,這對本文所要解決的眾籌產品的個性化推薦問題提供了更為有效的方法。通過Apriori 算法會得到兩個評估指標:支持度(Suppor)t 和置信度(Confidence)。支持度就是指在所有眾籌項目中同時包含有支持者Rm和Rn的百分比。置信度是在一個眾籌項目中有Rm支持的基礎上,Rn也支持該項目所占的比例。反映了規則的把握程度。
利用Apriori 算法分析得到的置信度(Confidence) 來表示支持者之間的關聯強度Smn。在得出相似的支持者后,會對模型進行測試,機器學習中最為常用的性能評估指標:準確率(Accuracy),精確率(Precision)。其中涉及到一個混淆矩陣,包含:真正(True Positive):實際為“1”類,被正確預測為“1”類;真負(True Negative):實際為“0”類,被正確預測為“0”類;假正(False Positive):實際為“0”類,被錯誤預測為“1”類;假負(False Negative):實際為“1”類,被錯誤預測為“0”類。
召回率就是預測的結果中為“1”類的占樣本中為“1”類的百分比。即Recall= (TP )/ (TP+FN )。精確率就是在所有被預測為“1”類的樣本中,實際為“1”類的樣本的概率。它是針對預測結果來講的,即Precision=TP/ (TP+FP )。
本文將整個模型過程分為三個階段:
階段一:本文中,我們把項目類型定義為Ai,每個類型下保留j 個眾籌項目,這些眾籌項目記為Pij,對i 類眾籌產品分別分析m 個支持者之間的關聯強度Simn,然后求得m 個支持者之間的最終關聯強度Smn。對于每一類的眾籌產品我們會有j 條的眾籌產品的信息,而對于每一條的眾籌產品我們也會有m 個支持者。我們將每個項目下的支持者記錄為一條事務Tij,一個事務里包含一個或多個支持者Rm,如T11: [R1,R3,R4,R5,R7]表示第一類項目下的第一個眾籌項目的支持者是R1,R3,R4,R5,R7。

基于Apriori 算法的支持者之間相關度計算輸入:數據集D,眾籌類型Ai,支持者Rm,事務Tij,最小支持度Smin輸出:第m 個支持者和第n 個支持者之間的關聯度Smn Begin for all Ai for all Tij do for all Rm do 1-item=frozenset Rm c1= {1-item }End for ck= Size-k items{}End for for all 1-item do if item_count [1-item ]/t_nu()m >=Smin L1·add (C1)End for confidenceimn=Number T Rm∩Rn( )/Number (T (Rm ))Simn=confidenceimn End for End( )
階段二:本階段主要是基于第一階段所獲得的支持者的關聯強度將支持者進行分類,即具有相似行為的支持者聚為一類。本階段的分類算法采用K-NN 的思想,將最為接近的支持者歸為一類。
階段三:基于前兩個階段的操作,我們已經得到了模型實施的結果,接下來就是要預測該模型性能,因此用測試集進行模型的測試。結合實際情況,本階段使用的模型測試指標是機器學習中最為常用的性能評估指標:精確率和召回率。
借助python 爬蟲技術從眾籌網上獲取所需要的支持者記錄的信息。該眾籌網有“公益”、“農業”、“出版”、“娛樂”、“藝術”、“區塊鏈”和“其他”七種類型的眾籌項目,如圖1,通過抓取的數據顯示,“區塊鏈”類型的項目就只存在一個項目,因此,本文只從剩下的六種項目類型進行分析。下面開始對六種類型的項目中分別抓取若干個眾籌項目信息(如圖2)。

圖1 眾籌網項目類別

圖2 眾籌項目的支持者記錄
本文對抓取到的信息進行預處理,對六種不同類型的項目進行篩選,選出眾籌進度超過100%的眾籌項目,也就是眾籌項目融資成功,每種類型的項目下都保留100 個眾籌成功的項目。除此之外,由于數據過于稀疏,只保留在6 種項目類型中出現支持者次數最多的前10 名支持者,以便于模型可以更加準確地對相同支持者進行分類。將六種類型的項目信息分成訓練集和測試集,測試模型的可靠性和效率。
把項目類型定義為Ai(i=1 ,2,…,6 ),訓練集中,每個類型下保留100 個眾籌項目,這些眾籌項目記為Pij(i=1,2,…,6; j=1,2,…,100 ),測試集中,每個類型下保留20 個眾籌項目。每個項目中的支持者記錄作為一個事務,記為Tij。每個事務中包含有支持者Rm,并且項目數m 的取值范圍是[1,10 ]。本文就是采用Apriori 算法分析出的置信度作為這10 個人的關聯強度,之后再采用K-NN算法的思想對其進行分類。在訓練過程中,分別對六種類型的項目進行分析,求出六種類型中這10 個支持者之間的關聯強度Simn(m=1,2,…,10; n=1,2,…10 and m≠n ),然后綜合求出10 個支持者之間最終的關聯強度Smn。以A1類眾籌項目為例:將該類項目中收集到的100 條眾籌成功項目,整理后的結果如表1 所示。

表1 支持者間的關聯強度S1mn (A1 )
如果將S1mn大于0.5 的視為支持者Rm和Rn強關聯。根據結果所得,R1和R4、R5、R8強關聯;R2和R3、R6、R10強關聯,和R9關聯度次之;R3和R2、R6強關聯,和R9關聯度次之;R4和R1、R5強關聯,和R8關聯度次之;R5和R4、R8強關聯,和R1關聯度次之;R6和R2、R3、R7強關聯,和R9、R10關聯度次之;R7和R2、R6、R9有較高的關聯度;R8和R5強關聯,和R1、R4關聯度次之;R9和R2、R10強關聯,和R3關聯度次之;R10和R2、R3、R9強關聯。
同理可得,對于A2,A3,A4,A5,A6類型的眾籌項目,同樣的步驟分別求得S2mn,S3mn,S4mn,S5mn,S6mn,然后根據得支持者最終的關聯強度Smn。最終結果如表2 所示。

表2 最終的關聯強度Smn
綜上所述,可以得到支持者之間的關聯性為:R1和R4、R8強關聯,和R5關聯度次之;R2和R3、R10強關聯,和R6關聯度次之;R3和R2、R9、R10強關聯,和R6、R7關聯度次之;R4和R1、R5強關聯,和R8關聯度次之;R5和R4、R8強關聯,和R1關聯度次之;R6和R2、R7強關聯,和R3、R9關聯度次之;R7和R6、R9有較高的關聯度;R8和R1、R4和R5有較高的關聯度;R9和R2、R10強關聯,和R3、R6、R7關聯度次之;R10和R2強關聯,和R3、R9關聯度次之。
具體的層次分類圖如圖3、圖4 所示:

圖3 分類1 (R1 ,R4,R5,R8)

圖4 分類2 (R2,R3,R6,R7,R9,R10)
經過關聯度和分類分析,相似的支持者可以根據同類支持最多的項目類型來選擇自己下一個要支持的項目。
觀察測試集數據,每個項目都有一個支持者記錄,如P11有(R1、R3、R5、R8)即可以認為支持P11項目的“0”類支持者,因為在該條支持者P11記錄中R1、R5、R8都為“0”類,R3為“1”類,“0”類的支持者個數所占比重大,所以P11項目為“0”類支持者所要支持的項目。因此,對于R1、R5、R8都是被正確劃分為負例,R3是被錯誤的劃分為負例。此時會有TN=3,FN=1。以此類推進行分析其他項目,可得:


表3 綜合比較結果
統計可得,本文模型分類的準確率和精度都大約為90%左右,這個指標評估價值數在機器學習中的評估指標中算是高的,也間接證明該模型的性能比較好,能夠正確的將相同支持者進行分類,進而進行推薦。我們發現Wang[14]等人總結的一些方法的準確率和召回率都低于本文的方法,稀疏數據的具體比較如表3 所示。
綜上所述,本文提出的方法優于其他五種推薦方法,能夠更好地為眾籌投資人推薦合適的眾籌項目。比如本文 中 到 了 兩 類:Cluster 1 (R1,R4,R5,R8);Cluster 2(R2,R3,R6,R7,R9,R10)。如果已知R1支持了項目2、3、8、9,那在分類的基礎上,如果R5支持了項目3 的情況下,接下來他可以選擇支持項目2、項目8 和項目9,這樣將相似的支持者歸類后進行推薦,可以提高支持者成功的機率,進一步提高眾籌項目成功的概率,從而促進供應鏈眾籌的發展。
眾籌過程中的支持者也可以根據自己的喜好來支持相對應的眾籌產品,讓一些有創造力的人獲取他們可能的資金,為大多數的企業和個人提供了機會,以便實現他們的夢想。在眾籌產品的融資過程中,每個支持者都有自己的特征偏好,因此平臺在第一時間可以向支持者推薦適合的眾籌項目。然而,本文發現沒有辦法通過網絡平臺恒定支持者的特征屬性,因此也沒有辦法根據支持者的特征向量直接分類來進行眾籌產品的推薦。一些研究學者也對推薦算法進行了研究,但對于稀疏程度嚴重的眾籌數據來講,很少有學者做到更高質量的推薦。與此同時,大數據時代的發展,機器學習和人工智能也成為越來越多人討論的話題。越來越多的問題也可以通過機器學習方法來高效解決。因此本文采用機器學習的方法對支持者進行眾籌產品的推薦,以此來提高眾籌產品的成功率,進而提高發起者的利潤以及促進供應鏈眾籌的發展。
本文的研究也存在一些局限性。因此,在未來的研究中,可以擴寬研究范圍,除了消費者行為的影響,可以增加社交網絡中其他消費者的相關影響即感知價值行為,進一步優化眾籌項目的選擇,為眾籌經濟的發起者和支持者提供更多的管理建議。