摘 要:目前大數據技術已經被廣泛應用到各行各業的文本數據分析領域。Python作為大數據處理和分析的首選編程語言,尤其在中文文本的識別、分析、處理方面具備絕對優勢。文章以深圳國海創新資本數據匹配項目為實際案例,介紹大數據技術在金融領域中的中文文本數據分析應用。整個數據分析匹配過程包括數據預處理、列表數據元素匹配、輸出匹配結果三個步驟。研究成果為大數據在金融行業的廣泛應用提供了具體的技術方法和研究思路。
關鍵詞:大數據;中文文本;數據分析
1 引言
近年來,隨著全球數字化信息數據量呈爆發式增長,大數據已經滲透到各行各業,相應誕生的大數據技術也迅猛發展,也被人們用來解決各種實際問題。Python這門編程語言異軍突起,目前已經成為大數據處理和分析的首選編程語言。原因有以下幾個:第一、Python是一種開源的解釋型腳本語言、簡單易學。第二,和C++、Java一樣,Python也是一種面向對象編程語言,具備封裝、繼承、多態三大特性。第三,Python的跨平臺性良好、可擴展性強、代碼重用性高。第四、Python為我們提供了豐富的第三方庫、應用廣泛。Python不僅僅可以用來做系統編程、圖形處理、GUI編程,而且目前一些非常火爆的概念比如網絡爬蟲、人工智能、大數據、云計算等都將Python視為首選語言。另外,Python在中文文本的識別、分析、處理方面相比較于其它編程語言具備絕對優勢。所以,目前政府機構使用的網絡輿情監控系統、金融領域的量化投資分析都使用到Python。
本文以深圳國海創新資本數據匹配項目為實際案例,演示如何利用大數據技術解決目前金融領域中相關中文文本數據分析問題。
2 問題描述
2.1 項目需求
深圳國海創新資本有限公司給我們提供了大量的excel文件,每個文件里有數千條數據。每條數據由4列信息(代碼、名稱、發行對象、股東信息)組成。每條數據中發行對象中有若干成員(>=1)、股東信息中有若干成員(>=1)。發行對象中若干成員(>=1)只要出現在股東信息中,該公司認為該條數據發行對象與股東信息之間存在關聯性。否則,則不存在關聯性。該公司要求我們準確標記出每條數據發行對象和股東信息之間是否存在關聯性。存在,則關聯性標注為1。不存在,則關聯性標注為0。
所提供的excel表格數據內容如圖1所示。其中第3條數據發行對象中的成員北京盈谷信曄投資有限公司出現在了該條數據對應的股東名稱當中,則認為該條數據發行對象和股東名稱之間存在關聯性,需要將關聯性標記結果為1。其中第5條數據發行對象中每一個成員都沒有出現在第對應的股東名稱當中,則該條數據的關聯性匹配結果需要標記為0。
2.2 問題分析
顯然,這是一個中文字符串數據處理問題。其中涉及到中文字符串的預處理、匹配、輸出結果等操作。我們無法通過Excel自帶的公式來計算出每條數據的關聯性匹配結果。如果采用人工的方法進行手動標注,不僅僅費時費力,而且準確性得不到保證。所以需要我們借助大數據技術通過編寫算法來解決。我們如果選擇C++、Java等編程語言,它們處理中文字符串困難,相關API接口函數都得自己寫,代碼量大、處理效果不佳。而Python在處理中文字符串方面擁有絕對優勢,是解決該問題的首選。
3 數據處理和分析
整個數據處理和分析過程包含三個步驟,分別是數據預處理、列表數據元素匹配、輸出匹配結果。我們選擇使用Python中常見的數據結構——列表來存儲數據。整個數據處理和分析流程圖如圖2所示。
3.1 數據預處理
首先,將Excel表格數據中的發行對象信息和股東名稱信息這兩列復制出來,存放到txt文本文件內。去除文本數據中的頓號,并將頓號替換為字母a和b。這樣做是為了方便我們后面編寫程序對每條數據進行分割切片。然后編寫程序將每條數據中的發行對象成員和股東名稱成員依次添加到對應的列表中。具體程序實現如圖3所示。
3.2 列表數據元素匹配
該步驟為解決該項目的核心算法。簡單來說,就是將發行對象列表中的每個元素和股東名稱列表中的每個元素逐一匹配。一旦有一個元素匹配成功,則該條數據關聯性匹配結果置為1,否則為0。具體程序實現如圖4所示。
3.3 輸出匹配結果
全部數據關聯性匹配結束后,我們將關聯性匹配結果列表里的數據輸出到Exce表格關聯性列中,如圖5所示,就完成了整個項目所有內容。
圖5 輸出匹配結果
4結論
我們選擇Python作為開發語言,利用大數據處理和分析技術解決了深圳國海創新資本有限公司中文文本數據匹配難題,最終得到的關聯性匹配結果準確率達到100%。將大數據技術應用到金融領域,不僅僅可以為從業者或公司解決數據分析或處理方面的難題,而且可以大大的提高工作效率,節省時間成本。本項目中編寫的程序稍作修改,還可以更深入做中英文字符串查找、匹配、歸類、提取等操作,可以用來解決金融領域所遇到了類似問題。
參考文獻:
[1] 諶志群,張國煊.文本挖掘與中文文本挖掘模型研究[J].情報科學,2007,25(7):1046-1051.
[2] 袁海,陳康,陶彩霞,等.基于中文文本的可視化技術研究[J].電信科學,2014,30(4):114-121.
[3] 谷俊,王昊.基于領域中文文本的術語抽取方法研究[J].數據分析與知識發現,2011,27(4):29-34.
[4] 黃冬,何睿.“大數據”認知的語義網與情感傾向分析[J].中國文化產業評論,2015(2):335-347
[5] 季培培,鄢小燕,岑詠華.面向領域中文文本信息處理的術語識別與抽取研究綜述[J].圖書情報工作,2010,54(16):124-129.
[6] 康書生,曹榮.互聯網大數據技術在融資領域的應用研究[J].金融理論與實踐,2014,1:1-08.
[7] 蔡慶豐,郭春松,陳詣之.大數據思維在金融學研究中的運用[J].經濟學動態,2015,3:104-114.
[8] Liu B,Zhou X,Wang Y,et al.Data processing and analysis in real‐world traditional Chinese medicine clinical data:challenges and approaches[J].Statistics in medicine,2012,31(7):653-660.
[9] Syeda K N,Shirazi S N,Naqvi S A A,et al.Big Data and Natural Language Processing for Analysing Railway Safety:Analysis of Railway Incident Reports[M]//Innovative Applications of Big Data in the Railway Industry.IGI Global,2018:240-267.
作者簡介:
汪洋(1991.09——)男,漢族,四川城市職業學院 汽車與信息工程學院 四川省成都市 助教 碩士 主要 研究領域大數據、人工智能等。
基金項目:
本論文需掛四川城市職業學院校級課題,課題名稱《基于大數據的中文文本情感分析研究——以電商平臺熱銷手機用戶評論為例》,課題編號CS19KYYB10)。