王希龍
(中國人民銀行菏澤市中心支行,菏澤 274000)
面向全社會采集數據是金融機構做好金融數據采集工作的重點和難點。目前,互聯網網頁是政府、企事業等社會主體對外提供數據的主要渠道,也是金融機構獲取用戶交易、評價及其他信息的重要途徑。我們將重點針對互聯網網頁金融數據的采集與處理進行分析研究。由于各網站站點的自主性,互聯網是一個由巨大的異構數據集構成的資源池,各個站點的網頁由文本、圖片、音視頻等混雜組成,是一種非完全結構化或半結構化的數據。另外,互聯網網頁數據具有分布廣、數量大、格式多樣等特點。金融機構應按照一定的規則和選取標準采集相關金融數據,整理歸類,形成有用的數據庫備用。
金融數據是指在各項金融活動中產生的數據。金融是國民經濟中的重要部分,與國民經濟的各行各業都建立有密切的關系。金融機構開展金融活動,搞好自身的經營,實際上是對全社會提供有關資金活動的全方位服務。因此金融活動中產生的數據既是對金融機構自身經營狀況的客觀描述,也是對國民經濟宏觀和微觀運行狀況的綜合反映。金融數據的分類如圖-1所示

圖1 金融數據分類示意圖
金融數據處理是指將收集到的數據,采用一定的手段、按照一定的程序和要求加工成符合目的要求數據的過程。進行金融數據處理的目的是將收集到的金融數據經過加工處理后形成有利于使用的內容。金融數據除具有數據的一般特性外,還具有真實性、可靠性、連續性、廣泛性和綜合性。結合金融數據的特性,金融數據處理有三個特點:一是輸入數據質量要求高;二是數據安全性要求高;三是需處理的數據量大。
金融數據的來源渠道多種多樣,因此,在采集抓取金融數據時要確定目標網址。由于金融數據量大,數據類型多,采集時以快捷有效的方式獲取。由于網絡數據更新較快,要把握信息數據實時性,使獲得的信息來源有效。應結合金融數據的上述特點設計采集與分析系統。
由于網絡信息的多樣性,金融數據存在的方式也各不相同,系統應采用自動化軟件進行數據抓取。采集數據的過程主要有網頁讀取和數據解析兩部分組成。采集前應仔細分析目標網頁數據的組織和內容特點,通過查看源文件,確定目標數據項的識別規則。當用戶選取有用的信息數據時,可按照數據塊、數據行和數據字段3個層次對數據進行提取并解析,對這些數據進行過濾,摒除無用的信息,形成數據包,對這些數據按照不同的用途分類整理。另外,將分割開的數據與所需的金融數據進行匹配,找出存在規律,以便統一管理。
核心內容是對所采集信息數據的存儲、管理、使用。針對采集功能的實現,需要對數據分層存儲,將金融數據判別為重要數據、次要數據和參考數據,用戶在經過分析選取數據形式后,用相應的工具繪制其分析表,表明存在的規律性,為類似的數據提供依據。系統分析功能還要結合金融業務特點,針對現有業務系統的數據,進行抽取、整理,并有效集成,按照需要進行綜合分析。
金融機構可通過建立完整的金融數據采集體系,充分利用大數據、云計算和人工智能等技術,從海量數據中挖掘價值信息,助力機構發展。通過金融數據采集與分析系統的有效應用,可降低機構的人員成本,提升金融數據獲取的效率和質量,降低了人工采集模式所產生的效率低下、冗余數據多、有效性數據差等問題,通過自動化采集技術的應用,改善金融信息服務的服務質量,提升企業在金融行業的核心競爭能力。
綜上所述,隨著國際化金融市場的發展趨勢,金融市場的競爭逐漸加劇,金融行業正在向全球化發展。因此,金融機構不斷改善自身的運營模式,不斷更新管理方法,更加關注金融市場行情。通過信息化技術獲取有效的金融數據信息,不僅節省時間,而且提高工作效率,采集抓取有效的金融數據進行分析、處理,便于用戶快速而直觀的發現問題,減少分析的誤區,降低金融業務風險,為企業獲取更大的經濟效益。