蔣發俊 覃 琳 黃柏福
(廣西壯族自治區計算中心,廣西 南寧 530022)
基于大數據技術的藥用植物研究成果管理平臺設計
蔣發俊 覃 琳 黃柏福
(廣西壯族自治區計算中心,廣西 南寧 530022)
藥用植物研究是一門數據量巨大而又復雜的學科, 大量專業的研究數據不僅難于記憶查找,而且也不利于成果的深度開發利用。通過設計開發藥用植物研究成果管理平臺,將大數據技術等現代互聯網技術引進到藥用植物研究領域,把藥用植物研究過程中產生的數據、資料、圖片等結構化及非結構化的研究成果存儲到管理平臺中并通過數據整理、清理、裝載、轉換等大數據算法技術進行數據挖掘分析形成規范化、模塊化的數據倉庫,最終在平臺中提供數據采集、統計查詢、分析預測等功能服務,為藥用植物研究成果的管理提供科學有效的辦法,創造更高的社會價值。
藥用植物;大數據技術;研究成果;數據挖掘;分析預測
我國自古以來就有著藥用植物研究與應用的悠久歷史,據統計目前我國境內有超過 12000種的藥用植物,隨著中藥材在醫學界的廣泛應用,藥用植物研究已經成為了現代醫藥研究的熱點。
通過實際調研發現,現階段藥用植物研究成果記錄缺乏先進的方法和技術手段,大部分仍然使用幾十年前手寫記錄的方式。大量的研究信息和復雜的原始試驗數據記錄之后就堆積在檔案室無人問津,既不利于中醫藥事業的傳承交流,也給藥用植物研究成果的查詢應用帶來了很大的困難。同時由于研究成果除了文字、數字之外,還包含了圖像、文本、報表等大量的非結構化數據,用于管理結構化數據的關系型數據庫缺點以及局限性越來越明顯。在不斷增加的數據量和日趨的復雜數據結構等因素的影響下,原始藥用植物研究成果勢必要借助大數據、非關系型數據庫等新技術進行管理、加工才能得到更加有效的資源加以利用,發揮其巨大的價值和效應。
基于這一目的設計了一個以大數據分析為核心,藥用植物研究成果管理應用為目的藥用植物研究成果管理平臺,將大數據技術運用到藥用植物研究領域,保存分析藥用植物研究過程中產生的大量數據、資料、圖片等結構化及非結構化研究成果,探索大數據技術在藥用植物研究領域的應用。
藥用植物的研究包括了種子保存、活體試驗、離體試驗、病蟲害研究、餾分試驗以及標本保存各個階段,每個階段都有大量的實驗數據和植物藥理藥性信息需要記錄,而且信息資源具有有別于其他學科信息資源的典型大數據特征:數量龐大又極具復雜性。
藥園植物研究涉及到的信息包括了植物的基本屬性、生理信息、藥用植物特性、地理分布、試驗數據、圖像信息、文件數據等多種結構化和非結構化數據,同時由于各階段工作的相對獨立性,研究過程中又會產生大量的重復數據。
要實現藥用植物研究成果的管理利用,首先就需要解決大量研究成果的數據化、數字化以及存儲分析問題,為此首先要整合藥用植物六個不同研究階段所產生的數據, 把每個研究階段的大量結構化及非結構化信息進行數據化、數字化并加以組合去重,然后把其中包含的不同內容進行關聯,形成蘊含豐富內容的大數據資源。
大數據技術的核心作用在于從數據里面找出有價值的東西來,迅速完成數據價值的提純。通過數據挖掘、數據可視化等技術對海量藥用植物研究成果進行整理、清理、裝載、轉換,形成規范化、模塊化的數據倉庫,把復雜數據里面的的知識挖掘出來,這樣我們才可以對研究內容進行利用,進而提供更多的信息服務。
藥用植物數據管理平臺的設計需要滿足數據集成、分析處理、綜合查詢、分析預測及輔助決策等功能,所以在設計過程中首先要對藥用植物研究過程進行數據建模選擇合理的業務模型。
根據藥用植物研究工作的業務活動流程及其研究成果類型,我們把藥用植物信息分成了基本屬性、地理位置、生理特征、藥用特性、研究成果、文件資料、圖像資料七大數據模塊。基本屬性包含藥用植物的中文名、拉丁名、科屬種等基本信息;地理位置包含植物的分布地點、采集地點、保存地點信息;生理特征包含植物的形態習性、生長周期信息;藥用特性包含植物的藥用部位、藥材名、藥理作用、臨床應用信息;研究成果包含研究階段的各種實驗數據以及結論等內容;文件資料包含和研究有關的相關文獻論文;圖像資料包含植物各生長期以及標本等圖像信息。
每個模塊數據都分別存儲于基本屬性數據庫、地理位置數據庫、生理特征數據庫、藥用特性數據庫、研究成果數據庫、文件數據庫、圖像數據庫七個獨立的子數據庫。分數據庫的模式不僅可以保證系統擁有更快的響應速度,而且各個子庫的內容既可以獨立使用也可根據實際需要互相結合形成更加完整全面的數據信息。
按照數據模塊的劃分,管理平臺分為數據采集子系統、地理位置子系統、統計查詢子系統、生理特征子系統、藥用特性子系統、趨勢預測子系統、文件子系統、圖像子系統,每個子系統都提供特定的功能,方便不同平臺使用人員根據實際需求快速地找到所需信息。藥用植物研究成果管理平臺的整體系統架構圖如圖1:

圖1 平臺系統架構圖
大數據平臺的搭建,使用了針對超大數據集合的低延遲集群分布式計算系統Spark作為基礎引擎。Spark是一個基于內存計算的開源的集群計算系統,提供了多種數據處理函數,包括基本匯總、map-reduce等,同時還提供Count, collect, reduce, lookup, save等多種 actions。通過使用這些多種多樣的數據集操作類型來構建大型的、低延遲的數據分析應用程序,給平臺上層應用提供了方便。平臺利用 Spark強大的數據處理能力來對采集數據進行分布式數據處理、數據異構、數據可視化及數據挖掘等操作,最終提供數據分布式索引、統計查詢、分析預測等功能。
在數據安全方面還設計了備份恢復功能,自動對平臺上重要的數據定期進行備份,當數據因故障丟失或者順壞時平臺能夠及時地通過備份數據庫進行恢復。同時平臺設計過程中預留了數據接口以及二次開發接口,方便與其他系統的集成和今后對平臺功能進行升級。

圖2 平臺系統分層結構圖
藥用植物研究成果管理平臺完成后,最終將實現集科研究數據采集、信息發布共享、統計查詢、分析預測于一體的目標,通過現代軟件技術及大數據技術幫助研究人員提高藥用植物研究工作的質量及效率;研究成果的數字化可以極大程度地避免以往紙質文件或 Excel記錄容易丟失難以查找的情況再次發生;而原始的研究成果經過平臺海量數據挖掘分析整合處理之后,將會得到更加簡單規律且易于理解的高價值數據,便于藥用植物研究成果的分享及深度利用。
目前系統架構的搭建、數據庫設計、各子系統的開發和基礎數據錄入都已經全部完成,藥用植物研究成果管理平臺中總共保存了接近3000條的植物研究數據,包含藥用植物的基本屬性、藥用特性、生理特征、地理分布、實驗數據、圖像、文件等內容,為平臺的大數據分析挖掘提供了數據基礎。

圖3 平臺已錄入的藥用植物列表
通過各個子系統,平臺已經實現了數據采集、信息發布共享、統計查詢、地理位置分析、趨勢預測等功能。其中數據采集除了可以通過人工錄入外,我們還提供了批量導入的接口,方便對歷史研究數據的快速處理;統計查詢功能能夠通過圖表、餅狀圖以及柱狀圖的方式對藥用植物科、屬、種、分布區域等內容歸類展現;地理位置分析功能結合百度地圖進行顯示,藥用植物分布一目了然;趨勢預測可以通過植物的地理位置、生理特性等信息分析預測植物分布范圍、生長規律、生命周期甚至植物進化趨勢等內容。

圖4 植物地理位置分布功能
借助藥用植物研究成果管理平臺,利用 Spark大數據技術來對藥用植物研究成果進行保存和整理挖掘分析,不僅提高了藥用植物研究工作的效率,而且通過對原始數據的深度挖掘分析歸納,有效解決了傳統的紙質研究成果查詢不便、難以閱讀等問題,提高了研究成果利用價值價值。
在下一步的研究過程中,我們將繼續探索優化大數據模型算法,提高平臺數據挖掘處理能力,通過搭建分布式數據庫、數據集群等措施提高系統并發處理能力,進一步改善平臺的不足及缺點,提供更加全面高效的服務。
大數據產業已經成為了一個新興的國家戰略性產業,而大數據在藥用植物研究領域還處于起步階段,今后還將會有更大的研究發展空間,相信借助新技術新應用的幫助,藥用植物研究成果的利用一定能夠更上一個臺階,在推進藥用植物研究進步的同時產生更大的社會效益。
[1] 艾鐵民.中國藥用植物志.第 12卷[M].北京大學醫學出版社, 2013.
[2] (美) Jiawei Han [加]Micheline Kamber [加]Jian Pei.數據挖掘:概念與技術[M].機械工業出版社,2012.
[3] 李智慧.大型網站技術架構:核心原理與案例分析[M].電子工業出版社,2013.
[4] (美) Holden Karau.Spark快速數據處理[M].機械工業出版社,2014.
Management platform based on the results of a large study of medicinal plants data technology
Medicinal Plant Research is a huge and complex amount of data subjects, data is not only a large number of professional studies find difficult to remember, but not conducive to the depth of exploitation outcomes. Through the design and development of medicinal plants research management platform, big data technology and other modern Internet technology into the field of medicinal plant research, the study of medicinal plant research data generated in the process, information, pictures and other structured and unstructured results of stored data management platform and through consolidation, cleaning, loading, and other large data conversion technology for data mining algorithms analyze a standardized, modular data warehouse, ultimately providing data collection, statistical inquiry, analysis and forecasting services and other functions in the platform providing scientific and effective way to manage medicinal plants research and create a higher social value.
Medicinal plants; Big data technologies; research; data mining; analysis and forecast
S567
A
1008-1151(2015)02-0038-03
2015-01-13
蔣發俊,供職于廣西壯族自治區計算中心。