【摘要】 XBRL在財務信息的準備、分析和交流方面帶來了極大便利,成為會計師、投資者和監管者的有力工具。由于缺少形式語義,對XBRL格式數據的推理存在許多限制。文章首先討論利用XBRL技術進行財務信息搜索、集成和深入分析的需求,以及現有XBRL的不足。從技術角度分析XBRL與語義網技術融合的方法,綜述近年來在增強XBRL語義方面的研究進展,提出了基于本體的XBRL元數據分析和研究框架。
【關鍵詞】 XBRL;元數據;語義網;本體
一、引言
作為應用于財務信息領域的最新技術,XBRL(eXtensible Business Reporting Language)處理非結構化信息,利用標記元數據來識別和描述財務報告中的財務信息項。通過這些標記和分類標準,使計算機能夠“讀懂”財務報告,并利用內置驗證機制“分析”財務信息。近年來,國內外各大證券交易所紛紛要求上市公司提供XBRL財務報告,已積累了相當數量的XBRL數據,同時也暴露出XBRL缺少形式語義的缺陷,并開始制約XBRL數據的質量和對財務信息的集成、分析利用。
XBRL主要有三個組成部分:XBRL技術規范(Specification)是XBRL的技術總綱,定義XBRL的各種專業術語,用于規范XBRL文檔的結構,說明如何建立分類標準以及實例文檔;XBRL分類標準(Taxonomy)是不同國家、行業或團體根據XBRL規范和自身的會計行業準則以及條件定義的適用于本地區本行業的詞匯表,是一個術語字典,由XBRL Schema和鏈接庫兩部分組成,分別定義概念和描述概念之間的關系及相關文檔,鏈接庫包括定義、計算、展示、標簽和引用五種文件;XBRL實例文檔(Instance)是企業根據XBRL技術規范和分類標準做出的XBRL格式財務報告,是基于一個或多個分類標準所定義的概念的XBRL事實值的集合。另外,為了增強對財務數據的背景描述和計算能力,同時也考慮到XBRL技術規范的穩定性,XBRL技術規范還有兩個外加可選模塊,即Dimensions和Formulas。Dimensions規范描述財務數據的多維信息,提供表達XBRL背景之間關系的能力;Formulas規范表述會計的業務規則,彌補計算鏈接庫的不足,提供跨背景的計算關系。
語義網(Semantic Web)通過增加網絡信息的形式語義支持,對現有Web網進行變革和延伸,目標是幫助計算機在一定程度上理解數據的含義,實現高效的網絡信息搜索和智能協同。學術界和產業界都已經認識到語義網能夠有效促進企業內部和外部業務流程的集成和互操作,從而推動建立共享文檔和數據的全球基礎設施,使信息搜索和重用更加容易。
語義形式化是指將數據中的含義按某種數學規則用符號方式精確表示出來,以適合于計算機的理解和推理。筆者首先討論利用XBRL技術進行財務信息搜索、集成和深入分析的需求,以及現有XBRL的不足,然后從技術角度分析XBRL與語義網技術融合的方法,綜述近年來在增強XBRL語義方面的研究進展,最后,提出基于本體的XBRL財務信息分析和研究框架。
二、XBRL財務信息的集成和分析需求
計算機和互聯網的發展正改變著社會經濟生活的方方面面。在會計領域,互聯網顛覆了傳統公司報告的生產、披露與傳播方式,使得信息供求雙方獲取及傳播信息的可用方法和途徑發生了空前變化。美國證交會(SEC)早已要求上市公司從2005年開始自愿呈報XBRL財務報告,并強制要求美國國內外大型、按美國GAAP編制財務報表的公司,且全球公開發行普通股權益達50億美元以上的公司從2009年開始提交XBRL財務報告;從2005年開始,中國滬深兩市的所有上市公司也開始采用XBRL對定期財務報告進行全文披露;SEC還要求美國基金公司從2011年開始必須提交XBRL格式的風險/回報摘要;日本、西班牙的央行都要求其監管的銀行定期提交XBRL格式的財務數據。因而,隨著XBRL的推廣應用,需要處理大量的XBRL數據。
可以將XBRL數據處理需求分為兩類:
(一)數據收集和報告
公司和其他財務數據生產者能夠自動采集、匯總數據并轉換成XBRL格式。利用XBRL數據可以容易地生成多種形式的報告,分別適用于內部管理、財務報表、稅務文件和信用報告。要求能進行自動處理、錯誤檢驗和一致性驗證。
(二)數據使用和分析
收到XBRL格式數據的用戶能夠進行自動化處理,節約數據核對和重復錄入的時間。軟件能夠立即驗證數據,發現錯誤并立即報告數據缺失,也可以幫助進行數據分析、選擇和重用數據處理。特別是滿足投資分析的信息需求,簡化數據的選擇和比較,深入進行公司經營分析。可以降低貸款成本,加快放款速度。監管和政府部門能夠有效地整合、驗證和評估相關的財務信息。
作為XML的一種應用,XBRL的目標是為有關財務數據增加語義,特別是采用XLink實現的多種鏈接庫能定義多個數據項之間的、形式的計算關系。但是,總體來看,目前XBRL仍然只是解決信息的語法表達問題,尚不能實現大多數形式語義表達。如標簽和引用文檔、包含關系都缺少形式語義,常常導致XBRL實例文檔中出現大段的文本塊,僅供人工閱讀,無法支持用計算機實現分析、推理工作,從而難以滿足上述需求。
XBRL財務報告分類標準采用自然語言定義標記元數據,可能降低財務數據質量。劉勤(2006)針對XBRL的應用優勢, 從標準技術、管理、實施等多個角度進行剖析,通過質疑,發現目前XBRL在分類標準、多個分類的差異、處理成本等方面都存在一系列問題,其實質是標記元數據的不一致性。Debreceny等(2005)的研究也指出,應從技術性、可用性、完整性、可及性、一致性等方面來驗證分類標準元數據的充分性。
Berners-Lee繼發明Web之后,于1998年提出了將Web延伸為語義網的思想。此后引起學術界對語義網的研究熱潮,控制Web標準的W3C組織也相繼發布了多種相關的規范和技術,如RDF、OWL、SPARQL等。多年以來XBRL和語義網在各自領域發展迅速,互不相交。近年來,XBRL的發展引起W3C組織的關注,2008年Raggett開始作為W3C Fellow加入到XBRL國際組織的標準委員會,國外學術界對將語義網技術應用于XBRL的研究正逐漸形成熱點。
三、XBRL數據的語義形式化方法
從語義網的基本技術來看,目前主要關注資源描述框架(RDF)和本體的應用。通常認為本體是共享概念模型明確的形式化規范說明。作為智能知識處理的核心技術,本體提供了共享特定領域信息內容的框架,使多Agent能夠共享對交互信息的語義理解,并在數據挖掘、信息檢索、知識獲取、知識管理、信息集成等領域中獲得大量應用。XBRL數據的語義形式化實質上是對XBRL標記元數據的語義形式化。
(一)直接基于本體增加形式語義
較早的研究主要探索對基金、上市公司的XBRL格式數據轉換成RDF/OWL本體,主要涉及兩種語言間不同表示構件的映射關系、不一致性的處理,僅限于較小數據量。在實驗系統建立過程中也發現需要增加XBRL的形式語義,并擴充OWL的計算能力。這種方法的主要關鍵是建立一個明確的信息模型,即OWL本體。
為了增強XBRL的形式語義支持,大量研究涉及開發基于本體的XBRL數據管理方法和架構。Declerck等(2006)研究將XBRL分類標準直接轉換成描述邏輯的方法,最終用Protégé工具獲得一種“本體化”的XBRL分類標準。Li等(2009)通過在XBRL規范之上附加增強本體的方法,也采用Protégé和Jena工具建立了財務數據的分析環境,但這些應用基本上還是基于傳統方式的有限擴展,未采用SPARQL支持推理查詢。
(二)對多本體之間的異構語義的不一致處理
在一個分布式的網絡環境中,跨企業、跨行業的XBRL分類標準、實例文檔和內部數據實際上都存在語義上的異構,因此如何實現多種分類標準的語義融合,容忍不一致性是實現XBRL財務數據互操作集成和分析的基本前提。Zhu等(2007)提出利用模式匹配和情境中介技術解決XBRL財務報告分類標準和報告實例中的語義歧義;Núnez等(2008)提出在一種協同的網絡環境中,建立上層的抽象OWL本體,以期達到對多種跨分類標準的XBRL財務報告的比較和交換的目標。
XBRL財務數據和元數據結構的本體表示的核心動機是增強企業分析應用的潛力。這種企業分析應用是構建在多種結構化和非結構化集成數據而形成的財務報告數據之上的。如果將這種應用與推理引擎相結合,就能夠顯著增強合規管理。為了定義一個合適的XBRL的本體表示,Spies(2010)深入分析了XBRL元數據分類標準的原理,討論了相應的細分系統,提出了采用OWL語言為公認會計準則XBRL分類標準建立本體的方法,且與OMG的本體元模型(ODM)兼容。
(三)基于語義的XBRL與商務智能應用的融合
隨著證券市場上越來越多的欺詐交易,監管部門、投資者和公眾普遍關注及時、準確發現可疑交易,避免造成嚴重損失。這類應用需要結合XBRL數據與商務智能技術。為了能有效融合這兩種技術,XBRL數據必須進行語義解釋或擴充。Hou等(2006)試圖利用本體驅動的方法建立一個高效管理證券數據并準確發現可疑非法交易的系統。首先基于大量的案例和工業標準建立一個反映實體特征及其關系的證券領域本體模型,然后將各種系統中的數據按XBRL格式導入本體庫成為本體實例,從而形成可進一步推理的各種關系基礎,最后,用戶通過發出語義SPARQL查詢找出可疑交易。通過精確語義定位的分析過程,提供了查詢任務的準確性和效率。
隨著互聯網的普及推廣,可以從網上及時獲取大量企業的財務數據,特別是XBRL的運用大大推進了企業相關數據的集成效率,但海量數據必須進行提煉和濃縮才能被有效利用,達到持續報告的目標。Mendez-Nunez等(2010)利用語義網和感知計算理論,提出了從財務數據歸納生成簡短報告的框架和方法。這種簡短報告由幾個自然語言句子構成,可以幫助定義產生本體。
歐盟著名的MUSING項目提出建立XBRL本體用于元數據的形式化表達,從而支持新一代商務智能分析系統。以XBRL作為主要支撐,新型應用程序通過集成語義技術將知識管理、先進的預測分析和智能的第三方數據訪問結合起來。用于集成這些知識和項目結果的基礎性骨干在本體中被形式化,而本體自身作為模式為MUSING知識基礎庫服務。MUSING的合作伙伴德國人工智能研究中心開發了一個類似于XBRL本體的方法,并將其在PDF2XBRL的翻譯過程中用作骨干模式。這個方法通過使用自然語言處理將資產負債表的信息歸類到XBRL分類標準,把數據翻譯成機器可讀可處理的、可重用的信息。另一方面,在MUSING里所有的知識都被概念化到本體中。
四、XBRL元數據分析和研究框架
從以上討論可看到,為了提高XBRL數據質量,滿足深入分析的需求,關鍵是解決XBRL標記元數據的質量問題,特別是通過元數據的語義形式化能實現計算機的自動推理、變換和分析。XBRL規范的推廣使用,形成XBRL標記元數據的分布式使用環境。根據以上的XBRL數據處理需求和現有的研究情況來看,學術界至少面臨以下挑戰:
·現有OWL的功能擴展,需要擴展描述邏輯理論
·對多個本體之間的語義歧義的處理
·尋找高效的自動推理方法
為了解決這些問題,需要進行以下研究:
一是面向情境的XBRL元數據形式化語義表達與推理
作為分布式元數據一致性的研究基礎,首先從本地應用情境出發,研究情境信息建模方法,探索描述邏輯在行為及財務領域的擴展,然后試圖提出基于動態描述邏輯的一般元數據形式化描述,關注局部的具體知識,并構造對應的推理方法。
二是分布式元數據形式化語義表達與推理
以網絡環境為背景,研究分布式XBRL中的元數據語義精確表達與推理。首先根據分布式XBRL的元數據特點和需求,研究描述異構靜態和動態知識的統一形式化邏輯組成框架,然后擴充描述邏輯,按容納不一致的思路,研究基于分布式描述邏輯的標記元數據形式化表達,構造適合分布特點的全局推理方法。
三是本體管理中對不一致知識的處理機制
在精確表達XBRL標記元數據語義的基礎上,采用本體元建模理論,引入知識分區的多個本體空間思想,研究在元數據本體的注冊、演化和映射的管理過程中對不一致知識的處理機制。
四是XBRL元數據的一致性自動檢測和消解方法
XBRL的語義形式化為一致性自動檢測和消解方法提供了堅實基礎。綜合以上對本地和網絡信息的探索,區分多種認知歧義和沖突矛盾類型,研究分布式元數據一致性的自動檢測算法和輔助消解方法。
這些研究將有助于進一步完善描述邏輯理論,構造有效的XBRL一致性邏輯檢測方法,加速語義網技術的實用化。
五、結論
在財務信息領域存在大量復雜、有價值、動態的信息,各種用戶需要通過一種通用的信息模型最大限度地分析和利用信息。經過多年的努力,XBRL成為各方公認的這種信息模型,從而為信息共享提供了堅實的基礎。但XBRL缺少形式語義的不足,也形成進一步深入分析數據的主要障礙。現有的語義增強方法主要集中于利用本體技術規定靜態的精確概念及其關系,進一步的研究應主要致力于解決分布式網絡環境中的XBRL元數據形式語義表達和推理方法,解決多種本體間的不一致問題,并提供高效的推理機制。
【參考文獻】
[1] R.Debreceny, C.Felden, B.Ochocki, et al. XBRL for Interactive Data[M]. New York: Springer, 2009.
[2] Cardoso J, Hepp M, Lytras M. The Semantic Web: Real-World Applications from Industry[M]. New York: Springer, 2008.
[3] 劉勤. 對當前一些有關流行觀點的思考[J]. 會計研究, 2006(8): 80-85.
[4] Debreceny R. Financial reporting in XBRL on the SEC’s EDGAR system: a critique and evaluation[J]. Journal of Information Systems, 2005, 19(2): 191-210.
[5] Klyne G, Carroll J. Resource Description Framework (RDF): Concepts and Abstract Syntax, W3C Recommendation[EB/OL]. http://www.w3.org/TR/rdf-concepts/, 2011-5-1.
[6] Smith M, Welty C, McGuinness D. OWL Web Ontology language Guide[EB/OL]. http://www.w3.org/TR/owl-guide/, 2011-5-1.
[7] W3C. SPARQL query language for RDF [EB/OL]. http://www.w3.org/TR/2004/WD-rdf-sparql-query-20041012/, 2011-5-1.
[8] Lara R, Cantador I, Castells P. XBRL Taxonomies and OWL Ontologies for Investment Funds [C]. ER Workshops 2006, LNCS 4231, 2006, pp. 271-280.
[9] Méndez S, Labra J, Andrés J, et al. Analysis of XBRL documents containing accounting information of listed firms using Semantic Web Technologies[C]. Metadata and Semantics, 2009, pp.375-381.
[10] Declerck X, Krieger H. TranslnIvgo053hzykktLl8cb/5g==ating XBRL into description logic[C]. The 9th International Conference on Business Information Systems, Klagenfurt, Austria, 2006.
[11] Li B, Liu M. An ontology-augmented XBRL extended model for financial information analysis[C]. IEEE International Conference on Intelligent Computing and Intelligent Systems, 2009, (3): 99-103.
[12] Zhu H, Madnick SE. Semantic integration approach to efficient business data supply chain: integration approach to inter-operable XBRL[R]. MIT Sloan School of Management, 2007.
[13] Núnez SM, Suárez JA, Gayo JE. A Semantic Based Collaborative System for the Interoperability of XBRL Accounting Information[C]. Emerging Technologies and Information Systems for the Knowledge Society, LNCS 5288, 2008, pp. 593-599.
[14] Spies M. An ontology modeling perspective on business reporting[J]. Information Systems, 2010, 35(4): 404-416.
[15] Hou X, Hu G, Ma L, et al. Ontology Driven Securities Data Management and Analysis[C]. Frontiers of WWW Research and Development-APWeb 2006, LNCS 3841, 2006, pp. 1083-1095.
[16] Mendez-Nunez S, Trivino G. Combining semantic Web technologies and computational theory of perceptions for text generation in financial analysis. IEEE International Conference on Fuzzy Systems (FUZZ), 2010, pp.1-8.
[17] MUSING.http://cordis.europa.eu/fp6/dc/index.cfm?fuseaction
=UserSite.FP6HomePage. 2011-4-20.