999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

出版發行流通數據庫的設計

2014-05-29 11:28:44張宏
出版廣角 2014年7期

[摘要]本文提出了一個出版發行物批發和零售信息數據庫的設計,針對國內出版物數據管理上的混亂現狀給出了折中方案,開發出一個具有自主知識產權的行業數據庫,為進一步的數據挖掘提供了一個切實可行和優化的解決方案。

[關鍵詞]出版物統計;出版物零售信息;出版物數據庫

[作者簡介]張宏,東方出版交易中心。

[基金項目]本項目得到了國家和上海市文化資金的資助

商品流通信息的統計一向是各個行業信息發展的重要目標,關系到每個行業的數據統計、數據分析和市場預測等重要的行業信息。本文結合出版發行行業的特點,提出了一個面向行業數據挖掘的出版物流通數據庫,從行業特點、底層設計、結構優化、數據整理等多方面給出了解決方案。這個數據庫的設計方案不僅可以解決出版發行物流通的統計分析,同樣適用于其他行業。

一、國內出版物的信息狀況

1. 行業信息標準

國內出版發行行業的傳統出版物在信息統計方面有其先天的便利性,例如很早就實施了國際標準書號(簡稱“書號”)ISBN(International Standard Book Number);很早在各個零售網點進行計算機管理和POS機收費;由專門的政府管理機構對ISBN和圖書在版編目CIP(Cataloguing In Publication)數據進行管理;圖書館對出版物的分類(中國圖書館分類法,簡稱“中圖法”)和機讀數據MARC(Machine Readable Catalogue)管理有成熟的系統等。

國內實施的出版物信息規范標準雖然一直滯后于行業應用和有所缺失,但已經滿足了行業的絕大部分需求。標準大致如下:《中國標準書號(GB/T5795-2006)》《圖書在版編目數據(GB/T12451-2001)》《中國標準連續出版物號(GB/T9999-2001)》《圖書書名頁(GB/T12450-2001)》《書目信息交換用磁帶格式(GB/T2901-1992)》《圖書、音像制品、電子出版物營銷分類法(CY/T 51-2008)》(簡稱“營銷分類”),以及近期頒布的CNONIX(Chinese Online Information Exchange)《中國出版物在線信息交換CNONIX圖書產品信息格式》標準。

2. 標準實施情況

相對于行業標準頒布的情況,國內出版發行行業對標準的實施則是非常落后和混亂。例如,以標準書號ISBN的實施為例,就存在多書一號的情況;同樣,在版編目CIP數據中的中圖法分類混亂,分類錯誤,不同分類版本共存的情況多有發生;營銷分類發布多年,迄今沒有大范圍的實施和采用;零售網點無法通暢地得到出版數據,絕大部分還停留在人工輸入和人為加工,不可避免地造成數據的混亂和重復等現象。

行業的區域性分割,即每個省份都有書店集團以及出版集團,各自開發的信息系統造成數據規范的不統一,相互之間無法順暢地進行數據交換。這些實施中的現狀給出版物流通數據庫的建立造成很大障礙。

二、出版物信息的突出問題

1. 唯一性問題

數據庫設計中為了加快查詢、保障數據規范,特別是保證信息的唯一性,需要設立“唯一鍵”(Primary Key)。出版物書號ISBN的設計初衷就是為每一個出版物提供唯一的標識代碼。但在實際的行業實施中,卻出現了ISBN號不唯一的現象,并且占整個數據量的一個較大比例。

行業里每個信息系統的設計都遇到了這個ISBN不唯一的突出問題。作為書店或出版單位運營的信息系統,每個系統的開發者都提出了解決方案。例如,自定義一個唯一鍵或者構建一個基于ISBN和其他后綴的唯一鍵等。

出版物流通信息數據庫從本質上看,是一個行業信息統計的數據庫,對流通物的唯一性有極強的要求,但還沒有達到書店運營系統的程度。然而,由不同運營系統匯總的數據進入統計數據庫,對不同系統的唯一鍵進行標識和轉換會消耗大量的資源。由此,我們提出了一個折中方案,即采用出版物的書號ISBN和出版物的定價組成一個混合型的唯一鍵。這個方案的優點在于滿足了統計(總碼洋、總銷售冊數等)的要求,同時用最小的資源(自動轉換)把不同系統的數據統一到一個共同的唯一標識。方案的缺點在于遺失了一定量的信息,例如相同ISBN號的兩本教輔《語文》和《英語》(通常是一個出版商的一套教輔中的兩本),如果定價相同,在這個流通數據庫里就標識為一個出版物,兩者的銷售數據就會混而為一。

2. 出版物分類的問題

另一個突出問題是出版物的分類問題。現有行業中采用的分類多種多樣,有中圖法分類、營銷分類等,而且每個實施都有多種不同的版本。這種出版物分類亂象造成了信息系統開發和數據交流的另外一個巨大障礙。

中圖法分類是行業內影響巨大,且普遍使用的一種分類法。中圖法具有分類較為科學和類別詳細的特點,主要適用于圖書館系統,便于圖書檢索。中圖法分類在國內的出版物發行行業應用廣泛,但其本身的局限性制約了中圖法在零售系統和數據統計中的使用。

營銷分類以中圖法為基礎,是書店普遍使用的一種分類方法。營銷分類版本眾多,各地圖書零售門店都有自己的版本。其中深圳的版本在2008年成為行業的一個標準,即《圖書、音像制品、電子出版物營銷分類法(CY/T 51-2008)》。營銷分類依據圖書銷售的特點,把中圖法中一些零售比例高的低級別分類提到了主類別中,例如計算機圖書、少兒圖書等。

不同系統使用了不同的分類方法,使以統計為目的的流通信息數據庫遭遇了較大的困難。因此在數據庫的設計中,提出了一種更恰當的分類法。該分類以中圖法為基礎,營銷分類為主體,沿襲了出版物統計中的傳統和習慣,是一個面向銷售統計的三級分類法。該分類以修改過的營銷分類為二級和三級分類,在二十多個營銷大類的基礎上歸納了七個一級的統計分類。具體如下:

文學:包括小說、文學作品、文學研究等;

社科:包括馬列、哲學、政治、法律、軍事、經濟、歷史、管理等;

科技:包括自然科學、醫學、農林牧漁、工業技術、計算機等;

少兒:包括適合少兒的各類讀物;

藝術:包括美術、設計、視聽藝術等;

生活:包括與生活、愛好、旅游等相關的類別;

教育:包括語言文字、文化教育等類別;

其他:包括進口圖書、音像制品、圖片掛歷、辭書文摘等。

流通信息系統在處理數據時,根據預先設定的映射,自動把來自不同系統的銷售數據中的中圖法或營銷分類字段映射到這個新的統計分類中。同時在系統中保留了中圖法的字段,便于系統依據不同分類方法進行統計。

三、出版物流通信息的數據庫

1.數據庫的設計

出版物流通信息數據庫有兩個要素,即出版物要素和流通要素。該數據庫可以分為三個部分,即出版物數據、流通數據,以及輔助的數據(包括出版社數據、書店數據、作者數據等)。

出版物數據包含了出版物的唯一標識鍵、零售條碼、出版物名稱、定價、出版單位(名義)、出版實體單位、出版年月、出版物統計分類、出版物中圖法分類、作者等重要字段,以及其他有統計需求的字段,例如印數、頁數、字數等。

出版物流通數據包含了流通的要素,即出版物唯一標識鍵、銷售數量、銷售時間、銷售地點(門店或網購的送貨地點)。由于數據采集原因,無法對所有的流通數據按每單銷售進行標識,所以只記錄每個單品的流通信息。

輔助的數據表格包含了固定的輔助信息,例如出版社數據(包含了社名、社號、所屬集團、所屬省份等)、書店數據(店名、所屬集團、地點、所屬省份等)等。

2. 數據的采集

由于各地信息發展的不同,實時的數據采集較難實現。現有的數據采集是定期(每周)地采集各個數據交換單位運營數據庫中的原始POS數據。各單位依據自身系統的實際情況,導出包含必要字段的原始數據,并且上傳到流通數據庫的服務器上。

出版物數據主要來自CIP數據,以及各個書店的圖書數據,每月進行更新和補充。出版物數據大部分由軟件自動處理,通過構建唯一鍵(ISBN + 定價),以及分類的映射轉換后輸入數據庫。后期部分的人工干預主要是對分類錯誤的修改,以及重復的數據條目進行整理。出版物數據每年大約新增30萬條,設計容量為3000萬條數據,迄今為止是一個300萬條左右的數據量。

流通數據的輸入由原始POS數據直接轉換,數據粒度是每天每個地點(門店)每個品種作為一條數據。全國每年出版物零售量大約為500億碼洋,按數據粒度折算,大約為20億條數據。數據庫設計采用分布式存儲,所以可容納的流通數據量沒有上限,可以輕松存儲2000億條數據。

輔助數據基本為變化不大的小量信息,一次性輸入,并定期進行適當的維護。輔助數據包括出版社信息、書店信息、統計分類表、中圖法分類表等。

四、數據使用的優化

作為一個行業流通信息的龐大數據庫,其存儲和使用方面需要采取許多優化措施才能滿足實時數據查詢的需要。

1. 存儲結構的優化

出版物流通數據的數據量非常龐大,每年可能的數據量達到20億條,累計數據量是百億甚至是千億的量級。迄今為止,所有商業數據庫軟件都無法很好地處理如此巨大的數據量。其中原因,有底層操作系統文件系統的限制(最大文件的限制),也有數據庫軟件本身存取數據的限制。

如此龐大的數據量可以采用分布式存儲的優化方式,即把大數據量按一定的方式存儲到不同的數據表(文件)中。根據流通數據本身的特點,以及這些數據查詢和使用的特點,可以按時間進行分段存儲。例如,流通數據可以按月存儲進不同的數據表(文件)中,并且在每月表格上建立虛擬的總表格或View便于全部流通數據的查詢。

2. 數據索引的優化

常規的數據索引優化方式包括加速單個表格(文件)查詢的數據索引(Index)設立,加速多個表格(文件)關聯查詢的相關數據索引的設立。

適合出版物流通數據庫的常規數據優化手段有:

建立針對性的數據索引:對基礎的數據表格(文件)進行索引優化。例如,對出版物數據的ISBN、出版單位、出版年月、作者等字段建立數據索引;

相關表格建立關聯索引:對出版物表格和銷售表格建立以統一的唯一鍵索引,便于表格間快速的關聯。

3. 中間數據庫的優化

對龐大數據量的行業數據挖掘,還需要引入一些非常規的優化方法。通過對數據查詢的深入分析,我們發現行業流通數據查詢的90%以上是重復的數據表格關聯以及關聯后中間數據的產生、篩選和匯總。因此,我們這里創新性的提出了“中間數據庫”這個創新優化概念(相對于原來的流通數據庫“原始數據庫”而言),并且依據行業特點和查詢特點,設計了適合出版物流通數據的中間數據庫。例如:

流通周匯總數據:把每天的流通數據按周進行匯總,再根據銷售地點的省級區域進行匯總,然后關聯出版物數據、輔助數據后產生周匯總數據表,并且采用分布式存儲,按季度進行存儲。在此中間數據上可以進行銷售數據的按周查詢。

流通月匯總數據:如上進行月度的匯總,然后按季度進行分布式存儲。在此中間數據上可以進行銷售數據的按月、按季度、按年度查詢等。

4. 復雜查詢的優化

數據挖掘中許多查詢需求非常復雜,需要多個SQL查詢進行組合。借助現有數據庫軟件支持的臨時內存數據存儲,可以開發出適合加速復雜查詢的優化方式,即臨時數據表的優化方式。臨時數據存儲于服務器的內存中,比硬盤數據的查詢快至少一個數量級。

5. 軟件優化和緩存

在前臺軟件設計中可以進行數據的預提取,提前進行可能需要數據的緩存,以加速用戶直觀的查詢速度的提升。例如,前臺查詢銷售排行前100,時間后臺緩存了排行前500的數據,便于用戶查詢排行200~500名數據時,感覺速度非常快。

通過對數據查詢的深入分析,進一步優化涉及的SQL查詢語句。同時,針對所使用的數據庫軟件,盡量使用其特有的SQL優化對策。

6. 硬件系統的升級

相對于數據庫設計、數據存儲優化、查詢優化等方式可以提供的巨大優勢,提升硬件也是一個不可或缺的手段。在數據庫系統中,對數據查詢速度有明顯影響的硬件因素主要有內存容量、硬盤讀取速度、CPU速度等。而前兩項指標尤為重要。

數據庫服務器的內存容量最好可以容納常用查詢數據的數據量,以便于操作系統和數據庫軟件進行直接的數據緩存。假設,常用數據牽涉到100G+的數據量,那建議的內存容量就需要達到256G,其中操作系統和軟件占去部分內存,剩余的可以全部用來緩存硬盤上100G+的數據。

建議使用讀取非常迅捷的固態硬盤(SSD),通過磁盤陣列方式把小容量的SSD組合成大容量的虛擬硬盤來存儲數據。磁盤陣列本身可以加速數據的讀取,已經提供數據安全,免于因為硬盤故障導致的數據損壞。

7. 優化的結果

通過各種優化措施的使用,整個出版物流通數據庫的優化效果明顯。一個普通的,耗時10個小時的數據挖掘任務,通過上述的優化手段,可以在30秒中得到結果。從而使行業信息的實時報告成為可能。

出版物流通數據庫的設計,通過折衷方式解決了行業信息化固有的障礙;使人工投入和干預達到最小化;使用創新的數據優化方法,使耗時巨大的全數據庫查詢成為可能,查詢耗時下降可達99%;通過合理的軟件設計降低了硬件投入,節約硬件成本達到90%。

主站蜘蛛池模板: 亚洲精品天堂自在久久77| 伊在人亞洲香蕉精品區| 国产欧美高清| aⅴ免费在线观看| 精品夜恋影院亚洲欧洲| 久久精品无码专区免费| 国产黑丝一区| 高清无码一本到东京热| 欧美一级色视频| 97视频精品全国免费观看| 久久久久久久97| 亚洲中文字幕无码爆乳| 国产成人夜色91| 天堂在线www网亚洲| 国产成人你懂的在线观看| 四虎影院国产| 久久精品人人做人人| 毛片基地美国正在播放亚洲| 久久99久久无码毛片一区二区| 青青网在线国产| 久久这里只精品热免费99| 欧美国产精品不卡在线观看| 性喷潮久久久久久久久| 国产美女丝袜高潮| 亚洲一级无毛片无码在线免费视频 | 欧美精品高清| 婷婷开心中文字幕| 国产成人1024精品下载| 国产一区二区精品福利| 国产午夜看片| 97综合久久| 国产美女在线免费观看| 国产美女91呻吟求| 精品福利视频导航| 婷婷综合在线观看丁香| 三上悠亚在线精品二区| 久久精品国产精品一区二区| 亚洲男人的天堂在线| 国产亚洲精品97在线观看| 亚洲精品国产精品乱码不卞| 久久毛片基地| 草逼视频国产| 国产老女人精品免费视频| 亚洲国产天堂久久九九九| 人妻一本久道久久综合久久鬼色| 国产午夜一级毛片| 免费全部高H视频无码无遮掩| 国产成人禁片在线观看| 国产一级妓女av网站| 国产乱人激情H在线观看| 国产一二视频| 国产视频a| 日韩av在线直播| 台湾AV国片精品女同性| 日韩欧美国产中文| 精品国产美女福到在线直播| 国产免费观看av大片的网站| 青青操视频免费观看| 亚洲精品国产乱码不卡| 99在线免费播放| 日韩在线视频网| 午夜精品一区二区蜜桃| 免费可以看的无遮挡av无码| 精品综合久久久久久97超人| 国产乱子伦手机在线| 伊人福利视频| av色爱 天堂网| 午夜毛片免费观看视频 | 欧美日韩国产精品综合| 五月天香蕉视频国产亚| 无码专区第一页| 2021天堂在线亚洲精品专区| 国产在线视频欧美亚综合| 欧美日本在线| 67194在线午夜亚洲| 久久综合丝袜长腿丝袜| 青草精品视频| 美女被操黄色视频网站| 国产黄色爱视频| 国产h视频在线观看视频| 久久精品亚洲中文字幕乱码| 亚洲综合精品第一页|