《天津日報》全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)是在全國傳統(tǒng)報業(yè)紛紛向數(shù)字化報業(yè)戰(zhàn)略轉(zhuǎn)型、中文新聞信息技術(shù)標(biāo)準(zhǔn)化大力推行的背景下正式立項(xiàng)并建設(shè)完成的。該系統(tǒng)采用最新國內(nèi)外報刊數(shù)字化技術(shù)成果,充分考慮對報紙資源利用的現(xiàn)在和將來的需求,使用科學(xué)成熟的生產(chǎn)工藝,在數(shù)據(jù)生產(chǎn)的整個過程,從掃描、識別、校改、版式還原、文章標(biāo)引等都采用高標(biāo)準(zhǔn)數(shù)字化技術(shù)及規(guī)范要求,將報紙全部信息數(shù)字化,生產(chǎn)規(guī)范的數(shù)據(jù),集成中文信息先進(jìn)和成熟的系統(tǒng)軟件,使得本系統(tǒng)成為高質(zhì)量的“精品工程”,也是天津市信息化建設(shè)的重要組成部分。
在數(shù)字化生產(chǎn)全過程中,該系統(tǒng)堅持國家新聞分類法標(biāo)準(zhǔn)和數(shù)字化技術(shù)標(biāo)準(zhǔn),將版面結(jié)構(gòu)和版面內(nèi)容等完整信息實(shí)施數(shù)字化。不僅使得檢索結(jié)果精確、速度快捷,而且版面文件容量小,檢索速度快,字型美觀。它適用于各種電腦、閱讀器、手機(jī)等各類終端設(shè)備,為多格式轉(zhuǎn)化和支持多終端應(yīng)用建立了數(shù)據(jù)基礎(chǔ),在互聯(lián)網(wǎng)發(fā)布具備明顯優(yōu)勢,實(shí)現(xiàn)了新聞信息的多渠道發(fā)布和個性化服務(wù)。同時實(shí)現(xiàn)了現(xiàn)刊數(shù)字報直接轉(zhuǎn)換對接歷史報刊數(shù)據(jù)庫系統(tǒng),使歷史報刊數(shù)據(jù)庫的數(shù)據(jù)始終處于動態(tài)更新中。
在數(shù)據(jù)生產(chǎn)的整個過程中必須采用國家新聞標(biāo)準(zhǔn)和其他一些數(shù)字化技術(shù)標(biāo)準(zhǔn)及規(guī)范,通過先進(jìn)的技術(shù)手段將版面所有信息(包括版面結(jié)構(gòu)和版面內(nèi)容)全部信息數(shù)字化,為實(shí)現(xiàn)多格式轉(zhuǎn)化支持多終端應(yīng)用打下數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)庫系統(tǒng)采用主流的先進(jìn)數(shù)據(jù)庫技術(shù),數(shù)據(jù)庫結(jié)構(gòu)開放,可擴(kuò)展,支持主流檢索系統(tǒng),整個數(shù)據(jù)庫系統(tǒng)具備了獨(dú)創(chuàng)性、領(lǐng)先性、超前性及國際性。
該系統(tǒng)數(shù)據(jù)庫總體設(shè)計堅持了數(shù)字化文本、版面完整性原則,數(shù)字化正確性原則,實(shí)用性原則,先進(jìn)性原則和易用性原則。充分考慮了用戶的要求,采用html模版,允許用戶進(jìn)行任意設(shè)計界面和通過編寫javascript控制功能,實(shí)現(xiàn)界面的個性化和功能的定制。隨著情況變化,用戶需要調(diào)整或重新設(shè)計,也完全可以方便迅速地實(shí)現(xiàn),降低了開發(fā)成本。因此,具有非常大的靈活性和可擴(kuò)展性。如圖所示。
該系統(tǒng)完成了《天津日報》1949年創(chuàng)刊以來的全部報紙內(nèi)容的數(shù)字化,整合了《天津日報》的全部新聞信息資源。系統(tǒng)完全達(dá)到了項(xiàng)目的設(shè)計目標(biāo)和要求,并具備多項(xiàng)技術(shù)創(chuàng)新特點(diǎn),尤其是在國內(nèi)首家采用版面全信息重構(gòu)技術(shù)和修訂后的國家新聞分類標(biāo)準(zhǔn),是一項(xiàng)具有前瞻性、高標(biāo)準(zhǔn)的歷史報紙數(shù)字化精品工程。具有較好的開放性、擴(kuò)展性和安全性,有著廣泛的應(yīng)用前景和示范作用。
2006年底完成的青蘋果“四合一”報刊技術(shù)平臺,集成最新中文信息和軟件開發(fā)成果,將電子報刊的功能從查詢檢索提升到分析管理的層次。“四合一”報刊技術(shù)平臺可以作為讀者的查詢閱讀工具,也可以作為管理使用者的信息資源管理分析平臺。“四合一”報刊技術(shù)平臺代表了報刊電子版技術(shù)的新水準(zhǔn)和新進(jìn)展。基于青蘋果報刊雙平臺網(wǎng)絡(luò)版全文檢索系統(tǒng),其性能優(yōu)于其他同類產(chǎn)品:主流數(shù)據(jù)庫平臺,市場占有率大,穩(wěn)定性強(qiáng);數(shù)據(jù)庫結(jié)構(gòu)開放;數(shù)據(jù)壓縮功能強(qiáng)大,數(shù)據(jù)膨脹率小于0.5;采用分詞索引技術(shù),保證查全率、查準(zhǔn)率及響應(yīng)速度的性能;具有全文和版面相關(guān)聯(lián)的檢索功能;具備全文模糊檢索、特征檢索、專題檢索、圖片檢索、廣告檢索、版面檢索等全方位的檢索支持;具備在檢索結(jié)果中漸進(jìn)檢索功能;可與其他檢索系統(tǒng)協(xié)同工作;數(shù)據(jù)庫一次設(shè)計,多重發(fā)布:提供數(shù)據(jù)庫后網(wǎng)絡(luò)版,網(wǎng)絡(luò)版支持多人同時通過瀏覽器訪問,一旦有需要,可以迅速提供相同界面的單機(jī)版,無需雙重設(shè)計;綠色軟件,除了標(biāo)準(zhǔn)的IE瀏覽器,整個程序不依賴于其它任何組件,因此可靠性很高。
全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)的技術(shù)創(chuàng)新點(diǎn)主要體現(xiàn)在以下方面:
1)報紙版面全信息數(shù)字。將版面所有信息(包括版面結(jié)構(gòu)和版面內(nèi)容)全部數(shù)字化,把結(jié)構(gòu)基元(包括字體坐標(biāo)、字號坐標(biāo)、行坐標(biāo)、段落坐標(biāo)等)和內(nèi)容基元(文字的內(nèi)容、字體、字號、顏色等)全部信息內(nèi)容封裝在XML內(nèi),最后將XML作為基礎(chǔ)數(shù)據(jù)保存。通過全信息數(shù)字化處理的結(jié)果數(shù)據(jù)可以重復(fù)和長期使用。
2)在國內(nèi)首家采用版面全信息重構(gòu)技術(shù)。在文字識別的基礎(chǔ)上,對版面結(jié)構(gòu)和版面內(nèi)容的基元進(jìn)行了智能提取,實(shí)現(xiàn)了數(shù)字化版面的智能化還原,準(zhǔn)確率達(dá)到80%,以及文章區(qū)在版面縮略圖中的準(zhǔn)確定位和顯示。
3)首家采用修訂后的國家新聞分類法標(biāo)準(zhǔn)。在嚴(yán)格遵守分類標(biāo)準(zhǔn)體系的基礎(chǔ)上,利用了分類法的擴(kuò)展性,增加了96個天津地方特色類目,并形成了《天津日報新聞分類使用本》,開發(fā)了輔助標(biāo)引軟件工具,實(shí)現(xiàn)智能標(biāo)引、智能分類,75%標(biāo)引字段自動提取,4項(xiàng)類別做到智能自動分類,并不斷積累分類語料庫,逐步過渡到自動分類。
4)在整個報紙數(shù)字化過程中工藝、格式以及流程規(guī)范;采用XML對版面結(jié)構(gòu)和版面內(nèi)容進(jìn)行描述和封裝,并為多格式轉(zhuǎn)化和支持多終端應(yīng)用建立了數(shù)據(jù)基礎(chǔ),實(shí)現(xiàn)了新聞信息的多通道發(fā)布和個性化服務(wù)。
5)實(shí)現(xiàn)了現(xiàn)刊數(shù)字報的自動轉(zhuǎn)換及與歷史報刊數(shù)據(jù)庫的對接,保證了不同規(guī)范數(shù)據(jù)的延續(xù)性。
全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)不僅是報社主導(dǎo)報刊的數(shù)字化基礎(chǔ)建設(shè),同時可以作為報社重要的商品開發(fā)資源。此外,該系統(tǒng)向社會提供了有力地見證天津社會經(jīng)濟(jì)發(fā)展的完整、權(quán)威的報紙文獻(xiàn)資料庫,對報紙資源進(jìn)行有效的保護(hù)和深度開發(fā),這將對天津乃至全國的信息化建設(shè)都將產(chǎn)生深遠(yuǎn)的影響。《天津日報》全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)的建成并投入使用,使天津日報社由傳統(tǒng)報業(yè)向全媒體數(shù)字報業(yè)的戰(zhàn)略轉(zhuǎn)型邁出了堅實(shí)的一步,是建設(shè)全媒體數(shù)字報業(yè)重要的基礎(chǔ)準(zhǔn)備。

圖2 《天津日報》數(shù)據(jù)庫系統(tǒng)架構(gòu)圖
《天津日報》歷史報紙數(shù)字化及數(shù)據(jù)庫建設(shè)項(xiàng)目社會效益遠(yuǎn)大于經(jīng)濟(jì)效益。為天津保存珍貴的歷史資料,對天津人民共同的財富進(jìn)行搶救性保護(hù);讀者、記者、編輯以及天南海北的天津人,通過它可以更深切有效地了解天津,增加自豪感、歸屬感和責(zé)任感,同時也為個人信息需求提供方便;溫故而知新,可以成為天津各級黨和政府在做重大決策和解決錯綜復(fù)雜的政務(wù)問題時的參考文獻(xiàn)資料,更準(zhǔn)確、更便捷、更人性化;各經(jīng)濟(jì)實(shí)體在進(jìn)行經(jīng)濟(jì)活動時,可依據(jù)它尋找商機(jī)、制定或調(diào)整經(jīng)營策略,以達(dá)到最大的經(jīng)濟(jì)效益;歷史研究人員依據(jù)它可對天津進(jìn)行更全面更深入的研究;通過網(wǎng)絡(luò)發(fā)布,國內(nèi)外各界人士及公司團(tuán)體可據(jù)此了解天津,提高他們對天津的了解和興趣,為招商引資、加快天津市新區(qū)開發(fā)開放服務(wù);報社重要的基本建設(shè)和向“數(shù)字報業(yè)”轉(zhuǎn)型的資源準(zhǔn)備。
對《天津日報》歷史報紙數(shù)字化并建立全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng),最全面、權(quán)威地提供了見證天津社會經(jīng)濟(jì)發(fā)展文獻(xiàn)資料庫,是對報紙資源的有效保護(hù)和對信息資源的成功開發(fā),數(shù)據(jù)庫是數(shù)據(jù)內(nèi)容、分類標(biāo)引內(nèi)容和檢索閱讀平臺的組成產(chǎn)物,適用于單機(jī)、局域、互聯(lián)網(wǎng)和移動載體的閱讀形式,在提高報社新聞業(yè)務(wù)的同時,無論從歷史角度還是現(xiàn)實(shí)需求來看,對天津乃至全國的信息建設(shè)發(fā)展都具有不可替代的珍貴價值。
對《天津日報》數(shù)字化資源進(jìn)行多層次的重復(fù)開發(fā)和利用,最大限度地挖掘報紙新聞信息的潛在價值,使報紙資源形成多品種適合于不同發(fā)布渠道的數(shù)字化產(chǎn)品,擴(kuò)大信息資源的有效應(yīng)用和增值服務(wù),具有很好的應(yīng)用前景:①對報紙信息資源查閱檢索與發(fā)布;②數(shù)據(jù)庫產(chǎn)品進(jìn)行不同層次和區(qū)域的全球銷售;③提供互聯(lián)網(wǎng)和移動終端報紙信息有償定制服務(wù);④全刊影印版零庫存定制銷售;⑤報紙專題資源個性化服務(wù);⑥廣告信息增添、捆綁等商業(yè)服務(wù)。