楊凡
關鍵詞:“互聯網+”;數字化;文獻開發
摘要:“互聯網+”是國家戰略層面的發展方向,是今后新科技應用的趨勢。而“互聯網+”連接一切的特性隨著網絡媒體的興起、社交軟件的普及和3D虛擬現實技術的出現,促使因新興技術而產生的數據成倍增長,巨大的數據量使互聯網技術與傳統產業的跨行業融合成為可能。數字化產品普遍運用于人們的日常生活,如何能在紛繁復雜的數據流中獲取及時、有效的信息是“互聯網+”有效利用的關鍵性難題。文章結合圖書館開展文獻數字化發展的實踐,就新技術對圖書館文獻開發造成的沖擊進行分析,并提出應對數字化發展的對策。
中圖分類號:G250.73文獻標識碼:A文章編號:1003-1588(2018)02-0123-03
易觀國際董事長兼首席執行官于揚在“易觀第五屆移動互聯網博覽會”上提出“互聯網+”理念,而“互聯網+”概念上升到國家戰略層面是在十二屆全國人民代表大會三次會議上,由李克強總理在《政府工作報告》中首次提出。李克強總理指出:“推動移動互聯網、云計算、“互聯網+”、物聯網等與現代制造業結合,促進電子商務、工業互聯網和互聯網金融健康發展,引導互聯網企業拓展國際市場。”[1]因此,“互聯網+”不僅是一種技術革新或行業標準,而是更多地轉化為國家戰略層面,代表著發展的趨勢。
1“互聯網+”的概念與特征
“互聯網+”指的是以網絡信息技術為手段,以傳統行業為基礎,組成有機的整體,以優化生產資源,提高效率,重新建構“互聯網+”環境下的產業模式等方式完成從傳統模式向數據模式的轉型。“互聯網+”的核心是網絡數據流的優勢,將網絡數據與傳統產業相結合,以產業模式重構提高社會生產力。“互聯網+”的概念是以網絡數據為原點,數據是信息的表現形式和載體,是事實或觀察的結果,是對客觀事物的邏輯歸納,并用于表示客觀事物的原始素材。
跨界融合、創新驅動、重塑結構、尊重人性、開放生態、連接一切是“互聯網+”具有的基本特征[2]。“互聯網+”與不同行業的融合過程本身就是一種重新創造的過程,以計算機網絡技術橫跨別的行業本身就是一種創新,是行業間融合的先決條件,不同的行業在經歷跨界融合后重塑成新的行業模式就是“互聯網+”的最終模式。
“互聯網+”帶動傳統產業數據化,而數據化是指傳統產業以互聯網數據為手段,以實現用戶數據挖掘、匯總和分析,實現用戶信息需求為目的的轉型過程。通過產業數據化,傳統產業轉變原有的模式,形成以線下實體產品為基礎,以供需關系為導向,以物流為通道的精準化商業模式。數據化的商業模式是以數據流為基礎,基于新的商業模式,通過調整生產模式,從產品制作的固有思維中解脫出來,以眾籌的形式分解產品生產過程中的成本,形成具有數據思維的新型模式。新技術的應用是“互聯網+”的重要手段,將實驗室中的新技術與傳統產業相融合創造出新的市場空間。互聯網開放、共享的特性使產業市場實現了跨地域式的擴展。
2圖書館數字化的現狀及存在問題
2.1圖書館文獻數字化的概念及發展軌跡
圖書館文獻數字化是從利用和保護文獻的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,從而制成書目數據庫和全文數據庫,用以揭示文獻信息資源的一項系統工作[3]。
文獻數字化將文獻屬性與數字技術及網絡數字特點相結合。在具體實踐中,文獻數字化就是通過信息技術對文獻進行加工,使其成為可重復利用的數據資源。將紙質載體轉換為數據載體,數據被賦予了復制、傳播的屬性。圖書館通過建模采集、分析等方式將文獻數字化資源組建成數據庫,既能保護珍貴的文獻,又能擴大實用性,方便大眾使用。
文獻數字化并非新生事物,其隨著計算機技術的發展經歷了以下幾個階段:首先是文本的數字化。即以人工錄入或光學字符識別(OCR)的方式將文字輸入數據庫而形成的文獻,此類數字文獻可以閱讀,也能進行定位檢索,具有檢索性,但無法客觀表現底本的原貌。其次是同時提供原書影和與文本參照。即使用書影查看原本的原貌,用矢量文本進行定位和檢索。此類數據資源是對文本數字化準確率太低所做的妥協,兼具客觀性和檢索性,但制作和使用都很煩瑣,發展空間較小。最后是雙層PDF技術。即通過將書影與文本文字進行映射,以檢索文本文字定位書影位置的方式達到檢索效果。這種技術廣泛應用于數字圖書館中文電子資源的制作,但中豎排的行文方式和字體的不規則,使雙層PDF在實際操作中準確率不高。
隨著文獻數字化研究的深入和科學技術的迅猛發展,用戶對數字化的需求不斷提高,數字化的成果出現“互聯網+”的特征。數字化數據的體量巨大,不僅有雙層PDF和各種類型的數據庫,而且還有用戶下載使用時的信息,包括用戶對數字化成果的滿意度和評價信息。隨著數字化的普及和社會關注度的提高,用戶本身所產生的數據越來越需要引起圖書館的重視。將數字化成果和與之相對應的用戶信息結合在一起建立數據集,是下一階段圖書館文獻數字化需要解決的問題。
2.2文獻數字化在“互聯網+”框架下所面臨的問題
首先是在“互聯網+”的沖擊下,現有的標準存在內容不夠全面、缺少細節規范等問題。在數據管理方面,涉及數字化的項目選題、驗收的時間周期等細節問題;在技術方面,數字化的加工工序、底本選取原則、文字的字體設置也沒有統一的規范。這些標準上的缺失導致各制作單位的數據在細節上不能統一。其次是數據的安全問題。“互聯網+”的本質就是數據的集合,只要有數據就存在數據安全問題。在原有的模式下,數據安全只存在于數字化的數據庫本身。在“互聯網+”的影響下,數據安全管理還應包括用戶使用數字化成果時所產生的所有數據,這在現階段的數據庫功能下是無法實現的。最后是“互聯網+”沖擊下文獻發展存在的兩大突出矛盾:①數字化和數據化的矛盾。很多全文數據庫通過OCR技術將格式轉化為可以被人工智能識別的全文文本格式,并加注句讀。這樣的形式破壞了底本的客觀性,使用戶無法獲得文獻本身自帶的信息。這種矛盾正是“互聯網+”新技術對文獻數字化原有模式的最大沖擊。②文獻數字化文獻檢索便捷性與客觀性的矛盾。要想保證數字化文獻的客觀性,并兼顧用戶的直觀感受,文獻最好使用純書影的方式建立數據庫,但這樣做帶來的問題是便于瀏覽而無法檢索。無法檢索的數字化產品是不可能讓用戶快速、有效地獲取文獻數據的,也不符合“互聯網+”時代的數據特點,其后果必然是被大部分用戶所拋棄。便捷性和客觀性的矛盾是困擾文獻數字化產業發展的主要技術原因。
3基于“互聯網+”的文獻數字化發展策略
3.1加強標準化建設,成立數字化領導機構
在“互聯網+”的框架下,圖書館必須加強標準化建設,確保按照數字資源格式統一、數據規范、長期可讀、便于共享的原則制定標準、統一的規范[4]。在文獻數字化管理工作中,圖書館可以根據數字化基礎,參考國際標準和國外成功的經驗,制定適合文獻數字化開發的管理標準。如:借鑒已經成熟的數字化經驗,以國家保護中心為核心,聯合全國各收藏單位,統一數字化標準,成立獨立領導機構,最終完成數字化行業的標準化建設。
3.2利用“互聯網+”的特性進行跨界融合
“互聯網+”的核心就是跨界融合、連接一切,它通常被視為人工智能的一部分,或更確切地說被視為一種機器學習。它是把數學算法運用到海量數據上以便預測事件發生的可能性,也就是說,“互聯網+”通過數據之間的關聯關系找到關聯物并預測可能性。一般的數據分析是通過隨機采樣的方式找尋數據背后的“為什么”,而“互聯網+”的數據分析是通過檢索所有數據的相關關系,以此推導數據背后的“是什么”。因此,“互聯網+”可以通過新聞、社交軟件連接時下的社會熱點,再在資源中定位與熱點具有相關關系的數據資源,最后向社會用戶進行分類推送。
3.3建立文獻數字化標準數據庫
文獻數字化標準數據庫是指按照“互聯網+”標準化流程進行數字化制作的數據,是擁有檢索功能,復合“互聯網+”特點的數據庫類型。數字化標準數據庫是對數字化基礎性先天不足的補充,可以解決互聯網新技術沖擊下暴露出來的各種問題,使數字化工作能為社會認知,為用戶認可。
文獻數字化標準數據庫可以解決盲目開發、亂開發的問題。通過文獻數字化標準數據庫,國家局對全國各個單位的藏量有了大致的掌握,已經形成了系統的書目信息。國家局可以根據社會熱點,按照已經掌握的信息有針對性地指導各個單位制訂開發計劃,這樣做既可以使開發的數字化文獻得到社會的認可,又可以避免重復性選題,節約資源以便開發更好的項目。
文獻數字化標準數據庫可以消除工作人員與其他學科研究人員認識上的差異。工作人員對于文獻的認知來源于工作實踐,是文獻整理后積累下來的感覺,注重微觀,講究觀風望氣,可通過細節判定版本。其他學科的研究人員是數據化的支持者,因為數據化的文獻更有助于科研活動。這部分用戶注重全文文本的數字化,而不在意是否能客觀體現原貌。圖書館通過制作標準數據庫將兩種用戶的需求放在一起,可以通過個性化需求的升級服務消除他們之間的矛盾。
文獻數字化標準數據庫可以解決數字標準化與用戶服務個性化的矛盾。省級館作為文獻數字化標準數據庫的母庫,其余單位制作的數據庫作為補充,在統一標準的規范下進行數字化采集和數據庫的制作,在數據設計、制作和管理驗收等環節做到標準化。在此基礎上,所有用戶可按照他們對數據的要求進行個性化升級,既能保證標準化的數據格式,又能滿足各個層次用戶的個性化需求。
文獻數字化標準數據庫也便于進入市場。商業公司進行文獻數字化是因為看到了數字化產業的發展空間。商業公司的優勢在于市場運作,但他們不具備文獻的相關積累,所開發的數字化數據的質量不高,不能滿足用戶的需求。文獻數字化標準數據庫的出現可以使商業公司揚長避短,既降低了開發成本,減少了開發時間,又可以集中精力尋找社會輿情與文獻的相關點,便于把握市場熱點。以文獻標準數據庫為基礎的商業公司可以結合社會熱點,適時推出與之相對應的產品。產品不應僅局限于數據庫,還可以將信息及時、分類推送到使用各種移動終端的用戶手中。
4結語
隨著數字化信息與人們生活的密切程度越來越高,社會各行業與“互聯網+”的聯系也越來越緊密,“互聯網+”新技術也為數字化行業帶來了沖擊和挑戰。在這種前所未有的沖擊下,文獻數字化暴露出原有模式的不足與缺陷,如缺乏必要的數字化基礎性建設、沒有統一的制作標準等。同時,“互聯網+”新思維也沖擊著文獻數字化標準、數據庫結構等制作問題,這是文獻數字化行業可持續發展面臨的巨大挑戰和機遇。要解決這一問題,各個單位需要整合多方力量,取長補短,建立全新的權威機構完成數字化基礎性建設,建立文獻標準化數據庫,提高社會對數字化行業的認知度,最終建立完整意義上的文獻數字化超大型數據庫共享體系。
參考文獻:
[1]中國新聞網.李克強:制定“互聯網+”計劃促電子商務健康發展[EB/OL].[2015-03-05].http://www.chinanews.com/gn/2015/0305/7103116.shtml.
[2]龍潤琛.“互聯網+”時代中小城市地方文獻可持續發展的思考[J].內蒙古科技與經濟,2017(17):126-127.
[3]葛懷東.論數字化標準體系建設[J].圖書館學刊,2013(1):47-49.
[4]范佳.“數字人文”內涵與數字化的深度開發[J].圖書館學研究,2013(3):29-32.
(編校:周雪芹)