999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據與圖書館發展

2017-12-13 12:01:14徐紅華
中文信息 2017年11期
關鍵詞:大數據

徐紅華

摘 要:目前許多圖書館都開展了數字圖書館業務,但是在大數據時代背景下,數字圖書館需要改變目前低端處境,轉而往數據圖書館的方向發展。本文首先指明了數字圖書館目前的處境,然后結合大數據的技術和思維,對數字圖書館應該怎么做出改變進行分析,文章最后對數字圖書館將來的發展前景進行了展望。

關鍵詞:數字圖書館 大數據 數據圖書館

中圖分類號:G25 文獻標識碼:A 文章編號:1003-9082(2017)11-00-02

引言

近日,隨著AlphaGo橫掃圍棋界,人類之前最后一塊堅守的智商高地被計算機攻下,這其實不僅是計算機的勝利,也是人類智商的勝利,更是大數據的勝利。眾所周知,人工智能是現在整個科技屆最炙手可熱的概念,而人工智能的核心就是機器學習(Machine Learning)。機器學習這一概念起源于20世紀50年代,中間經過了很長的冰凍期,后來隨著SVM的提出,機器學習逐漸火熱起來。2012年隨著AlexNet網絡[13]的出現,神經網絡開始擊敗SVM成為機器學習乃至人工智能的主流,也推動了近五年來絕大部分人工智能成就的出現。而這三者從人工智能到機器學習,再到最核心的神經網絡,它們成功的背后全部都是大數據的驅動,這證明現在是大數據[1]的時代,而圖書館作為社會的知識中心,在這股潮流中也要做出相應的改變,把大數據的概念與方法吸收進自身的未來發展中。

一、大數據定義

關于大數據的定義眾說紛紜,對大數據的理解取決于定義者的態度和學科背景[4],總的來說,我們可以從兩個角度來理解大數據:把“大數據”看成形容詞,它描述的是研究的大數據的特點——數據量大至海量[2][3],完全超出了現有的計算機硬件水平;把“大數據”看成名詞,它指的是大數據的研究對象,即自然與社會兩個方面都會產生海量的數據[2][3]。

二、現在數字圖書館的境遇

1.互聯網對圖書館的沖擊

圖書館從功能上分為公共圖書館和高校圖書館,其中高校圖書館是以服務高校師生為宗旨的重要陣地,是高校文化服務體系的核心組成部分。高校圖書館目前仍然是以紙質藏書為主,并提供網上文獻下載服務,是學生和老師獲取知識的重要渠道。但是在大數據背景下,尤其是互聯網的沖擊下,學生和老師們獲取知識(尤其是文獻)的主要渠道變成了網絡,比如CNKI、Google Scholar、百度學術等等,這些網站目前成為了最新研究成果的聚集地,幾乎大部分社科類、自然科學類的研究成果都可以在上面找到,并且由于科研機構和教育機構都購買了資料,所以高校師生是可以在高校的IP內免費下載。這種情況下,圖書館的作用就遭到了弱化,如果高校圖書館不對自身做出改變,那么在互聯網和大數據的沖擊下,自身價值將會損失降低。

2.數字圖書館的缺陷

雖然目前的大多數高校圖書館都開放了數字圖書館服務,但是這些服務現在只停留在查詢館藏圖書,文獻下載等功能,功能單一,并且不完善。數字圖書館目前存在著標準不規范、文獻數字化水平低、數字文獻的安全缺乏絕對保障等問題。而開放存取運動的進一步深化發展和以語義、云計算為主等為代表的信息技術出現,則讓圖書館面臨著巨大的挑戰。數字圖書館在建設過程中,由于受到技術所限、資金不足、標準不統一等限制,致使數字圖書館在剛出現的時代就存在諸如接口不統一、資源數據描述不足、檢索能力不足、文獻數據相互關聯性較差、互操作程度較低、資源發現和擴展能力不足等問題,而這些缺點使得數字圖書館成為人們獲取知識時所選擇的最后渠道。一份關于大學生對高校圖書館使用情況的調研報告則表明,72%的學生是通過網絡獲得信息,而通過圖書館獲得信息的學生只占18%。另一項調查也顯示大學生訪問圖書館網站(數字圖書館)的只占28%,遠低于使用搜索引擎的使用比例,甚至有25.3%的大學生表示從沒有去訪問過圖書館網站(數字圖書館)。這種現狀也引發了圖書館界的擔憂與思考,圖書館屆的有識之士指出,圖書館必須要提供更好的資金支持,并將之轉化為技術支持和服務手段,吸引師生回到圖書館來獲取知識,使得圖書館重新成為高校知識的集散地。

3.大數據潮流下圖書館的尷尬

目前在世界的高校以及科研企業的圈子里,Google Scholar已經成為大家獲取第一手科研資料當仁不讓的來源。而具體到自然科學界,Arxiv更是每日必刷的文獻網站。圖書館在這種情況下應該通過資金爭取等手段和這些互聯網巨頭取得合作,獲取這些數據資源,并進行有機整合,使得所獲得的數據資源能更好的展現在師生面前,幫助師生進行科研活動。如果圖書館滿足于現狀,只是停留在紙質圖書和一些網絡資源的堆砌,那么圖書館將不再能滿足師生乃至公眾的需求,淪為昨日黃花。

三、大數據背景下的圖書館

1.大數據技術下圖書館的挑戰

人類最重要的技能是學習,學習很重要的就是能將紛繁復雜的信息進行歸類和抽象。對應到大數據層面,最主要的無非就是四個核心問題[3]:

①存儲,海量的數據怎樣進行存儲

②計算,海量的數據如何進行快速計算

③查詢,海量的數據如何進行查詢,并且快速查到想要的信息

④挖掘,海量的數據如何挖掘出隱藏的知識,即探索到數據之間的關系以及數據背后隱藏的結論。

當我們要把大數據的技術引入到圖書館建設中來的時候,就可以從這四個方面汲取經驗,引他山之石可以攻玉。

首先是存儲。圖書館之所以被成為圖書館,最原始的含義就是藏書之地,而自從紙被發明出來的那一刻起,成百上千張紙裝訂成冊被稱之為的“書”就承擔了知識在空間和時間兩個維度流傳的功能。當書的數量成指數級增長的時候,普通人家就沒法裝下那么多書了,于是動用政府力量建立作為公共資源出現的圖書館就承擔起了這樣的功能。時過境遷,之前的兩千多年紙這種媒介一直是作為知識載體的不二選擇,而圖書館也只是完成藏書,借閱的功能;然而到了今天,隨著互聯網的發展,人們之間的交流與工作生活變得更加便捷,隨之而來的就是產生了海量的有意義的數據,互聯網公司趁近水樓臺之勢,運用各種數學手段對其分析,取得了不錯的效果。圖書館這個機構有如此浩如煙海的資料,但是紙質的終究不便于查詢和挖掘,如何把它們轉化成電子數據,這就是擺在圖書館面前的一個有意義的難題。對于計算機來說,傳統的文件系統存儲是單機的,不能橫跨機器。而大數據時代,HDFS(Hadoop Distributed File System)的出現解決了這一問題,它的出現使得大量的數據橫跨成百上千臺機器,但你看到的是一個文件系統而不是很多分散的文件系統,當你要引用這些數據的時候,你不用管它們分布在哪些機器上,只需要提供一個文件路徑即可。類比之下,圖書館在未來需要做的也是把這些紙質藏書通過某些技術手段轉化成電子數據(比如給圖書拍照,然后把圖片轉化成文字),最后把這些文字的電子數據存儲到大型服務器上,方便讀者去查詢。endprint

接下來是計算和查詢,這兩者雖然對于計算機科學來說是截然不同的兩個方面,但是對于圖書館從業者不必要區分開。圖書館方面關心的是怎樣為讀者提供更好的服務,具體到這點上,就是怎樣把數據做更好的整合,符合人類的查詢思維,使得讀者更快更好的查到自己需要的信息。對于文獻總結歸納,傳統的方法自然是靠人去做,這就像我們中學時期的語文課一樣,由人去通讀全文,再靠自己的經驗積累,總結出書本文字想要表達出的思想,然后再按一定之規則,把同類別的進行歸納總結,最后供給讀者查詢使用。但是現在在大數據的時代下,招募這么多人力去干這事已經不太實際,所以如果能依靠機器完成初步的信息獲取,那就已經是節省了大部分人力工作。從技術角度來說,MapReduce太慢,是因為它太通用,太強壯,太保守,而快捷的方式有Impala、Presto、Drill,這些輕巧簡便,能讓用戶更快的進行查詢,節省寶貴的時間。如果說MapReduce是大砍刀,砍啥都不怕,那么上面列舉的快捷方式的三個就是剔骨刀,靈巧鋒利,但是不能搞太大太硬的東西,否則會崩潰。

最后也是更深入的就是挖掘。我們都知道大數據的意義就是其背后隱藏的信息,怎么能把大數據背后的信息或者結論挖掘出來是我們所最終希望的。而圖書館作為大數據的擁有者之一,怎樣能不浪費資源,在現有大數據的基礎上挖掘出對自己有益的結論,以便更好的服務讀者。

要解決這個問題,就要引入當下最火熱的機器學習和深度學習技術,編程框架包括但不限于Tensorflow、Caffe、Caffe2、PyTorch等,數據挖掘模型包括RNN、LSTM、CNN等。由于圖書館的書大部分是以文字形式呈現的,而文字是一種靠前后順序以助于理解的媒介形式,這種情況下的問題適合用RNN(循環神經網絡)和LSTM(長短時記憶網絡)來解決。這些工作可能應該交與公司和科研機構來解決。而圖書館方面的領導以及從業者可以從中汲取靈感,

比如在整理書籍被借閱記錄的時候,可以結合時間軸來考慮問題,評判一本書在時間這一維度上的受歡迎程度的曲線變化,最終來決定哪些圖書應該放在讀者更容易看見更容易借閱的地方,而把那些逐漸淡出讀者視野,不再跟得上時代要求的書籍轉移到稍微差一點的書架位置,用這種方法來提高圖書館書籍的借閱率。當然這只是舉了一個簡單的例子,在實際工作中,人們會遇到各種各樣復雜的問題,這種跨學科來汲取靈感解決問題的方式還是值得被我們所提倡的。

2.大數據思維下圖書館的挑戰

大數據時代,海量數據將驅動創新與發展,同時也將極大的改變人們的思維方式。與傳統思維方式強調因果關系不同,人們將逐漸接受數據分析,更加強調數據之間的相關關系、相互關系,人們逐漸拋棄基于假象然后去驗證的思維方式,而是根據海量數據自然而然的找尋結果,分析出原因以為人們所用。很顯然,目前的數字圖書館對組成數字圖書館的最基本單元的文獻資源的唯一標識、科學引用頻率統計、元數據描述標準統一、相似性關聯及鏈接等都還無法做到,那么這種境況下,要實現這類基于海量數據的挖掘預測、為信息找用戶等服務就還需假以時日,需要圖書館在以上敘述到的短板方面進行修改改進,以滿足大數據時代讀者思維下的需求。

四、圖書館未來展望

1.數字圖書館往數據圖書館的轉型

現有的數字圖書館只是把互聯網接入了圖書館,把原來只能到現場查閱的紙質圖書部分轉移到了網上變成可查閱的電子數據,并且把原本就是網上的文獻等數據庫進行了版權購買操作,使得師生能夠從高校圖書館免費取得第一手文獻。雖然這樣的改變對傳統圖書館來說已經算是一種進步了,但是在現在的大數據時代背景下,僅僅做到這樣還是遠遠不夠的,我們希望圖書館能完成從數字圖書館往數據圖書館的轉型,真正的契合大數據時代的潮流,完成自己的完美轉身。

關于什么是數據圖書館的定義,目前還沒有準確的說法,從時代背景來理解,就是從以前簡單的堆砌數據資料,變成從數據中提取出有價值的信息,使得數據排列放置更加得當,更加符合讀者需求。

數據圖書館從大體上來說應該圍繞兩點來建立,即數據和數據業務。圍繞數據就是要處理數據的存儲、計算、查詢和挖掘,這是一個很大的課題,單靠圖書館是不可能完成的,必須要依靠外部互聯網公司合作來完成,通過引進合作來形成具有數據服務、數據出版和數據增值服務的數據圖書館形態。圍繞數據業務,就是利用從數據中挖掘出的信息,如何契合讀者需求,構建一整套的服務體系

2.數據圖書館的體系架構

從圖書館的角度來說,可利用的大數據主要分為三類,即文獻大數據(紙質藏書、會議、期刊、專利)、用戶大數據(個人信息、借閱信息、瀏覽信息)和其他大數據(政府公告、社交媒體數據、科研機構數據),這三種大數據構成了大數據層,而在大數據層中,這么多數據的存儲當然不是存在圖書館一家,而是采用分布式存儲、云計算存儲、異地存儲和異構存儲,只要圖書館能通過某種路徑獲取數據即可達到要求[5]。在有了大數據層之后,我們要對大數據進行計算查詢挖掘,這一層正如前文提到的,要用到多種關鍵技術來實現對數據的計算、分析、清洗與保存,完成從浩如煙海的數據中挖掘出有意義信息的工作。接下來就是用戶層,在這一層中,要利用計算層挖掘出的信息,進行整合分析,反向去推算應該把最原始的數據如何有機的擺放整理,以完成對用戶基礎性服務(數據出版、數據管理和數據研究)和發現性數據服務(動態解析、追蹤與檢測和趨勢預測等)

五、結語

在大數據的時代背景下,數字圖書館需要擺脫目前只是搜索的低端處境,而應該借鑒大數據的技術和思維方式,轉而向數據圖書館做出改變發展,只有這樣才能滿足讀者的要求,做到與時俱進。

參考文獻

[1]黎建輝,沈志宏,孟小峰. 科學大數據管理:概念、技術與系統[J/OL]. 計算機研究與發展,2017,54(02):235-247.

[2]孟小峰,杜治娟. 大數據融合研究:問題與挑戰[J/OL]. 計算機研究與發展,2016,53(02):231-246.

[3]李國杰. 對大數據的再認識[J]. 大數據,2015,1(01):8-16.

[4]程淑娥. 大數據環境下區域科技資源共享平臺云服務模式研究[D].哈爾濱理工大學,2017.

[5]顧立平.數據治理———圖書館事業的發展機遇[J].中國圖書館學報,2016(5):29-45endprint

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 99re66精品视频在线观看| 白丝美女办公室高潮喷水视频| 国产美女免费| 国产手机在线小视频免费观看 | 色丁丁毛片在线观看| 国产麻豆另类AV| 日本不卡免费高清视频| jijzzizz老师出水喷水喷出| 亚洲熟女偷拍| 成人国产一区二区三区| 麻豆国产精品| 狠狠v日韩v欧美v| 久久96热在精品国产高清| 国产99免费视频| 国产网友愉拍精品视频| 久久久波多野结衣av一区二区| 制服丝袜国产精品| 成人福利免费在线观看| 国产在线91在线电影| 91成人试看福利体验区| 福利国产微拍广场一区视频在线| 国产一级毛片yw| 网久久综合| 亚洲性影院| 九九九精品成人免费视频7| av免费在线观看美女叉开腿| 国产精品香蕉在线观看不卡| 精品欧美一区二区三区在线| 九九久久精品国产av片囯产区| 亚洲国产日韩一区| 日本高清免费不卡视频| 国产成人禁片在线观看| 青青草原国产免费av观看| 精品撒尿视频一区二区三区| 中文字幕波多野不卡一区| 国产乱视频网站| 久久人搡人人玩人妻精品一| 国产成人精品第一区二区| 国产人妖视频一区在线观看| 国产精品蜜臀| 亚洲女同一区二区| 无码专区国产精品一区| 亚洲综合18p| 成人91在线| 国产小视频a在线观看| 久久精品国产91久久综合麻豆自制| 精品久久香蕉国产线看观看gif| 久青草网站| 亚洲精品中文字幕午夜| 成人精品视频一区二区在线| 丝袜国产一区| 国产高清无码麻豆精品| 亚洲香蕉久久| 思思热在线视频精品| 亚洲欧洲自拍拍偷午夜色无码| 91久久精品日日躁夜夜躁欧美| 五月天天天色| 亚洲天堂日韩在线| 國產尤物AV尤物在線觀看| 日韩精品一区二区三区中文无码 | 日韩色图区| 伊人久久久久久久久久| 中文天堂在线视频| 亚洲精品天堂自在久久77| 91精品伊人久久大香线蕉| 色老二精品视频在线观看| 国产综合另类小说色区色噜噜| 国产精品亚洲片在线va| 高清乱码精品福利在线视频| 97超爽成人免费视频在线播放| 精品三级网站| 国产精品丝袜在线| 在线无码私拍| 爱色欧美亚洲综合图区| 美女被狂躁www在线观看| 精品久久国产综合精麻豆| 欧美在线综合视频| 亚洲丝袜中文字幕| 午夜精品福利影院| 国产区成人精品视频| 91久久精品国产| 国产免费怡红院视频|