張利永
(南京圖書館,江蘇 南京 210018)
在物質文明快速發展之后,精神文明與物質文明發展出現“內輪差”,為此推動全民閱讀活動,營造濃厚的社會閱讀風氣,推動文化發展,提高居民素質,提升文化軟實力,是黨和國家建設文化強國目標的重要舉措。
近年來,對于圖書館相關指數的研究呈上升態勢,研究的方向有:城市閱讀指數、H指數研究、閱讀指數調查等。2015年8月份,中國的第一份閱讀指數報告在廣東省中山市發布。這份報告是由清華大學、中山市委網信辦和全通教育聯合發布的。這項研究通過數據化研究,抓取了當當網和京東商城在2014年7月至2015年7月一年時間內書籍銷售情況,同時該報告還抓取了2 944個微博、微信閱讀類賬號的數據,照顧到了新媒體閱讀受眾,研究樣本具有廣泛性。通過這項研究的結論,能夠看到:我國的北上廣深地區人均購書最多,體現了閱讀與經濟發展狀況的正相關性;手機已成為大眾閱讀的第一途徑;在傳統的紙質書領域,青少年讀者占據了半壁江山。
圖書館是公共文化服務中的重要一環,是建設書香社會的重要基地。圖書館每天會接納眾多的讀者前來閱讀、休閑。這些讀者每天在圖書館的活動會產生大量的數據資源,對于圖書館管理者而言,這是未開發的“礦產資源”,蘊含了大量的有用信息。然而,在以往的管理中,這些數據并未被有效利用。以現有的技術資源,可對讀者的閱讀行為、閱讀環境、閱讀活動、閱讀愛好、來源背景等做分析和加工,形成體現圖書館特質的相關數據,即圖書館指數。圖書館指數就是一個數據集合,它把閱讀量、閱讀意愿、閱讀熱度、閱讀頻率、社會投入等各項具體指標按照預設規則組合在一起,析出綜合反映居民閱讀情況的數值。它跳出了單純的閱讀指數的框架,是閱讀指數的廣義延伸。
圖書館的數據資源數量龐大,但不是所有的數據都可以被認為是大數據。有些“孤島數據”與外界的客觀對象沒有聯系或很少有聯系,是一種靜態數據,比如書目、館藏等。我們需要的是與其他對象有客觀聯系的數據,這才是有用的大數據。依據科學性、導向性、前瞻性的原則,在數據采集、指標標定、數據分析、理論研究方面強調客觀與科學,對占有的數據資源進行再加工,從蕪雜的數據中過濾出符合規則的數據。數據來源于圖書館產生的基礎資源,包括業務系統與服務系統,從數據的屬性來看,包括基礎性數據和運行數據兩大部分。
圖書館基礎性數據指機構的設施設備、服務資源、人員、用戶情況數據:1)圖書館設施設備數據:包括建筑、功能空間、各類軟硬件設施設備數據。2)圖書館服務資源:包括圖書、報刊、古籍、聲像等傳統文獻資源數據,以及電子書、多媒體、數據庫等數字資源。實體資源信息包括揭示資源的主題、語種、形態等內容描述性信息,也包括資源相關的館藏置、數量、購買時間、新增情況等其他描述性與統計性信息。3)圖書館讀者背景數據:指讀者相關的個體詳細信息。
圖書館運行數據是圖書館進行業務開展、讀者服務所產生的數據,是基礎性數據中的要素發生服務或使用時產生的服務數據與行為數據,包括:1)圖書館傳統業務與管理數據:采訪編目數據、典藏流通數據、活動開展數據、讀者流量數據。2)圖書館數字與信息服務數據:公共檢索數據、文獻傳遞數據、數字資源檢索服務數據、移動網絡數據、互聯網訪問數據。3)圖書館各類傳感器和監控設備數據:通過紅外技術、視頻技術、定位技術所獲取到的各樓層、架位、室內任意位置的讀者流量數據。4)RFID數據:無線射頻技術獲取的數據信息。
1)圖書館讀者流量統計系統,利用視頻分析技術、紅外技術、門禁刷卡等技術統計分析館內區域人流量、滯留時間。2)圖書館館情調研統計系統,主要采集圖書館資源、服務類的統計信息數據。3)電子閱覽室管理系統,對電子閱覽室進行用機管理、讀者管理、上網行為管理、報表分析等功能。4)數字圖書館服務平臺,包括圖書館門戶網站、移動APP應用、社交公眾平臺等。5)數字資源服務系統,包括統一檢索、數字資源數據庫。6)數字圖書館專業服務系統,包括聯合參考咨詢、文獻傳遞、館際互借等。7)數字圖書館運行統計分析系統,包括訪問日志、系統運行日志。
傳統的數據采集方式已經不能夠滿足現實的需要如普查、抽樣調查和統計報表等。大數據采集的來源方式有以下幾種:1)傳統數據ETL。采用E(抽取 Extract)、T(轉置 Transform)、L(加載 Load)將來自不同數據庫中的數據按照統一的模型集成整合到采集數據庫中,是獲取數據的重要方式。2)日志信息。信息化平臺在運行中會產生大量日志,需要從不同的日志產生地收集,集中存儲便于集中統計分析處理。3)媒體流獲取。媒體流技術是網絡音、視頻技術發展到新高度的產物,涉及數據的采集、處理、編碼、解碼、傳輸等多項技術。4)網絡數據獲取。網絡數據獲取指通過網絡爬蟲工具或公開API等方式從互聯網上抓取數據。網頁中的數據是非結構化的,將其存儲為統一的本地數據文件之前,需要進行結構化處理。5)傳感器獲取。傳感器是系統檢測外界數據的是一種檢測裝置,將收集到的信息以一定的方式轉換為能傳輸、處理、存儲、應用的電子流。
數據挖掘就是從海量的、非完整的、有背景噪聲的、非關聯的應用數據中,發現蘊含其中的、當前不為人所知的但經處理能形成有價值數據的過程。基于采集的大數據,形成數據池,對數據進行篩選、分析、揭示內在聯系。根據實際需求,可以預設場景,建立關于讀者的特征分析指標,如對讀者的職業、知識結構、興趣、偏好、個性、忠誠度等的判別。在讀者特征分析的基礎上,進行讀者聚類與分群的研究,發現群體需求與熱點。作為一種發現規律、探索未來的活動,這不是主觀臆斷的唯心主義,而是建立在科學的數據分析之上。
從水平和垂直兩個維度深度整合,匯聚、整合公共文化服務機構各級各類信息,建立文化系統大數據的采集、處理、應用綜合服務平臺。充分利用互聯網、物聯網、移動技術,從多個渠道收集用戶、資源、環境信息,實現2A服務模式,即無所不在的網絡互聯服務(Anywhere)和隨時的數據智能融合服務(Anytime)。多元跨域數據融合,深度融入互聯網,加強與機構外部的合作,充分利用互聯網絡、機構外部數據資源為自己服務。重視人的主體地位,重視關注用戶視角的大數據分析和服務設計,積極利用來自政府、市場、社會的資源,協同實現公共文化傳承服務能力提升。向聯合體、集群化管理的方式發展,實現知識與信息的整合,大數據將作為指導公共文化基礎設施建設、資源配備、服務與管理的決策基礎。
數據分析需要建立統計指標或數學模型對主觀變量進行確定。需要關注讀者閱讀終端類型、閱讀終端地理位置、用戶位置移動數據、個性化服務歷史數據、用戶需求反饋數據,科學判定讀者的個性化服務需求和最佳服務方式。數據挖掘的一般過程為:數據收集—數據處理—數據變換—數據挖掘—模式評估—內容表示(圖1)。這是一個數據篩選、降維、轉換的過程,消除沒用的“臟數據”,對經過規范化改造的數據進行分析和建模,分析過程中建立各項指標和變量,通過規則聚類,發現內在規律和特征,為建立圖書館指數奠定數據基礎。

圖1 大數據分析過程
閱讀指標的選取與確立原則有適時性、客觀性、針對性、導向性,能夠真實反映社會群體的閱讀狀況,并能根據環境的變化調整部分指標。科學合理地建立指標選取、權重處理、系統分析體系。通過建立科學的圖書館指數體系來量化閱讀行為,走精細化管理道路,為了解居民閱讀現狀與閱讀環境提供重要參考。
閱讀量:藏書量是衡量一個圖書館綜合實力的指標,對于個人或群體而言,閱讀量是衡量讀書多寡的指標,涉及讀書調查的活動基本都會用到這個指標。
閱讀意識:內心對于閱讀的渴望程度。由于個體的差異每個人對于閱讀渴望程度有所不同,甚至是區域間的群體閱讀意識也有差異,將閱讀意識作為一衡量指標,出發點是對于未來的閱讀行為的預測。
閱讀頻率:在強調閱讀量的同時,也應看到閱讀頻率,此項指標體現被調查對象閱讀的連續性。
閱讀環境:閱讀環境至關重要,在公共場合需要營造溫馨舒適的閱讀環境,要讓大眾喜歡閱讀、享受閱讀。對于圖書館而言就是場館功能布局與陳設,跨出圖書館的范圍就是地區內的公共文化設施的配備與分布,人口密度與圖書館之間的關聯,大的社會環境就是要營造“書香社會”。
社會投入來自政府和民間。雖然總體上公共圖書館以政府主辦為主,但在部分地區也已經出現了民辦圖書館,它們不同于官辦圖書館,是官辦圖書館的重要補充。社會投入對于圖書館事業的發展有重要的決定作用,沒有投入就沒有發展。
政府支持力度:發展圖書館事業,倡導全民閱讀,沒有政府持續的投入與支持如同無源之水。公共圖書館是純公益性事業單位,公共文化事業的發展與地方政府的全力支持不可分割,可以說離開政府支持,圖書館事業發展就會停滯。
閱讀熱度:區域內功能區劃和人口素養分布的差異會導致人群閱讀行為的差異,閱讀活動頻繁程度自然也存在差異。將讀者閱讀活動的原始數據通過技術處理,用顏色的明亮程度表示地區讀者活躍程度(熱衷讀者和閱讀頻率),活躍程度從低到高依次描述為紫色、藍色、黃色、橙色。數據來自讀者的注冊信息(手機號、微信號),通過位置定位確認其來館頻率、活動區域、來源地,高亮區域為該區域內閱讀人群較集中、閱讀頻率較高。使用熱力圖可以清晰地看到區域內的閱讀活動,圖形化展示與文字報告相比較,一目了然。以南京圖書館為例,其坐落于玄武區大行宮地區,該地區讀者活躍度高,呈橙色表示,地理位置近,自然來館頻率高。較遠市區,呈紫色均勻分布,顯示讀者均勻分布于市區(圖2)。

圖2 南京圖書館讀者在市區的分布和聚集度
形成指數的最終目的是發布到公共的空間,讓社會大眾知曉。通過微博、微信公眾號、圖書館網站,定期發布。
指數的發布需要采用一定的表達方法,不同的表達方式效果各異,選擇一個適合的表達方式尤為重要。經過實踐證明,對于內容信息量較大的,采用蜘蛛網圖是一個比較合適的選擇,蜘蛛圖又稱戴布拉圖、雷達圖,在財務報表中應用較多,將其引入到表征圖書館指數是考慮到其直觀明了的視覺效果。在一個圖表上展示包含多個維度的信息時,隨著維度的增加,一般的圖表將無法充分和直觀的展現這些信息,而文字描述又過于干澀。引入特定的圖表可以直觀地表現機構運營者的意圖。公眾對于信息的表達傾向于簡單明了的方式,一個表達方式即使設計再精妙,但難以理解,也不為公眾所接受。
經調研,設計的戴布拉圖設計指標有閱讀量(I1)、閱讀意識(I2)、閱讀頻率(I3)、閱讀環境(I4)、閱讀熱度(I5)、社會投入(I6)、政府支持力度(I7)。指標的設立依據當下社會閱讀的趨勢和需求做出,新需求的出現會促進指標的更迭。指標的具體數值基于原始數據,綜合地域人口環境,通過一定的算法得出。一般而言,以每個行政區域為繪圖單位,多個行政區域形成多個戴布拉圖。在同一個坐標系下,多個戴布拉圖可以重疊放置,以顏色區分。以圖3為例,藍色、紅色區域各指代南京某區的閱讀指數中各指標值,數據簡潔明了,主題性強,易于理解。在生活節奏飛快的當下,容易為公眾所認可和接受。圖書館指數LI(library index),是將戴布拉圖中的各個指標進行加權處理后生成的綜合指數。表示為LI=∑In*Pn,其中In為各指標原始數據,Pn為各指標在指數體系中的權重比例。In和Pn是動態可調的,會根據社會需求的發展適時調整內容和權重,這也是一個逐步完善的過程。

圖3 閱讀指數
“忠厚傳家久,詩書繼世長。”閱讀可以啟迪心智,可以傳承文化,對個人和社會而言就是“開卷有益”,閱讀能增強城市精神凝聚力,讀書活動是精神領域的享受,對個人和社會的影響是全方位的。社會倡導全民閱讀,著重于觀念上的引導。醇厚書香徐徐而來,帶來的是沉穩和優雅,祛除的是浮躁和粗俗,禮賢驅逐暴戾,理智占據主流。公眾的價值觀念悄然而變,書香社會漸成氣候,最終將使城市成為一座因熱愛讀書而受人尊重的城市。
全民閱讀調查提供的更多是直觀的數據,一方面是信息量有限,另一方面對數值背后的信息未做進一步的解析。如果要研究區域的整體閱讀詳情,單靠閱讀率、閱讀量這樣的指標,不具有科學的區分度,而引入圖書館指數就能把握整體,反映較全面的閱讀狀態,比如閱讀意識、閱讀熱度、社會投入、政府支持力度、閱讀環境等。
對于一個公益非盈利性質的公共文化服務機構,從信息傳遞角度出發,圖書館需要營銷。圖書館的定位不能僅限于信息服務,還需要衍生與滲透,向著信息服務、參考咨詢、政府參謀、立法決策方向發展,立足于專業,多維度滲透,所謂“一專多能”。營銷的目的就是加強圖書館與讀者之間的聯系,讓圖書館與讀者之間能無障礙交流。
圖書館指數包含的豐富內容能夠改變過去圖書館刻板的公眾形象,以生動活潑的個性對外展示,能夠成為圖書館營銷的重要抓手。圖書館指數的發布,能夠在互聯網時代樹立一塊行業招牌,凸顯個體形象,為公眾所熟知,乃至成為社會關注的焦點。
圖書館指數以量化的指標表征居民的閱讀情況,以期提升全民閱讀水平納入到社會建設的統籌規劃中,促進閱讀活動,打造了良好的閱讀氛圍,促使人們養成崇尚閱讀、自覺閱讀的習慣。國務院政府工作報告中已經連續多次提出要建設書香社會,各級政府對于公共文化服務的投入持續加大、在提供高質量的閱讀資源、改善公共圖書館環境等舉措上持續發力,這將有助于提升本地居民的閱讀水平,促進社會整體閱讀氛圍的形成。
國外圖書館行業在政府的決策領域發揮了重要的作用,甚至此項工作已成為工作一部分。可以將引入圖書館指數為契機,積極與各級人大、政協溝通交流,根據用戶的個性化需求, 在公共圖書館的網站上建立決策信息服務平臺,建立個性化的信息庫,幫助決策機構利用好外部資源,了解和掌握社會輿情。大數據應用為政策制定提供科學依據。傳統決策方式缺乏多來源、全方位的充分信息支撐,決策者決策前獲取的信息是片面的、有選擇性的,有了大數據支撐,決策的方式就可能改變。圖書館指數有利于主動評測政府在文化建設方面的實際成效,借居民閱讀行為與認知調查之分析,表達出社會元素對閱讀方式的影響,闡釋來自圖書館的社會觀點,通過連續性地監測與發布,清晰地呈現全民閱讀的基本建設和閱讀文化的發展軌跡。