999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python和Gephi的數據自動化分析及可視化研究

2024-02-09 00:00:00葉曾瑜
科技資訊 2024年24期
關鍵詞:可視化

摘要:隨著“人工智能”技術的蓬勃發展,“智慧社會”建設正快速推進。作為公共服務的重要組成成分,圖書館智慧化已成為必然選擇。該研究以智慧圖書館建設為切入點,基于Python和Gephi,探索文獻資源管理過程中實現數據自動化預處理、分析及可視化的方案,進而提高文獻資源的利用率。在紙質文獻資源方面,實現了架標的批量更新和重設計;在電子文獻資源方面,實現了對大數據的自動化預處理及基于社會網絡分析的數據可視化。在提升工作效率的同時,提高信息準確性和數據利用率,未來可進一步拓展到報告自動化生成及專利數據挖掘等領域。

關鍵詞:Python""數據自動化處理""社會網絡分析""可視化""智慧圖書館

Research"on"Data"Automatic"Analysis"and"Visualization"Based"on"Python"and"Gephi

—Taking"the"Construction"of"Smart"Library"as"an"Example

YE"Zengyu

Library"of"South"China"Normal"University,"Guangzhou,"Guangdong"Province,"510631"China

Abstract:"With"the"vigorous"development"of"artificial"intelligence(AI)"technology,"the"construction"of"the"\"smart"society\""is"rapidlynbsp;advancing."As"an"important"component"of"public"services,""the"intelligentization"of"libraries"has"become"an"inevitable"choice."Taking"the"construction"of"smart"library"as"the"starting"point,"this"article"explores"the"solutions"for"automated"data"pre-processing,"analysis,"and"visualization"based"on"Python"and"Gephi"in"document"resource"management,"and"further"improves"their"utilization"rate."In"terms"of"paper"literature"resources,batch"updates"and"redesigns"of"shelf"labels"have"been"achieved;"In"terms"of"electronic"literature"resources,"data"automatic"pre-processing"and"visualization"based"on"social"network"analysis"have"been"achieved."It"not"only"improves"work"efficiency,"but"also"enhances"information"accuracy"and"data"utilization."In"the"future,"it"can"be"further"expanded"to"fields"such"as"automated"report"generation"and"patent"data"mining.

Key"Words:"Python;"Data"automatic"processing;"Social"network"analysis;"Visualization;"Smart"library

中國共產黨第二十次全國代表大會提出,要充分運用現代信息技術,加快優化智慧社區建設,打造高質量的新型智慧社區治理模式。圖書館作為公共服務的重要組成成分,其智慧化已成為必然選擇,這對數據處理、分析挖掘及應用的質量、效率提出了更高的要求。

為了建設智慧圖書館,需要要推動館員、讀者、服務[1]、資源[2]、技術[1-2]與數據的有機統一。首先,以數據為基礎,建設標準規范體系;其次,立足大數據和“互聯網+”發展態勢,引進物聯網、數據挖掘、人工智能、區塊鏈[3]等新興技術,提升文獻等資源的利用率;再次,培養館員的數據素養[4],包括發現、獲取、篩選、分析、組織、解讀和共享數據的意識;最后,實現管理和服務的智慧化、個性化[5],做到面向讀者需求,提升用戶體驗[3]。數據挖掘是指分析大型信息庫或信息流和發現潛在有用的知識的過程[6]。“圖書館數據挖掘”又稱“書目挖掘”[7],是數據倉庫、數據挖掘、文獻計量學的組合[8]。

該研究針對大數據背景下智慧圖書館建設中文獻資源管理遇到的實際問題,基于Python語言和Gephi社會網絡分析軟件,實現對大量數據的自動化處理、分析及可視化,優化管理過程,提高文獻資源利用率,提升數據處理的效率、準確性,保證數據處理分析過程的可追溯性。

1"智慧圖書館文獻資源管理所遇挑戰

本文從數據角度出發,分析圖書館智慧化過程中文獻資源管理領域所面臨的挑戰。圖書館文獻資源主要可分為紙質資源和電子資源。

1.1"紙質資源管理

對于射頻識別技術(Radio"Frequency"Identification,RFID)未完全普及的圖書館,數據處理工作仍高度依賴人力,數據處理效率與信息正確率會受到多方面因素影響。如何規范架標樣式,準確高效地實施數據更新,進而提高找書效率,是紙質文獻資源管理的一大挑戰。

1.2"電子資源管理

盡管圖書館數字化建設高速推進,但許多商用學術文獻數據庫存在收費價格不合理、寡頭壟斷傾向等問題[9]。如何深入挖掘電子資源的使用情況,通過可視化手段展示以推廣,并優化圖書館電子資源采購方案,是當今圖書館界亟待解決的問題。

基本科學指標數據庫(Essential"Science"Indicators,ESI)"和科技引文數據庫(Web"of"Science,WOS)被廣泛用于衡量科學研究績效。為了探索全文電子資源的使用情況,該研究對論文的引文進行深入挖掘。以“華南師范大學”為例(下稱:目標院校),其在2018—2022年的ESI論文數據超過1nbsp;900"000行,這對數據分析工具提出了更高的要求。

2"相關技術與理論介紹

2.1"相關Python庫

(1)pandas庫。pandas是Python讀取、保存、設置數據結構類型的重要模塊[10]",可以實現對數據集的靈活重塑和旋轉,基于智能標簽對大數據集實施切片和索引等"[11]。

(2)glob庫。glob常用于路徑匹配,通過使用“*”“**”“?”等通配符,可以查找符合特定規則命名的文件。

(3)win32com庫。win32com是Python在Windows操作系統中實現組件對象模型(Component"Object"Model,COM)"編程的模塊,常用于Microsoft"Office等程序的自動化數據處理。

2.2"Gephi

Gephi是免費開源的圖形和網絡可視化和探索軟件,可以幫助數據分析師和科學家做出假設,直觀地發現特征。其可以用于社會網絡分析,創建社交數據連接,以繪制社區組織和小世界網絡[12]。

2.3"《中圖法》

《中國圖書館分類法》(簡稱《中圖法》)是當今國內圖書館使用最廣泛的分類法體系,其采用字母與阿拉伯數字相結合的混合號碼,即用一個字母代表一個大類,共計22個基本大類,包括馬克思主義、列寧主義、毛澤東思想、鄧小平理論,以及哲學、社會科學、自然科學、綜合性圖書五大基本部類。簡表、詳表則使用數字和小數制對大類進行細分[13]。

2.4"WOS論文數據

WOS核心合集是由科睿唯安(Clarivate"Analytics)開發和維護的學術文獻數據庫,其涵蓋了全球范圍內各個學科領域的高質量學術期刊、會議論文和專利等資源。其常用字段標識如下所示:PT—出版物類型、AU—作者簡稱、AF—作者全名、TI—文獻標題、C1—作者地址、RP—通訊作者地址、CR—被引參考文獻、UT—文章唯一標識符[14]。圖1為部分常用字段示例,引文數據分析針對CR字段展開。

3"架標自動化更新及成效

基于Python的pandas、glob和win32com等庫,對《中圖法》詳表信息進行預處理后,將待更新架標的分類號與其分類相匹配,最后根據字符數等生成對應的架標并合并。

3.1"《中圖法》分類信息預處理

由于《中圖法》分多層級,依次為部類、大類、小類、子小類,單級目錄往往無法直接呈現書籍的所有分類信息。因此,首先需要對《中圖法》的分類相關信息進行預處理,即將下級分類與上級分類進行組合,其核心代碼如下:

code_list,type_list"="dat_sup['code'].to_list(),dat_sup['type'].to_list()"#"獲取分類號和分類列表

dict_sup"="{}"#"創建分類號(鍵)—分類(值)字典

for"row_i,code0"in"enumerate(code_list):"#"遍歷《中圖法》分類號

dict_sup[code0]"="type_list[row_i]"#"存入字典

for"ind"in"range(1,len(code0)):"#"遍歷查看是否存在上級分類

if"code0[:-ind]"in"dict_sup:"#"采用遞歸法將上級分類及本級分類存入字典

dict_sup[code0]"="dict_sup[code0[:-ind]]+':\n'+type_list[row_i]

break

3.2"架標分類號匹配

各架標均包含第一本和最后一本書的分類號和分類信息。首先,統計待更新架標的分類號,以Excel格式存儲,首尾書籍信息各成一列,一一對應;其次,使用pandas庫、字典或index函數等依次將分類號(如“K0”)與《中圖法》進行匹配,獲得其分類(如“歷史、地理:\n史學理論”)。

3.3"輸出更新后的架標信息

通過修改模板,可以實現對架標排版設計的批量調整。針對文本長度不同的架標信息,制作字號不同的架標模板,依次插入書簽label1_1、label1_2、label2_1和label2_2,分別對應第一本書的分類號、分類,以及最后一本書的分類號、分類,并存儲為“.dotx”的格式。使用win32com.client的Dispatch等函數將信息插入Word模板中,并另存到新文件夾(zpath1)中。以第一本書和“架標模板1.dotx”為例,其核心代碼如下:

for"row_i,code1"in"enumerate(dat_shelf['first_code']):"#"遍歷第一本書分類號

type1"="first_type_list[row_i]"#"獲取第一本書分類

app"="Dispatch('Word.Application')"#"提取app

#"讀取Word模板,將信息輸入指定書簽(如“label1_1”)

doc"="app.Documents.Add(zpath+"'架標模板1.dotx')

doc.Bookmarks('label1_1').Range.Text"="code1

doc.SaveAs(zpath1+output_fname+str(row_i)+'.docx')"#"將Word另存為新的文件

app.Documents.Close()

使用glob獲取文件夾內的所有文件,并基于win32com.client的gencache函數合并,以便于打印。核心代碼如下:

word"="gencache.EnsureDispatch('Word.Application')"#打開word軟件

word.Visible"="False"#非可視化運行

output"="word.Documents.Add()"#新建用于存儲合并結果的空白文檔

output.PageSetup.Orientation"="1

output.PageSetup.TopMargin"="1.27*28.35"#"根據所需分別設置上下左右頁邊距,以上為例

for"file"in"glob.glob(zpath1+'\*'):"#"遍歷文件夾內的文件并合并

output.Application.Selection.Range.InsertFile(file)

output.SaveAs(zpath2+output_fname+'.docx')"#"保存文件

output.Close()

4"WOS引文數據分析及可視化

使用Python的pandas和glob庫讀取WOS原始數據,并實施預處理;使用Gephi等軟件深入挖掘目標院校外文電子資源的使用情況。

4.1"讀取原始數據并實施預處理

以“.txt”格式存儲的WOS論文數據存在以下規律:(1)字段標識均為2個字符,出現在行首,且每篇論文的首個字段標識均為PT;(2)除字段標識外的數據(下稱“”)以外,從每行的第四個字符開始出現;(3)除部分異常數據以外,論文的引文來源刊均存儲在CR字段以“,"”分割所成列表的第三個字符串內。

依次讀取目標路徑(fpath)內的所有txt文件,遍歷數據并分割,以獲取字段標識和目標數據、跳過無關數據(VR)、識別論文首行數據(PT),并創建論文字典,將目標數據及引文來源刊數據(CR_J)以列表形式存入字典,最后整理并輸出為Excel。核心代碼如下:

wos_ind,dat_dict"="1,{}"#"初始化論文序號并創建字典

for"file"in"glob.glob(fpath+'\*.txt'):"#"依次讀取txt文件

dat"="pd.read_csv(file,skip_blank_lines=True,keep_default_na=False,sep='\t',engine='python')

for"row_i,info"in"enumerate(dat['FN"Clarivate"Analytics"Web"of"Science']):"#"遍歷數據

col_info,dat_info"="str(info)[:2],str(info)[3:]"#"獲取字段標識/開頭字符及目標數據

if"col_info"=="'PT':"#"如為首行數據,則創建對應論文字典

info_num"="'info_'+str(wos_ind)

dat_dict[info_num]"="defaultdict(list)

wos_ind"+="1

if"col_info"!="'""':"#"如為字段標識,則給鍵賦值

col_key"="col_info

dat_dict[info_num][col_key].append(dat_info)"#"將目標數據以列表形式存儲

if"col_key"=="'CR':"#"如為“被引參考文獻”字段

try:"#"如第3項為引文來源刊,存入字典

dat_dict[info_num]['CR_J'].append(dat_info.split(',"')[2])

except:"#"否則存儲原始數據

dat_dict[info_num]['CR_J'].append(dat_info)

4.2"基于社會網絡的電子資源使用情況分析

對目標院校引用頻次TOP"50的引文來源刊進行分析,統計全文外文電子資源對其的覆蓋率。已購電子資源覆蓋率達到80%,其中,Science"Direct(簡稱:SD)覆蓋率最高,超過25%;ACS和ProQuest-BSC次之,且均維持在10%以上。

由于部分引文來源刊被多個數據庫覆蓋,該研究使用Gephi對電子資源實施共現網絡分析,結果如圖2所示(僅展示頻率不低于50的邊及其相關節點)。已購數據庫中覆蓋刊物數最多的仍為SD;與OA電子資源的共現頻次較多的依次為ProQuest-BSC、EBSCO-ASP和ProQuest-PRL。

5"結論

在“人工智能”時代,數據量迅速增加,各領域均需提高數據素養,提升數據處理、挖掘和利用能力。對于紙質文獻資源,該研究基于Python實現架標的自動化更新,通過修改模板,可以批量調整架標設計,從而提高信息時效性、數據準確性和工作效率,便于讀者找書,促進資源流通。未來,該方法可拓展到專利數據挖掘和報告自動化生成等領域。

對于電子文獻資源,該研究使用Python和Gephi深入分析ESI論文大數據,基于引文來源刊,挖掘目標院校對外文電子資源的使用情況。對于使用頻率較高的數據庫,可以開設教學課程;對于使用頻率較低的數據庫,可以根據特色針對性地對相關群體開展推廣工作,以提高電子資源利用率。同時,該方法可以為未來電子資源采購提供參考。

參考文獻

[1]"CAO"G"H,"LIANG"M"L,"LI"X"G."How"to"make"the"library"smart?"The"conceptualization"of"the"smart"library[J]."The"Electronic"Library,"2018,"36(5):"811-825.

[2]"冉從敬,何夢婷.智慧圖書館資源服務模式及其實施策略[J].數字圖書館論壇.2018(6):21-29.

[3]"YUNUS"N,"ISMAIL"M"N,"OSMAN"G."Smart"library"themes"and"elements:"A"systematic"literature"review[J].Journal"of"Librarianship"and"Information"Science,2023:"09610006231207098.

[4]"高蘊梅,孫金娟.數智時代智慧館員能力體系構建研究[J].圖書館.2024,(1):38-46.

[5]"農慧勤.大數據環境下智慧圖書館管理與服務探究[J].參花.2024,(25):137-139.

[6]"HAN"J"W,"KAMBER"M,"PEI"J."Data"mining:"concepts"and"techniques[M]."Morgan"kaufmann,"2006.

[7]"NICHOLSON"S."Bibliomining"for"automated"collectionnbsp;development"in"a"digital"library"setting:"Using"data"mining"to"discover"Web‐based"scholarly"research"works[J]."Journal"of"the"American"Society"for"information"science"and"technology,"2003,"54(12):"1081-1090.

[8]"SIGUENZA-GUZMAN"L,"SAQUICELA"V,"AVILA-"ORDó?EZ"E,"et"al."Literature"review"of"data"mining"applications"in"academic"libraries[J]."The"Journal"of"Academic"Librarianship,"2015,"41(4):"499-510.

[9]"王豐年.我國學術文獻數據庫公益性和商業性的博弈:走向公益性的學術文獻數據庫[J].科技與出版.2017-(5):110-114.

[10]"韓文煜.基于python數據分析技術的數據整理與分析研究[J].科技創新與應用,2020-(4):157-158.

[11]"pandas."pandas[EB/OL].(2024-09-20)"[2024-10-10]."https://pandas.pydata.org/.

[12]"BASTIAN"M,"HEYMANN"S,"JACOMY"M."Gephi:"An"open"source"software"for"exploring"and"manipulating"networks[C]//Proceedings"of"the"international"AAAI"Conference"on"Web"and"Social"Media."2009,"3(1):"361-362.

[13]"《中國圖書館分類法》編委會.《中國圖書館分類法》第五版使用手冊[M].國家圖書館出版社,2012.

[14]"Clarivate"Analytics."Web"of"Science"核心合集的字段標識[EB/OL].(2020-03-15)[2024-10-10]."https://images.webofknowledge.com/WOKRS56B5/help/zh_CN/WOS/hs_wos_fieldtags.html.

猜你喜歡
可視化
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: 91免费精品国偷自产在线在线| 久久综合丝袜日本网| 久久亚洲国产最新网站| 日本不卡视频在线| 狠狠v日韩v欧美v| 国产十八禁在线观看免费| 亚洲精品国偷自产在线91正片| 亚洲永久色| 成人精品午夜福利在线播放| 亚洲欧美成aⅴ人在线观看 | 四虎永久免费网站| 69综合网| 亚洲男人的天堂在线| 国产成人av一区二区三区| 久久久久人妻一区精品| 91免费观看视频| 国产精品成人一区二区| 看看一级毛片| 国产爽妇精品| 国产国语一级毛片| 国产精品99一区不卡| 欧美亚洲日韩不卡在线在线观看| www.日韩三级| 国产精品久久久久久久伊一| 中文无码日韩精品| 欧美日韩导航| 亚洲一区二区三区香蕉| 欧美亚洲激情| 久久国产乱子| 国产精品视频第一专区| 亚洲精品手机在线| 2020精品极品国产色在线观看 | 国产成人在线无码免费视频| 成人一区专区在线观看| 白浆视频在线观看| 亚洲Av综合日韩精品久久久| 国产精品林美惠子在线播放| 欧美在线视频不卡第一页| 欧美日韩一区二区三| 9966国产精品视频| 国产va欧美va在线观看| 国产办公室秘书无码精品| 亚洲国产精品日韩专区AV| 亚洲精品无码抽插日韩| 成人另类稀缺在线观看| 日韩无码视频播放| 99久久成人国产精品免费| 一区二区自拍| 久久这里只精品国产99热8| 国产欧美日韩资源在线观看| 亚洲国产成人无码AV在线影院L | 一区二区三区四区精品视频 | www.日韩三级| 国产成人综合网| 午夜国产不卡在线观看视频| 91精品综合| 日本不卡免费高清视频| 伊人久综合| 国产在线观看一区二区三区| 午夜一区二区三区| 日韩毛片在线视频| 一区二区影院| 国产在线观看高清不卡| 99视频国产精品| 国产极品美女在线观看| 都市激情亚洲综合久久| 国产亚洲精品无码专| 欧美精品亚洲日韩a| 精品福利网| 91视频精品| 日韩精品无码一级毛片免费| 日韩毛片基地| 国产特一级毛片| 国产激情在线视频| 蜜臀AVWWW国产天堂| 91在线国内在线播放老师| 在线观看国产精品一区| 欧美日韩国产一级| 日韩无码视频播放| 精品国产aⅴ一区二区三区| 免费一级成人毛片| 一区二区三区四区精品视频|