鄒純龍 馬海群
〔摘要〕本文基于對政府網站評價和政府開放數據評價的研究,建立了政府開放數據網站評價指標體系。以美國20個具有代表性的政府開放數據網站為例進行指標數據獲取和專家打分,在此基礎上利用神經網絡的BP算法確定總體的評價結果,與專家打分結果進行比較,滿足誤差精度的要求,從而驗證了該方法應用于評價政府開放數據網站的可行性,為今后評價該類網站提供了科學、迅速、精準的評價體系。
〔關鍵詞〕神經網絡;政府開放數據;網站評價;美國;BP算法
DOI:10.3969/j.issn.1008-0821.2016.09.003
〔中圖分類號〕G203;D63-39〔文獻標識碼〕A〔文章編號〕1008-0821(2016)09-0016-06
〔Abstract〕This paper built an index system for evaluating the government open data website based on the studies about government website evaluation and government open data evaluation.By taking 20 American representative governmental open data websites as a sample,this paper got the index data and score by experts and obtained the overall evaluation results through BP algorithm of neural network to compare the experts scores for getting the requirement of error precision.So it could test and verify the feasibility of this way to evaluate the government open data website and could supply a scientific,rapid and accurate system to evaluate the government open data website in the future.
〔Key words〕neural network;government open data;website evaluation;America;BP algorithm
政府數據是由政府部門或者政府相關機構在管理公共部門得事務過程中產生的數據與信息。開放則意味著政府部門將這些數據與信息公開,并可以為任何人所瀏覽、下載和使用。政府開放數據包括,法律法規、政策文件、部門報告、公共注冊信息、氣象、科研等基于公共目的產生的信息與數據。大數據時代,政府開放數據主要通過開放數據網站實現數據的開放,由此便于用戶無礙的查詢、檢索和使用數據。因此,政府建立并完善開放數據網站,能夠有效的提高政府行政辦事的公平性和透明性,方便公眾監督政府行為。
自2009年美國首先建立了政府開放數據網站——Datagov,目前,該網站已經發布了逾127 113項數據集,并不斷有新的數據加入。其數據涉及20個主題,且可以通過各種分類進行排序。截至目前為止,美國已有40個州、48個市、縣推出了開放數據網站[1],在整個世界范圍內處于領先水平。對比來看中國的政府數據開放平臺成立的時間較晚,網站內容和功能的建設都存在較大的提高空間。學者錢曉紅等對比了美國、歐盟、英國政府數據開放網站的建設現狀和現有的問題,認為我國網站還有大量基礎性建設工作需要完善,比如跨部門的數據共享、合理的元數據結構、服務功能等[2];侯人華等以美國政府開放數據網站為例,從數據管理的視角,對數據的特點、采集、管理、利用以及優勢這5個方面進行了梳理和分析,以期對本國的網站建設提供借鑒[3];陳美從數據保障機制著手,分析了美國利用云計算和大數據方式完善數據,建立保證體系,從而實現政府開放數據共享,為我國發展政府開放數據網站提出了建議[4];可見,大多數學者都通過對比研究的方式,將處于領先地位的美國等國政府開放數據網站的發展歷史、現狀、特點、優勢等作了描述性的分析,從而為提高中國政府開放數據網站水平提出意見。但是,較多的研究都集中于定性分析,缺乏從定量的視角客觀的解析美國開放政府數據網站現狀,而且這種對比研究沒有一套標準的衡量體系,不具有全局觀,因此研究出的結果也具有主觀性和片面性。
基于此,本文綜合借鑒前人評價政府網站以及政府開放數據的評價研究,首先確定評價政府開放數據網站的體系指標。再以美國20個地方政府開放數據網站為樣本收集定量和定性指標的數據和專家總評結果,在此基礎上利用神經網絡的BP算法確定總體的評價結果,與專家打分結果進行比較,從而驗證了該方法應用于評價政府開放數據網站的可行性,為今后評價該類網站提供了科學、迅速、精準的評價體系。同時也構建了一種綜合的、應用廣泛的評價政府開放數據網站的體系。
1政府開放數據網站評價體系構建及評價過程設計
11神經網絡法
人工神經網絡(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經網絡(NNs),是20世紀80年代以來人工智能領域興起的研究熱點。它的工作原理是仿照人腦的運作模式,具有并行處理機制和學習、聯想、記憶等功能和強大的容錯能力,這使它在環境知識的獲取與處理中表現得相當出色,從而受到各學科學者的關注。BP神經網絡模型是人工神經網絡算法的一種,是一種通過多層結構來解決非線性問題的算法,這多層結構包括輸入層、若干個隱含層和輸出層[5]。本文構建四層網絡結構,采用四層前向BP神經網絡結構,包含兩個隱含層,一個輸入層和一個輸出層。將訓練樣本輸入網絡進行運算,采用梯度下降法對BP網絡進行訓練[6],直到系統誤差符合指定要求后,所得到的網絡模型便是所需要的政府開放數據網站評價模型,文中基于BP神經網絡的政府開放數據網站評價,訓練神經網絡并計算訓練誤差方法如下:
12評價指標選取及體系構建
合理的指標選取是評價一個網站的重要前提,但是關于政府開放數據網站評價體系的研究還不是很充分。因此,筆者將綜合前人評價政府網站的評價體系,因為政府網站和政府開放數據網站都是政府舉辦的信息公開,資源共享的服務性質網站,在一定程度上具有相似性。并且結合政府開放數據的評價特點,總結一套適合政府開放數據網站的評價體系。
Cora Sio KuanLai等以用戶接受和滿意的視角構建了評價政府網站的四維度測試模型,包含信息質量、系統質量、感知效率和社會影響,并對464名測試者進行問卷測試,通過技術接受模型檢驗,認為社會影響是最重要的影響因素[7];Freida Palma等從系統質量入手評價政府網站,通過對比韓國政府網站和伯利茲城網站在網站性能、網站可達性、隱私保護及安全方面的差異,對伯利茲城為代表的發展中國家提高政府網站建設水平提供經驗[8];A Vetrò等認為評價政府開放數據可以從可追溯性、價值性、延遲性、完整性、規范性、可讀性和精確性方面考慮,并建立了一套數據集評價模型[9];國際開放政府工作組經過會議研究認為,政府開放數據從數據的特點出發,應該具有及時性、全面性、原始性、可獲得性、機器可讀、非歧視性、非專有性、無須授權(涉及隱私、安全和特別限制的除外)等特性,因此評價政府開放數據應該滿足這八大原則[10]。
綜合上述研究成果,本文建構了5個維度下16個評價指標,這5個維度分別是網站規模、網站性能、網站體驗、網站內容和網站影響。網站規模體現了網站資源豐富程度,它的投入大小會直接作用于用戶的線索效率,是評價任何網站必不可少的要素,通過網站總頁面數、網站總鏈接數、Web對象數量來進行評價。網站性能體現網站在建設過程中的技術投入,本文通過鏈路完整性、頁面返回率和內鏈數指標進行評價。網站體驗是用戶在瀏覽網站過程中的主觀反應,會受到很多因素的直接影響,本文通過連通率、下載速度、頁面友好程度進行評價。網站內容是指政府開放數據網站公開、共享、可下載的內容,這項指標是政府開放數據網站評價體系的獨有且最基本的指標,是該類網站存在意義的基礎,通過數據可獲性、數據及時性和數據全面性進行評價。網站影響是指網站建設及運行過程中對外產生的直接或間接的作用。本文通過被搜索引擎收錄、訪問量、網站評級、網站信任得分進行評價。具體政府開放數據網站評價體系及指標內容如表1所示。
13評價過程設計
第一步:收集數據,依照上文構建的評價體系,選擇合理的樣本,通過軟件抓取和問卷調查的方式獲取樣本數據。為讓神經網絡計算結果表現的更好,要對原始數據進行歸一化處理。歸一化處理后的數據集分為學習樣本和測試樣本,用來對BP網絡進行學習與測試。
第二步:構建BP網絡模型,確定BP網絡參數。合理確定網絡層數及各網絡層的神經元數是成功應用BP網絡模型的關鍵。為使神經網絡更加可靠,本文選擇隱含層數為2,采用4層BP網絡來構建政府開放數據網站評價模型。
本文建構的評價體系包含16個二級指標,評價目標是政府開放數據網站。由此BP網絡的輸入層節點數定為16個,輸出層神經元個數確定為1,神經網絡輸出值即政府開放數據網站的評價值。我們采用常用的“試湊法”,即根據隱含層節點數的啟發式規則,某一隱含層節點數m=log2n,n為神經網絡中上一層的節點數,從而我們確定隱含層節點數第一層為4,第二層為2。根據以上分析,BP神經網絡模型結構確定為16—4—2—1。
關于BP網絡參數作出以下設定:BP神經網絡隱含層單元和輸出層單元上的激活函數都取為logsig函數,隱含層神經元的傳遞函數和輸出層神經元傳遞函數都采用S型對數函數logsig,初始權值取在(0,1)之間的隨機數,學習速率定為075,期望誤差為000010。
第三步:利用Python實現BP神經網絡,并用訓練數據進行訓練。本文通過Python352軟件平臺開發程序,輸入學習樣本,讀入網絡參數,對BP網絡進行訓練。如果網絡運行結果符合要求(訓練達到預定學習次數或者誤差小于期望誤差),則網絡訓練成功。否則,就要調整網絡參數,或輸入新的學習樣本對網絡重新訓練。
第四步:利用Pyhton程序對訓練好的BP網絡進行仿真測試。BP網絡訓練好后,還必須對它的精確程度加以檢驗。同樣利用Python程序,將測試樣本輸入到訓練好的BP網絡中,檢驗測試誤差是否滿足要求。如果滿足,則網絡成功建立。如果測試結果出入較大,則要刪除不理想的樣本或輸入新的樣本重新對網絡進行訓練,得到新的網絡權值后再利用測試樣本對網絡進行測試[11]。
2政府開放數據網站應用分析
樣本的有效性是確保評價科學合理的基本條件。為保證網絡訓練與模型的質量,為使原始數據更加準確、科學,筆者通過比較篩選,選取美國的20家地方網站作為實驗對象,如表2所示,本文將其中前12個網站作為訓練樣本,后8個網站作為測試樣本。
針對上文設計的體系指標,定量指標網站總頁面數、網站總鏈接數和Web對象數量、鏈路完整性、頁面返回率和內鏈數、連通率、下載速度通過軟件Maxamine Web Analyst軟件進行抓取,搜索引擎收錄、訪問量、網站評級、網站信任通過站長工具獲取;定性指標包括頁面友好程度、數據可獲性、數據及時性、數據全面性以及最終總評由相關專家進行打分,獲得最終的數據。為使數據符合訓練過程的函數運算要求,加快訓練網絡的收斂性,必須首先對所有原始數據進行歸一化處理。數據歸一化結果保留小數點3位,如表3所示:
筆者選取表2中前12個樣本數據作為訓練數據對神經網絡進行訓練。通過Python程序,輸入預定網絡參數,利用歸一化處理后的訓練樣本對BP神經網絡進行訓練,經過3075次訓練后,網絡誤差達到預定閾值,其訓練誤差隨迭代次數變化曲線如圖1所示,得到網絡輸出結果與專家總評數據比較如表4所示:
結果表明,8組測試數據的網絡輸出與專家評價值誤差均在設定范圍之內,因此基于BP神經網絡的政府開放數據網站評價模型訓練和預測精度符合要求,是一個合理的、可行的、精度較高的預測模型。因此可以用來評價政府開放數據網站,且能夠精準的模仿人類專家的思維方式進行準確的計算,避免人腦的在評價同一事物時會因為情緒的不穩定,而影響評價結果。
3結語
本文首先分析了國內外在政府開放數據網站方面的相關研究,并建立了一套評價政府開放數據網站的指標體系,通過軟件抓取和專家打分得到分析數據。在此基礎上用BP神經網絡算法進行計算得出一個評價結果,將此結果與專家打分結果進行對比,它在合理的誤差范圍內,表明BP神經網絡方法不但能夠高效、迅速的進行計算而且滿足誤差精度的要求,它能夠通過非線性的方法考慮評價標準的多樣性和不確定性,是一種可以用來評價政府開放數據網站的新型評價工具,具有十分重要的意義。
參考文獻
[1]Open data in the United States[EB/OL].https:∥www.data.gov/open-gov/,2016-08-12.
[2]錢曉紅,胡芒谷.政府開放數據網站的構建及技術特征[J].圖書情報知識,2014,(3):124-128.
[3]侯人華,徐少同.美國政府開放數據的管理和利用分析[J].圖書情報工作,2011,(4):119-122.
[4]陳美.美國開放政府數據的保障機制研究[J].情報雜志,2013,(7):148-153.
[5]韓力群.人工神經網絡理論、設計及應用[M].北京:化學工業出版社,2007:47-48.
[6]周瑛,劉天嬌.基于神經網絡的高校圖書館知識服務評價體系研究[J].情報理論與實踐,2013,(2):55-59.
[7]CSK Lai,G Pires.Testing of a Model Evaluating e-Government Portal Acceptance and Satisfaction[J].Electronic Journal of Information Systems Evaluation,2010,(1):36-46.
[8]F Palma,SG Hong.Evaluating the Website Performance of Belizes e-Government Portal[J].Journal of Convergence Information Technology,2013,(5):986-993.
[9]A Vetrò,L Canova,M Torchiano,et al.Open Data Quality Measurement Framework:Definition and Application to Open Government Data[J].Government Information Quarterly,2016,33(2):325-337.
[10]Open data barometer global report[R/OL].http:∥boletines.prisadigital.com/Open%20Data%20Barometer%20-%20Global%20Report%20-%202nd%20Edition%20-%20PRINT.pdf,2016-08-12.
[11]賈潔,彭奇志.基于BP神經網絡的圖書館電子資源質量評價研究[J].圖書情報工作,2010,(21):84-87.
(本文責任編輯:馬卓)