席運江 林瑤瑤 廖曉 俞寬



摘要:[目的/意義]針對海量歷史文獻數字化所面臨的文獻數量龐大、耗時長、成本過高等問題,本文將眾包理念引入傳統文獻數字化工作中,形成基于網絡眾包模式的海量歷史文獻數字化處理方法。[方法/過程]該模式根據歷史文獻特點,將網絡大眾自發知識生產模式與專家定向模式相結合,提出了相應的用戶激勵和質量控制方案,從而保證眾包任務的高效率、低成本、質量可控。此外,以粵海關清末歷史文獻為試點驗證眾包模式在大規模文獻數字化處理工作中的可行性、高效性。[結果/結論]該模式為處理歷史文獻處理提供了新的思路與方法,且具有廣闊的應用前景。
關鍵詞:眾包模式;定向眾包;粵海關歷史文獻;數字化處理;PDCA
DOI:10.3969/j.issn.1008-0821.2019.02.019
〔中圖分類號〕G250.76〔文獻標識碼〕A〔文章編號〕1008-0821(2019)02-0161-08
歷史文獻作為國家歷史文化的物質載體,記錄著各個階段的社會發展狀況,內容涵蓋史、經、哲等多個方面,反映著我國數千年歷史文化傳承與發展。歷史文獻的數字化處理逐漸取代原有的純紙質文獻整理,從而解決紙質文獻不易存儲、查閱標注及難以深入分析等問題。但對于海量歷史文獻的數字化處理工作,目前尚存在較多亟待克服的困難:歷史文獻數量龐大、種類形式多樣、專業性強,因而人、物、財力成本巨大,嚴重制約了歷史文獻的數字化處理及應用。
針對這一問題,本文提出了基于網絡眾包模式的海量歷史文獻數字化處理方法,將眾包理念與傳統文獻數字化處理工作相結合,以實現海量歷史文獻的數字化處理問題。
1文獻綜述
1.1眾包概念及主要內容
眾包(Crowdsourcing)[1]一詞最早由美國《連線》(Wired)雜志記者杰夫·豪(Jeff Howe)于2006年提出,并在維基百科上將其定義為:“一個公司或機構把過去由員工執行的工作任務,以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網絡的做法”。Surowiecki J(2006)曾在《群體的智慧》中提出“群眾比少數人更聰明”這一觀點,認為團體基于群體智慧所做出的決策往往要好于個體的單獨決策[2]。而基于互聯網的眾包模式作為一種以網絡作為共享平臺,廣泛吸收整合企業內外創新資源的合作模式,實際上就是對這種“群體智慧”的創新應用。
眾包的興起得益于互聯網的普及、網絡技術的發展、網絡一代的出現以及個性消費者的崛起[3]。仲秋雁[4]等認為眾包實際上是將軟件開發領域中開放源代碼的方法應用到其他領域中。Panchal等將眾包分為基于競爭和基于合作兩種不同的眾包創新模式[5]。
眾包不同于外包,外包強調的是將企業非核心的業務以一對一的形式外包給具備專業性的特定用戶;而眾包更傾向于資源共享、用戶共創的生產方式,吸引外部非特定用戶自愿參與企業事務中,倡導的是多樣化及差異化[6]帶來的創新潛力,利用群體智慧來實現企業競爭力的提升。
1.2眾包平臺及應用
眾包問題的研究對象包括發包方、參與者和眾包平臺。發包方和參與方通過眾包中介平臺聯系在一起,后者利用自身資源為前者提供任務解決方案并獲得相應報酬。眾包平臺通常被分為解決問題和創意產生平臺[7],例如亞馬遜推出的土耳其機器人網站[8]和Dell的“創意風暴”[9]。
近年來,越來越多公司認識到眾包的重要價值:IBM投入10億美元開發眾包模型;搜狗輸入法、豬八戒網借助眾包的思維和形式,成功獲取了數以萬計的皮膚設計和詞庫及超過700萬的“線上工人”;2014年在馬航MH370的搜救過程中,美國衛星地圖公司Digital Globe旗下眾包平臺Tomnod也曾采用眾包方式招募大眾參與處理其拍攝的高清海域衛星照,以加快搜尋效率。盛芳[10]等在其研究中展示了眾包模式在圖書館界的成功應用,其中紐約公共圖書館利用眾包模式,成功借助大眾的力量將館藏的4萬多份菜單圖片轉換為可供檢索的文本。以上案例都充分說明了眾包模式在生產效率和成本方面的優勢,也為本文眾包模式的設計提供了有價值的參考。
2海量歷史文獻數字化處理工作分析
2.1海量歷史文獻數字化處理難點
歷史文獻數字化雖在一定程度改善了傳統紙質文獻的整理、查閱、存儲及分析工作,但對于海量古籍的數字化處理方面,目前尚存在較多亟待克服的困難:其一,歷史文獻數量龐大且種類形式繁多,給文獻全文識別、翻譯等數字化工作帶來很大困難。海量文獻通常涉及多種匯編語言,同時手寫紙質文獻還易出現紙質老化、字體繁雜、字跡模糊涂改等現象,無法完全借助OCR等工具進行快速識別,依賴大量人工識別;其二,專業性較強的古籍要求翻譯人員具備相關的專業及背景知識儲備,見圖1。以上這些都表明,海量歷史文獻的數字掃描、信息獲取、圖像處理計算機輔助設計等諸多步驟都需要耗費大量的人力、物力、財力,若單單依靠館藏機構內少數專業人士,往往事倍功半。因此,若要高效保質的解決海量歷史文獻數字化的問題,就需要解決海量文獻和專業性兩個問題。
本文所研究的基于網絡眾包的海量歷史文獻數字化系統正是從以上兩個問題的角度入手,借由網絡眾包平臺,非定向招募普通用戶參與到海量古籍
數字化工作中,以提高文獻數字化的整體效率;此外,針對歷史文獻中強專業性的核心文獻,采用“定向眾包”的形式招募一定數量的領域專家,從而形成“網絡大眾+領域專家”的合作模式,利用多方資源以實現海量文獻的高效數字化。
2.2基于WBS的工作分解
針對海量歷史文獻數字化處理工作,本文采用WBS方法對眾包工作進行結構分解,逐步細化任務目標,依次確定各層級順序及相應工作內容,使整體眾包工作更為清晰明確。海量歷史文獻數字化處理核心工作分為以下4部分:歷史文獻數字化存儲、歷史文獻文本化、歷史文獻翻譯及歷史文獻挖掘與分析,見圖2。
3眾包模式設計
本文所設計的雙向眾包模式將是非定向眾包和定向眾包模式相結合,嵌入在難度系數較高的歷史文獻文本化和歷史文獻翻譯兩個部分,實現網絡大眾自發知識生產和領域專家的定向知識服務,從而兼顧海量歷史文獻數字化處理的效率和專業性要求,為后續的文獻挖掘與分析提供堅實基礎。
3.1非定向眾包模式設計
非定向眾包模式主要適用于非專業性任務。針對數量龐大、難度系數和專業性要求偏低的文獻數字化任務,借由網絡平臺非定向眾包給普通用戶,利用“群體智慧”及資源實現海量歷史文獻的高效低成本數字化。同時借助質量控制策略在一定程度上解決眾包用戶知識儲備、能力素質差異及所貢獻成果質量參差不齊等問題。
3.2定向眾包模式設計
定向眾包模式適用于強專業性任務。針對部分難度系數及專業性要求較高的核心文獻的數字化任務,普通用戶往往在能力等多個方面無法勝任。此時就要根據實際需要定向招募一定數量的領域專家參與眾包工作,可借助豬八戒等眾包網站或是通過內推形式招募。借助領域專家的專業知識服務,以保障眾包文獻的專業性和準確性。另外,領域專家也能夠為普通用戶的眾包工作及后續眾包任務的質量審核提供一定的指導,從而提高整體的工作效率和質量。
3.3眾包模式總體架構設計
海量歷史文獻數字化處理眾包模式的總體架構設計分為以下3層:基礎層、眾包運作層及應用服務層,各層之間相互獨立,功能上層層遞進,如圖3所示。
基礎層負責海量原始歷史文獻的初步數字化處理及存儲工作,即將原始文獻拍攝為微縮膠片,再轉化為數字圖像存儲于基礎層,是整個雙向眾包模式得以順利進行的資源保證和根基所在;眾包運作層是以非定向大眾知識生產為核心,輔以領域專家協同的定向眾包模式,依托網絡平臺及眾包資源庫支撐進行海量文獻資料的上傳整理、用戶招募篩選和任務分發審核,從而實現海量文獻的數字化進程,具體涵蓋眾包資料管理、眾包用戶管理、眾包質量管理及眾包薪酬管理4個板塊,各板塊間相互關聯,形成運作閉環,與基礎層相互支撐,確保眾包模式的順利運作;應用服務層則主要面向專家學者、歷史知識愛好者,用戶可根據個人需求下載或購買相應的數字文獻資源,以進行深入地分析和挖掘。
3.4眾包模式的組織形式
本文眾包模式采用傳統組織形式和新型網絡社區形式相結合的組織模式。傳統組織模式偏重職能性,按職能將人員分類并負責指定的工作內容;新型網絡社區形式即基于眾包網站構建社區,即“眾包社區”,實現眾包參與者的知識共享、工作經驗交流等。眾包模式組織模式參考圖4。
由管理員負責社區及用戶維護和管理。將眾包社區中的用戶分為眾包用戶和非眾包用戶,各類用戶之間均可進行相互交流。眾包用戶包含普通用戶和定向招募的領域專家,所有的眾包用戶均從管理員處領取眾包任務,提交后由校審員進行審核評估,最終根據評估結果由管理員下發薪酬。
3.5眾包模式業務流程設計
基于雙向眾包模式的總體架構設計,進一步確定具體工作流程以保證文獻數字化工作順利開展。眾包模式流程具體分為:海量歷史文獻整理分包流程、雙向眾包實施流程、眾包任務校審及薪酬分發流程和文獻資源存儲發布流程。
3.5.1海量歷史文獻整理分包流程
從基礎層調取存儲的初步數字化的文獻圖片資源和待翻譯的任務包,根據難度系數判別進行文本化和翻譯任務分包,都區分核心和一般任務包,以便下一步雙向眾包流程的實施。參見圖5。
3.5.2雙向眾包實施流程
雙向眾包實施流程包括眾包用戶招募與眾包任務分發,其中眾包用戶招募包括非定向招募普通用戶和定向招募領域專家。本文眾包模式流程基于網站設計:首先,依托網絡進行眾包任務發布及宣傳、眾包用戶招募,并根據報名者個人素質能力評估進行眾包用戶篩選;其次,通過篩選的眾包用戶,可在眾包網站上瀏覽并選取感興趣的眾包任務。每個用戶單次領取任務包不得超過3個,且難度系數在7及7以上的眾包任務僅限領域專家用戶領取,即由領域專家定向處理眾包工作中核心且難度較大的文獻,以避免眾包任務堆積而降低眾包效率和確保眾包結果的專業性。參見圖5。
3.5.3眾包任務校審及薪酬分發流程
眾包用戶完成相應任務包后可在平臺提交個人眾包結果,校審員將會對其進行審核。未通過質量審核的眾包文件將進行返工或取消該用戶眾包資質;針對通過審核的眾包結果將根據質量進行薪酬評估,再由管理員進行薪酬支付。參見圖6。
3.5.4文獻資源存儲及發布流程
最后,審核通過的文本化及翻譯眾包結果將管理員存儲于基礎層,并及時發布在網站上,以便后續的查閱研究。參見圖6。
3.6眾包用戶激勵及質量控制
3.6.1眾包用戶激勵。
合理的激勵機制能夠有效激發參與者的積極性,并激勵其持續輸出高質量且具備創新性的成果。常見的激勵形式有精神激勵和物質激勵,而對大多數用戶來說,單純的精神激勵并不能持續性地
激勵用戶[11]參與。線性激勵機制較固定薪酬激勵機制來說,也更能夠激發用戶的參與積極性[12]。
1)眾包激勵機制
本文所提出的眾包激勵機制以物質激勵(線性激勵機制)為主,并輔以精神激勵(如可接觸優質歷史資源等),激勵眾包用戶輸出高質量成果。因此,眾包薪酬體系即眾包任務定價將是眾包激勵機制的核心部分。這里設眾包任務薪酬為:
Y=γ(a.0+λn)
其中,γ為質量控制系數(根據眾包成果達標與否,取γ=0,1;若γ=0,將該眾包成果無效,需退回處理),a.0為固定薪酬,λ為激勵系數,n為線性薪酬基數。激勵系數取決于眾包任務難度、眾包質量及其他未知因素;而眾包質量與受眾包用戶能力水平、努力程度相關[12]。
2)眾包任務定價
基于以上,本文采用分級薪酬體系,根據具體的眾包任務難度和眾包質量、以及相應的激勵系數,從而確定最終的眾包薪酬,如表1。其中,q為任務質量,q=∑3.i=1q.i/3,分為不及格、及格、良好、優秀4個等級;d為任務難度d=∑2.i=1d.i/2,分為高、低兩個等級;因此,共可得出7個薪酬激勵等級(若q為不及格時,任務難度高低均為同一等級),可根據實際眾包實施情況對具體激勵系數設置進行自定義調整。
3.6.2眾包質量控制
由于眾包面向的是非特定的網絡大眾,參與者能力、素質等多方面的不確定性導致最終眾包任務完成質量不一,往往事倍功半。因此,完善的質量控制體系是眾包系統設計中必須考慮的重點之一。鑒于整個眾包過程是動態變化的,本文考慮引入基于監測點的多層嵌套PDCA質量模型對眾包質量進行階段式動態控制,具體模型見圖7。
首先將眾包過程劃分為眾包準備、眾包實施、眾包質量審核及反饋改進4個階段性進行質量控制,并各階段選取相應監測點,嵌套PDCA進行階段式
質量反饋,以便及時發現并排除質量異常點,確保眾包工作順利進行。
主要質量監測點選取如下:眾包用戶篩選和眾包質量審核。首先,將眾包用戶篩選作為首個質量控制點,通過控制用戶質量以確保眾包工作能夠兼顧質量與專業性。借助個人信息審查和能力測驗等形式篩選合適的普通用戶并定向招募一定數量的領域專家,以開展后續的眾包工作。其次,眾包任務執行階段,注意控制眾包任務的分發,避免單個用戶單次領取的任務數量過多而導致眾包計劃超時。再次,將任務質量審核作為第二個監測點,校審人員對所有眾包用戶提交的結果進行審核,通過審核的用戶可重新領取新任務。質量未達標的任務將被退回修改或取消該用戶眾包參與資質,遺留任務將回到第二階段重新進行分發,從而形成閉環,循環迭代以實現整體眾包質量的提升。
4粵海關歷史文獻數字化眾包試點及效果評估
本文以廣東省檔案館館藏粵海關歷史文獻為數據源,通過小規模試點形式驗證眾包模式在海量歷史文獻數字化工作中的可行性并評估其實際效果。廣東省檔案館約有藏檔共321個全宗,其中的粵海關檔案涉及1860-1949年的檔案共13 260卷,內容涉及海關業務、貿易協定、社情民意等,以英文文獻居多。
此次試點工作中,我們選取部分粵海關歷史文獻,人工將微縮膠片的掃描件按照章節編號整合成PDF文檔,并將其錄入上傳至數據庫作為待領任務包,以便后續試點眾包工作運作。
4.1基于試點的眾包模式運作
首先抽取500份左右粵海關英文文獻整合成文本化任務包50個,其中標準件任務包46個、文本化后的待翻譯任務包預計118個,具體分包及定價見表2。此外,每個任務包中都有必要的任務說明、操作流程、質量審核標準、保密協議等。
通過線上渠道結合E-mail的形式替代網站作為眾包模式運作平臺,將上述眾包任務包通過線上渠道發布以招募眾包用戶,以高校學生為主要群體。少量核心、難度較大的任務包則通過專業網站(如豬八戒網)進行懸賞招募或定向招募專家進行處理。眾包用戶領取相應任務包后,在1~2周內提交個人完成結果。之后由校審員進行質量審核評估,經審核無誤后將薪酬打入眾包用戶支付寶賬戶。同時將眾包用戶個人信息登記表、工作量及工作質量評估表、信譽度評價等進行整理歸檔,以建立眾包用戶資源庫,可作為人才儲備供今后使用。
4.2基于試點的眾包模式完成情況及效果評估
經過為期1個月的眾包試點運行,50個文本化任務包和118個翻譯任務包均被領取,完成率都接近100%,較少出現退訂,具體試點完成情況見表3。
基于以上粵海關歷史文獻眾包試點的結果反饋,驗證了本文設計的眾包模式在歷史文獻數字化處理方面具備較大優勢。
4.2.1用戶參與度高
眾包模式使得文獻數字化工作難度得以拆解,從而降低了普通大眾的參與門檻。非定向的招募形式為文獻數字化工作帶來了源源不斷的人力資源,同時借由定向招募領域專家的形式彌補普通大眾在知識儲備和專業性上的缺陷,極大提高了用戶的參與度。
4.2.2時間優勢明顯
針對約500份粵海關歷史文獻眾包試點的耗時分析(見圖8)可得,相較于傳統模式,眾包模式的應用使得原來文本化和翻譯任務耗時從原來的2~3天和8~10天縮短至1天和3天,具備較大的時間優勢。同時當眾包模式應用在海量歷史文獻的數字化工作時,其人才、時間優勢和規模效應也就越強。
4.2.3定向眾包模式成本優勢明顯
基于試點結果統計得,文本化眾包用戶時薪約為9~12元/時,低于市場平均兼職價格13~18元;翻譯工作用戶每個任務包薪酬為40元,即時薪為15元/時,25元/千詞,遠低于市場價格。故眾包模式通過其規模優勢降低了對單個用戶投入的成本,具有低成本性。具體如圖9。
4.2.4定向眾包模式質量可保證
基于眾包模式的全流程質量控制,普通粵海關歷史文獻文本化及翻譯試點工作各項關鍵指標平均分均在8分以上。標準件識別、翻譯工作全部合格,優秀率分別達65%、60%以上,結合專家定向處理核心手寫件,以保證眾包質量。
綜上,雙向眾包模式在整體運作上是完全可行的,且具有高效的、低成本的特點,同時擁有較高的參與度、專業性與完成質量,完全可以持續應用于海量歷史文獻數字化處理項目,可大規模開展與實施,且規模化優勢明顯。
5結論
本文針對海量歷史文獻數字化過程中所面臨的文獻數量龐大、耗時長、成本過高等問題,將眾包理念引入傳統文獻數字化工作中,采用WBS方法分解海量歷史文獻處理工作,從基礎層、眾包運作層和應用服務層三方面構建基于網絡平臺的雙向眾包模式,創新性的將網絡大眾自發知識生產模式與專家定向模式相結合,實現高效、低成本的歷史文獻價值挖掘。本文從組織構建和流程設計兩大模塊剖析眾包模式的運作,針對用戶激勵和質量控制提出了具體的解決方案,并通過粵海關歷史文獻試點驗證眾包模式在大規模文獻數字化處理工作中的可行性、高效性,具有較高的應用前景。但同時也存在一些不足,具體如下:其一,本文中僅大致描述整個眾包系統及功能需求,尚未實現眾包系統建設,在今后研究工作中需進一步完善;其二,本文的眾包激勵機制以物質激勵為主,較為單一,日后可考慮根據用戶反饋優化激勵方案,以達到更好的激勵效果;其三,眾包模式的質量控制體系雖然通過了試點驗證,當考慮到試點文獻數量有限,如何確保大規模文獻數字化處理的高質量依舊是未來探索的重點。
參考文獻
[1]Howe J.The Rise of Crowdingsourcing[J].Wired Magazine,2006,14(6):1-4
[2]Surowiecki J.The Wisdom of Crowds:Why the Many are Smarter than the Few and How Collective Wisdom Shapes Business,Economies,Societies,and Nations.[J].Personnel Psychology,2006,59(4):982-985.
[3]張利斌,鐘復平,涂慧.眾包問題研究綜述[J].科技進步與對策,2012,29(6):154-160.
[4]仲秋雁,王彥杰,裘江南.眾包社區用戶持續參與行為實證研究[J].大連理工大學學報:社會科學版,2011,32(1):1-6.
[5]Le Q,Panchal J H.Modeling the Effect of Product Architecture on Mass-Collaborative Processes[J].Journal of Computing & Information Science in Engineering,2011,11(1):1-12.
[6]馬衛,方麗,屠建洲.從外包到眾包的商業模式變革及啟示[J].商業時代,2008,(1):13-14.
[7]Howe J,Booksx I.Crowdsourcing:Why the Power of the Crowd is Driving the Future of Business[C]//Crown Publishing Group,2008:1565-1566.
[8]Bloodgood M,Callison-Burch C.Using Mechanical Turk to Build Machine Translation Evaluation Sets[C]//NAACL Hlt 2010 Workshop on Creating Speech and Language Data with Amazons Mechanical Turk.Association for Computational Linguistics,2010:208-211.
[9]Jeppesen L B,Lakhani K R.Marginality and Problem-Solving Effectiveness in Broadcast Search[J].Organization Science,2010,21(5):1016-1033.
[10]盛芳,李正龍,焦坤,等.眾包與眾包館員制度:助推圖書館服務轉型[J].圖書情報知識,2012,(4):95-102.
[11]張志強,逄居升,謝曉芹,等.眾包質量控制策略及評估算法研究[J].計算機學報,2013,36(8):1636-1649..
[12].張鵬,魯若愚.眾包式創新激勵機制研究——基于委托代理理論[J].技術經濟與管理研究,2012,2012(6):45-48.
(責任編輯:郭沫含)