臧國全 趙佩端
(鄭州大學信息管理學院 鄭州 450001)
·專題研究·
社交媒體長期保存的困擾*
臧國全 趙佩端
(鄭州大學信息管理學院 鄭州 450001)
與其他類型數字資源相比,社交媒體有其自身的特殊性,對其實施長期保存面臨諸多困擾:社交媒體收割的困擾,包括收割方式產生的困擾和收割邊界的困擾;社交媒體保存的困擾,包括社交平臺條款產生的困擾、保存技術的困擾、保存標準與內容的困擾、保存實踐的困擾;社交媒體使用的困擾,包括侵權的困擾、用戶隱私的困擾和訪問實踐的困擾。
社交媒體 數字保存 數字資源
社交媒體是基于因特網的一種應用程序,基本功能是構建用戶的交流平臺。實踐中,社交媒體包括不同類型的網絡平臺,主要有:社交網站(如Facebook 和QQ空間),用戶集體創作內容網站(如YouTube和維基百科),產品和服務的營銷網站(如Amazon和eBay)。盡管不同類型社交平臺的功能存在一些差異,但用戶在線交流是基本功能,均產生交流內容及其附加數據,可供科研人員進行數據挖掘,也可為商業企業提供消費分析和市場研究,且后者的應用越來越多,已經形成一種商業運作模式。
數字資源長期保存系統主要包括數字資源獲取、數字資源保存和用戶訪問三大模塊。同樣,社交媒體長期保存也涵蓋社交媒體收割、社交媒體保存和用戶使用三個環節,每個環節都存在一些困擾。
1.1 收割方式產生的困擾
與Web 1.0的網絡信息資源通常使用Web爬蟲程序(如Heritrix)抓取不同,以Web 2.0展現的社交媒體,因其交互特征(常用JavaScript實現),導致對其實施收割需要不同的工具,采用不同的方法,且均產生一些困擾。
(1)應用編程接口(API)
社交媒體平臺提供的API是社交媒體平臺與社交數據收割者之間的接口,定義對社交數據收割的規則,比如,Facebook的Timehop API[1]可定制收割一個用戶賬戶中每年特定一天的社交內容。API的收割需要申請,比如Twitter中,收割者需申請,一旦申請被接受,API將與Twitter連接,收割連接之后產生的社交數據,并轉換為結構化的JSON格式提供給收割者。API的收割不僅包括社交內容,還包括元數據,比如,Twitter的API收割有用戶ID、用戶IP、用戶發出推文后的操作記錄(共享、愛好)等;Facebook的Graph API收割包括產生的評論;YouTube的API收割除了用戶發布的視頻外,還有描述視頻及其關聯的元數據。
API收割雖然提供了獲取社交數據的一個途徑,但也存在一些困擾,其中之一是限制收割的數據量,比如,Twitter的API收割量限制為總數據量的1%,且不公開1%樣本量的抽取方法,導致收割者無法檢驗獲取數據的代表性[2]。
(2)社交數據代理商和第三方服務
社交數據代理商一般是社交平臺的官方商業機構,提供采用API難以收割的數據,比如,代理商Gnip提供Twitter的API無法收割的歷史數據(因為Twitter 的API只收割用戶連接后的社交數據),甚至包括全部推文的收割服務,但需付費,每月為2000美元,外加每1000個推文的傳遞費0.1美元[3]。社交數據代理商還提供特定數據的收割,比如,代理商DataSift提供Twitter、Facebook和Youtube的主題數據收割(包括實時的和歷史的社交數據),銷售給品牌公司、金融市場、新聞機構等進行數據分析。
第三方服務是獨立于社交平臺和社交數據需求者的服務實體,通過協議向需求者提供社交數據收割。業已存在的第三方服務有兩類:一是商業服務項目,如ArchiveSocial[4],MirrorWeb[5],Erado[6],Gwava[7]等,專門從事社交數據收割,可根據用戶的需求提供個性化的定制收割服務;二是公益性保存項目,如互聯網記憶基金會(IMF)和國際互聯網保存聯盟(IIPC)的Web保存項目,將社交數據收割作為其中一項業務。
顯然,社交數據代理商和第三方服務提供的大都是商業服務,用戶需要購買,且價格不菲。也有例外,比如,針對社交數據代理商DataSift收割的Twitter社交數據,當用戶的需求是包含特定關鍵詞或標簽時,只要目標數據集不超過所有社交數據的1%,免費提供;再比如,用戶可以從第三方服務的公益型保存項目中免費訪問社交數據。
(3)社交媒體平臺的用戶自存檔服務
自存檔是一些社交媒體平臺(如Facebook、谷歌和Twitter等[8])向用戶提供的下載其賬戶數據的備份服務,但需用戶相應設置。自存檔數據僅限用戶賬戶本身,不涉及其他賬戶內容。如,Facebook只備份賬戶所有者發布的內容和發送給所有者賬戶的內容,以電子郵件方式郵寄給用戶一個結構化的壓縮文件,且限定幾天內下載,之后過期;谷歌的一些服務(Gmail、谷歌日歷、視頻群聊和YouTube)也提供自存檔功能[8]。
很明顯,這項服務針對單個用戶賬戶的社交數據,收割范圍很有限。但對于機構賬戶可能是一個有價值的選擇,可用來收割保存一個機構中使用該公共賬戶產生的所有社交數據。對公眾人物,這項服務為建立個人社交檔案提供了一個解決方案。
1.2 收割邊界的困擾
目前為止,還未出現針對一個或多個社交平臺的所有社交數據進行收割的實踐,已有的收割實踐都是專題性的,都存在收割邊界的界定問題,但目前的界定實踐都存在一些困擾。
社交過程線程構建的困擾。與傳統網頁不同,社交媒體的核心是用戶交流,一個完整的交流過程可稱為一個線程,但交流過程可能涉及多個用戶賬戶,且常常包含多個相關對話主題和事件,導致難以清晰界定一個交流過程的開始和結束。已有的一些收割實踐很少考慮線程的建立,比如,北卡羅萊納州大學圖書館的社交媒體保存系統[9],依據該校的官方賬戶和與該校相關事件的標簽,收割Twitter和Instagram社交平臺的相關數據;愛爾蘭社交媒體保存項目[10],基于地理位置、關鍵詞和標簽,使用Twitter API的收割工具,搜集與愛爾蘭相關的所有推文。這些項目都采用不同方法界定收割范圍,但都沒有考慮線程的構建,常常會出現一個線程中的一些對話在收割范圍內,但其他對話在收割范圍外,導致無法完整收割一個線程中的所有對話,致使未來用戶使用的理解困難。
社交媒體收割策略的困擾。常用的收割策略之一是基于關鍵詞和標簽,但在幾乎所有社交媒體中都沒有對用戶使用的關鍵詞和標簽進行規劃化處理,存在大量的一詞多義、多詞一義、詞義含糊現象,對識別社交內容涉及的實體(人、地方、機構、事件等)的標簽也常存在拼寫不同甚至錯誤,一些術語常常變化,這些因素都會導致基于關鍵詞和標簽的全面收割相關內容的策略難以準確設計,且也無法過濾掉虛假數據、個別道德缺失的用戶傳播的僵尸數據和污染數據,當然對收割的數據進行質量控制是一個解決方法,但人工控制的成本較高,軟件控制的準確度難以保障,且均未見報道。收割策略之二是基于用戶賬戶,但社交媒體的交流特征致使一個賬戶內容常常與其他多個賬戶內容產生關聯,而這種關聯又是多維的、隨機的,很難對這種關聯進行全面清晰的界定,導致基于賬戶的策略在空間維度上無法收割到全面相關數據。收割策略之三是基于時間段,同樣基于社交媒體的用戶交流屬性,這種策略無法在時間維度上收割全面的相關數據。收割策略之四是基于隨機抽樣,在科學研究中最常用,比如前述的Twitter的API 的1%收割抽樣率,顯然這種策略也存在大量數據漏收,且因均不公開抽樣算法,無法驗證抽樣的合理性。
語義環境收割的困擾。除了線程之外,社交數據的理解還需語義環境的支撐,但目前的實踐大都僅抓取社交媒體內容,較少提供語義環境的元數據收割。比如Twitter的使用條款限制收割用于描述附加信息的元數據,包括用戶地理位置、評論或轉發的用戶ID等。甚至,一些非文本社交內容根本就沒有文本 信息,比如Instagram的照片和視頻收割,元數據的缺失導致這類社交多媒體信息完全失去語義環境。還有,社交內容中包含大量的超鏈,這些超鏈的對象內容對社交媒體內容的理解至關重要,甚至是內容的重要組成部分,但社交平臺大都采用TinyURL[11]和 Bit.ly[12]壓縮URL,導致直接收割后超鏈的失效,當然在收割過程中可以將其恢復為原始URL,但維護外部URL僅是短期保存的一個方案,確保內嵌的外部對象內容能夠被長期有效訪問的方法只有同時收割外部對象內容并與社交內容一起保存或建立兩者之間的鏈接,但目前這項實踐很少,唯一見到的報道是ARCOMEM 項目提供了該解決方案[13]。
全面收割相關內容是社交媒體收割的一個挑戰,剔除重復內容則是社交媒體收割的另一個困擾。因為社交內容的轉載和群發,導致無論采取何種收割策略,都會出現大量的重復內容,若不及時剔除,保存系統可能存在大量冗余內容致使存儲和檢索的困難。去重的一個有效方法是以推文ID為主線,確保收割的元數據和推文都與推文ID相連接。去重會刪除一些推文,但也會導致保存會話線程中一些推文的缺失。
社交媒體高度動態性導致的社交內容快速消失使對其進行長期保存尤為迫切。2015年,網絡歷史學家Peter Webste報告了社交內容的消失速度,稱在英國Web Archive項目中保存的社交內容,一年前保存的目前仍然在線且未變化的比例不到10%[14]。Salah和Nelson在檢查社交媒體信息的壽命后,發現發布后的第一年消失近11%,以后以每天0.2%的速度持續消失[15]。2014年,社交媒體用戶上傳到TwitPic數以百萬計照片的可能被刪除引發人們的擔心,原因是Twitter要撤銷對Twitpic的API訪問[16]。實際上,商業社交平臺都有自己的商業模式,重視當前數據輕視歷史數據,缺乏長期保存的動機,社會沒有理由期望社交平臺對其社交數據的長期可用性負責。
2.1 社交平臺條款產生的困擾
社交數據的收割比例和頻率條款導致的困擾。多數社交平臺允許通過其API收割社交數據,但幾乎都在使用條款中限制了收割保存數據的比率和頻率??赡艿脑蚴巧缃黄脚_都是商業企業,通過銷售用戶數據而獲利,為了保護企業利益,社交平臺必須確保數據的安全,采取的措施之一是API的使用方針,限制獲取數據的比例和請求頻率。這項條款對科學研究帶來困擾,因為科學研究需要大量的社交數據樣本,方能得出有價值的結論,但社交平臺通過追蹤基于API訪問請求的方式避免過度的數據訪問,否則就取消訪問者的全部權限,導致科研活動難以獲取充足的數據樣本。這項條款也對保存機構帶來困擾,一般來說,保存機構期望收割一個主題的完整社交數據,比如一個城市、一個國家、一個持續發生的事件等,但這項條款導致這種期望難以實現。
社交數據的禁止出售、出租、租賃、再授權條款導致了困擾。不僅Twitter明確社交數據的禁止轉讓許可條款,Foursquare[17],Linked In[18]和You Tube[19]等也有類似條款。該項條款限制了社交數據的保存方式,因為一旦保存機構收割了社交數據,根據條款規定只能收割者進行保存,不能轉移給第三方機構(如其他保存系統、云存儲等),這對具有長期保存需求但沒有條件建立本地保存系統的收割機構帶來困境。這項條款也演繹出了社交數據不能共享,在公共保存領域,如文化遺產的保存機構,社交數據的禁止共享使得這類機構履行其核心職責成為困難。
實踐上,社交平臺條款經常改變,有些變化頻率很高(如1年以內),導致保存機構難以制定長期政策處理社交媒體的保存授權問題,尤其是從多個社交平臺收割的社交數據。
2.2 保存技術的困擾
社交媒體的廣泛應用導致社交數據快速增長,對社交數據的保存技術帶來兩個問題。一是存儲問題,大規模社交數據的產生需要海量存儲設備,也需要建立社交數據收割的選擇標準,用以收割有價值的涵義連貫的社交數據集合以供長期保存,另外,社交媒體平臺的使用條款限制了社交數據的轉移保存,增加了收割方的長期保存難度。二是索引問題,海量的社交數據給信息機構的傳統索引技術帶來挑戰,需要創新一種新的索引技術以滿足用戶檢索的需要。比如,2013年,國會圖書館的“Twitter保存項目”的數據規模已達80TB,1200億條推文[20],由于現行的索引技術難以勝任這樣規模的海量數據處理,導致目前為止還不能面向用戶提供檢索服務。
2.3 保存標準與內容的困擾
保存標準的缺乏致使保存實踐困難。現行的社交媒體保存實踐主要來自于傳統Web 保存的延伸,使用相似的收割工具,采用相似的保存方法。但社交媒體內容與傳統Web內容存在根本區別,已有一些針對社交媒體收割新方法的開發,但都在實驗階段,未見規模性應用的報道。也許是因為社交媒體的新穎性,對其進行長期保存的標準和最佳實踐還沒建立,盡管有些相關的操作指南,但確保社交媒體內容及其所有相關數據的長期有效保存的完整標準仍沒出現。
社交媒體的特質導致保存困境。一方面,社交媒體保存需要收割和保存內容數據和元數據;另一方面,社交媒體的保存也包括內嵌媒體和URL。這兩個方面特質都要求保存社交數據的語境信息,比如Twitter的推文限制140個字,如果丟失一個內嵌URL,就可能會導致一個推文甚至整個交流對話失去意義。目前常用的基于API收割的社交數據格式是JSON和XML,前者是一種基于JavaScript的開放式標準,被Twitter使用,后者是基于ISO8879-1986的非專有格式,被一些社交媒體的API使用。但是,這兩種格式都沒有提供社交媒體長期訪問的語境信息的解決方案。
語境信息是保存的重要內容,但難以收割。語境存在于用戶的交流過程中,包括使用的終端、平臺提供的服務、應用程序的界面和功能,以及用戶交流所在的社區等。用戶發布內容的含義受語境的影響很大,未來用戶對保存的社交媒體內容的理解能力取決于對語境的保存程度。社交媒體的語境是動態的,比如,社交平臺頻繁更新服務界面,改變基本功能,另外,新技術的誕生也會改變社交媒體的語境。
因此,僅僅抓取社交內容和元數據無法提供足夠的語境展示用戶的交流過程,保存語境信息的一個理想方法是抓取用戶的交流過程,采用截屏和視頻錄像方式。記錄社交媒體的用戶整個在線過程,可能是未來社交媒體長期保存的一個趨勢。
2.4 保存實踐的困擾
根據上述對社交媒體收割的現狀考察,研究人員采用API收割的數據很有限;代理商和第三方服務也不可能對社交數據進行全面收割,且均為價格昂貴的數據銷售服務;社交平臺的自存檔服務也僅提供用戶個人賬戶范圍內的社交數據下載與備份;社交平臺本身依據其服務條款對平臺的所有社交數據具有長期保存的權力,但由于商業目的在于出售社交數據而獲利,故缺乏保存動機。因此,還沒有出現一個真正的社交媒體長期保存項目。
目前為止,社交媒體長期保存項目的建立嘗試僅發生在Twitter和美國國會圖書館之間[21]。2010年,Twitter將2006年以來的所有社交數據和元數據贈予國會圖書館,以期進行長期保存,并僅供非商業用戶的訪問使用,國會圖書館將這個長期保存項目命名為“Twitter保存項目”。但是,贈予協議附加了兩個條件:一是用戶訪問的時間延遲是社交數據發表6個月,所以研究人員并不擁有Twitter實時社交數據的訪問權限,二是用戶僅限在獲得授權的研究人員,因此無法實現開放獲取。另外,Twitter提供的海量社交數據導致國會圖書館在存儲技術、數據組織和標引、訪問方法、數據的產權保護和用戶隱私保護等方面都遇到了前所未有的挑戰。目前為止,這個保存項目仍處于構建研究階段,未對外開放。但對于未來的基于Twitter社交數據研究人員來說,國會圖書館的“Twitter保存項目”毫無疑問是重要的數據來源,其價值值得期待。這項合作是商業化社交平臺與社會文化遺產保存機構的首度聯合,目的是實現社交數據的長期保存,以支撐非商業化的科學研究,具有劃時代意義,雖然目前遇到了困難和挑戰,但對未來發展具有示范作用。
3.1 侵權的困擾
社交平臺的使用條款禁止對基于API收割的社交數據進行復制和傳播,實際上限制了對收割數據的任何形式的共享。但在數據驅動的科學研究領域,數據共享越來越重要,甚至在一些情況下是必須的。比如,科學研究人員對基于API收割的社交數據進行分析,產生一項研究成果并公開發表,其他研究人員為了驗證這項成果,就必須獲取相同的社交數據集,但社交平臺使用條款限制了這種可能性,因此,無法進行再現驗證研究。針對Twitter,目前有一個折中方案,即Twitter沒有禁止Tweet ID的共享,科研人員可以將社交數據集的每個Tweet ID共享給再現驗證研究人員,后者根據Tweet ID收割到相同的社交數據集。但這種方案也存在風險,因為推特可能已被刪除或被編輯,導致無法收割到完全一致的社交數據集。
社交平臺的使用條款禁止對非用戶本人的社交內容的任何直接引用,可能的考慮是社交內容中含有大量的個人用戶敏感數據,這對科研活動有時也會帶來一定的侵權風險。例如,一個Twitter數據集包含受版權保護的圖片,如果基于該社交數據集的科研成果中直接內嵌了這些圖片并公開發表,則構成了侵權。為了防止這種形式的侵權行為的發生,目前科學研究活動采用了一個折中方法,對這些圖片的分析只限制在元數據層面且采用定量方法,這樣其研究成果中僅涉及定量分析的結果,一般可以不包含對原始圖片的引用,這雖然規避了侵權風險,但有時會對出版物的質量和研究成果的可信任性產生負面影響。然而,如果對社交數據集采用定性法進行分析,侵權問題可能會凸顯,因為基于這類方法的研究結果中常常需要引用(甚至大量引用)社交媒體內容。
3.2 用戶隱私的困擾
據統計[22],2015年世界上有29%的人是社交媒體的活躍用戶,2016年將會有超過三分之一的人使用社交媒體,產生的社交數據數量是空前的。隨著用戶數量的快速增長,社交媒體已經像廣播、電話、能源、交通工具等成為人們日常生活工作中必不可少的公共基礎服務。但是,與用戶使用其他公共服務相比,使用社交媒體產生個人隱私數據問題更加突出,因為這項服務的主要功能是用戶交流,交流過程產生的社交數據內含大量用戶個人隱私信息,如果不進行有效的倫理規范,借助于日益先進的社交數據挖掘工具,社交數據分析作為一項科學研究活動的整體影響將產生巨大的負面效應,遠遠超過用戶個人信息泄露的離散案例。
社交數據作為一類大數據,與其他形式的數字資源相比,個人隱私的泄露風險更大。這種風險來自于大數據的關聯屬性,這種屬性使個人身份更容易泄露。當把多個數據集(如社交媒體數據和管理數據)合并一起進行綜合分析時,很容易建立個人身份與個人信息之間的關聯,一般來說,數據量越大,數據的多樣性越豐富,識別個人身份的可能性也越高。當然,不同的應用對社交隱私數據的保護效果也不盡相同,一般來講,非商業性應用要好于商業性應用,因為前者(如科學研究)一般由公共經費支持,研究成果是公共產品,研究活動以不損害公民利益為前提,所以在使用社交數據時,更注重公民的隱私權,保護公民的個人數據,但后者的使用對象集中在最新社交數據,目的是增加銷售收入,對社交用戶隱私數據的保護考慮相對較少。目前廣泛采用的匿名化可以降低個人隱私泄露的風險,但簡單的匿名化不可能完全防止這類風險,一項報告指出[23],很多大數據的應用程序都可以很容易地破解匿名問題。
社交平臺的服務條款大都界定社交數據的所有權歸社交媒體,比如Twitter, Facebook,谷歌,LinkedIn等。用戶在使用社交媒體時需要簽署使用服務的協議,協議中一些選項的選擇也可能涉及對未來泄露個人隱私的認可。這種服務條款和用戶協議在社交數據所有權歸屬認定上用戶處于弱勢和被動地位,雖然用戶是社交媒體內容的作者,用戶數據也是用戶本人自愿產生的,但這些社交數據無論用于商業目的,還是用于非商業的科學研究、作為社會文化遺產的收藏、收割到保存系統,用戶完全失去控制權甚至知曉權。所以,從用戶角度,追蹤和識別個人隱私數據的應用軌跡是不可行的。
因此,技術防御無法完全解決用戶個人信息的泄露,必須針對社交數據使用建立一套倫理規范。業已存在的相關倫理準則可以參考,比如,經濟合作與發展組織[24](OECD)的《個人隱私保護和個人數據傳播指南》、英國國家經濟和社會研究委員會[25](ESRC)的《科研倫理框架》、因特網研究者協會[26](AIR)的《倫理推薦指南》、歐盟[27](EU)的《被遺忘權》等,但這些準則和指南要么規范特定的使用群體(如OECD和EU),要么規范特定的應用對象(如ESRC 和AIR),完全針對社交數據特質的還未見報道。
3.3 訪問實踐的困擾
據普查,目前還沒有一個真正的社交媒體數據長期保存系統,雖然社交平臺有長期保存社交數據的權力,但均沒有長期保存的計劃,更沒有長期保存項目的實施,用戶對社交媒體數據的使用大多限在對社交平臺訪問的層面。但是,至今為止,社交媒體都沒有對用戶(包括個人用戶和團體用戶)給予完全訪問的授權,僅有的一個完全訪問授權的例子發生在Twitter與MIT (麻省理工)之間[28]。
2014年,Twitter與MIT簽署協議,旨在向后者提供其全部社交數據(包括歷史數據、當前數據和未來數據)非商業化使用的長期訪問授權,同時向后者的媒體實驗室提供一千萬美元支持社交數據分析工具的研發。協議規定,Twitter通過其Gnip數據服務向MIT開放其所有社交數據的訪問,MIT基于對Twitter社交數據的訪問分析,向政府提供完善城市社區的公共服務功能、提高社區運行效率以及政府服務透明度的對策,且MIT無需報告訪問、獲取和利用Twitter數據的計劃,也無需將Twitter數據下載轉移到本地設備,避免數據存儲成本的發生。截至2105年底,這項協議執行效果良好。
但是,這個協議授權的僅是MIT。實際上,僅為了科學研究的目的期望訪問甚至收割社交數據的研究群體很大,如何滿足這一群體的需求是社交媒體界乃至整個社會面臨的挑戰。在這項合作中,Twitter為了公共利益履行了自己的社會義務,雖然合作剛剛開始,長期效果的評價現在還為時過早,但它具有劃時代意義,開啟了新媒體時代商業化社交平臺無償服務于社會的新模式。
社交媒體是一種新型的數字資源。與其他類型數字資源的長期保存相比,社交媒體長期保存的理論探討與實踐項目都甚顯遜色。據筆者考察,目前為止還沒有一個專門的社交媒體長期保存系統,社交媒體數字資源一般被保存到Web保存系統中,且按照一般Web網頁的收割方法進行收割。但是,這種收割和保存方法完全忽略了社交媒體數字資源的用戶交流屬性和語境依賴屬性,給用戶使用帶來極大困難。本文基于社交媒體的特質析出了這類數字資源長期保存面臨的一些困擾,以期業界探討解決方案,應用到未來的保存實踐之中。
(來稿時間:2016年4月)
1.Timehop.We’re Building the Future of the Past[EB/OL].[2016-01-09].http://timehop.com/press
2.Twitter.Streaming API[EB/OL].[2016-02-01].https://dev.twitter.com/streaming/overview
3.GNIP.Customized Solutions for Predictable Pricing[EB/OL].[2016-02-01].https://gnip.com/pricing/
4.ArchiveSocial.Risk Management & Analystics for Social Media Archiving[EB/OL].[2016-02-09].http://archivesocial.com/
5.MirrorWeb.Archiving Websites and Social Media [EB/OL].[2016-03-03].https://www.mirror-web.com/
6.Erado.About Erado[EB/OL].[2016-01-01].https://www.erado.com/
7.Gwava.Efficient Management of Your Corporate Communication[EB/OL].[2016-02-09].http://www.gwava.eu/en
8.Bandziulis, L.How to Download and Archive Your Social Media Memories[EB/OL].[2015-12-09].http://www.wired.com/2014/07/archive-social-networks
9.North Carolina State Universities (NCSU) Libraries.Social Media Archives Toolkit[EB/OL].[2016-01-07].https://www.lib.ncsu.edu/social-media-archives-toolkit
10.DRI.Digital Repository of Ireland[EB/OL].[2016-01-12].http://www.dri.ie/
11.百度百科.TinyURL[EB/OL].[2016-03-01].http://baike.baidu.com/link?url=lNbBh_sEC79y46GCLrmoLzM tETZUMUfxon9C7pHQe2SCAQlLG3BCK9QFEqff4H4 Hiiw64I7ciUCCFpJlRpsvIa
12.百度百科.Bit.ly[EB/OL].[2016-03-01].http://baike.baidu.com/link?url=LWnDmseCr75BLJ6UYcZOCy3f3t8 kX-SfdK6V554QoquD16Yj0H8mBlHphh1oov37qER7ny o0z0Owvjd_Y-k_q
13.Risse, T.et.al.Documenting Contemporary Society by Preserving Relevant Information from Twitter.In: Weller, K.et al.Twitter and Society[M].NY: Peter Lang Publishing, 2015:310-354
14.Webster, P.How Fast Does the Web Change and Decay? Some Evidence[EB/OL].[2016-01-01].http://webarchivehistorians.org/2015/03
15.Salah, H., Nelson, M.Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost?[EB/OL] [2016-01-09].http://arxiv.org/abs/1209.3026
16.D’Orazio, D.Twitpic Saved by Twitter Just Hours Before Planned Shut Down[EB/OL].[2016-01-18].http://www.theverge.com/2014/10/25/7070585/twitpic-savedby-twitter-just-hours-before-planned-shutdown
17.Foursquare.Foursquare Platform Policy[EB/OL].[2016-02-01].https://foursquare.com/legal/api/
18.Linked In.API Terms of Use[EB/OL].[2015-12-19].https://developer.linkedin.com/legal/api-terms-of-use
19.YouTube.YouTube Developer Policy[EB/OL].[2015-12-19].https://developers.google.com/youtube/terms?hl=en
20.Library of Congress.Update on the Twitter Archive at the Library of Congress[EB/OL].[2015-10-10].http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf
21.Library of Congress.Twitter Donates Entire Tweet Archive to Library of Congress[EB/OL].[2015-12-12].http://www.loc.gov/today/pr/2010/10-081.html
22.Kemp,S.Digital, Social & Mobile in APAC in 2015[EB/OL].[2016-01-09].http://wearesocial.sg/ blog/2015/03/digital-social-mobile-in-apac-in-2015/
23.President’s Council of Advisors on Science and Technology(USA).Big Data and Privacy: A Technological Perspective[EB/OL].[2016-01-01].https://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/ pcast_big_data_and_privacy_-_may_2014.pdf
24.OECD.Guidelines on the Protection of Privacy and Transborder Flows of Personal Data[EB/OL].[2015-11-09].http://www.oecd.org/sti/ieconomy/oecdguidelinesonthe protectionofprivacyandtransborderflowsofpersonaldata.htm
25.ESRC.Framework for Research Ethics[EB/OL].[2015-12-30].http://www.esrc.ac.uk/funding/guidance-forapplicants/research-ethics
26.Association of Internet Researcher.Ethical Recommendations[EB/OL].[2015-11-07].http://aoir.org/ethics
27.EU.Law Regarding the Right to Be Forgotten[EB/ OL].[2015-12-12].http://eur-lex.europa.eu/legal-content/ EN/TXT/?uri=URISERV%3Al14012
28.Gillis, M.Investing in MIT’s new Laboratory for Social Machines (Twitter blog)[EB/OL].[2016-01-08].https://blog.twitter.com/2014/investing-in-mit-s-newlaboratory-for-social-machines
Some Confusions in Social Media Long-term Preservation
Zang Guoquan Zhao Peiduan
( School of Information Management, Zhengzhou University)
Compared with other digital resources, social media has its own characteristics.There are some confusions during the social media long-term preservation: social media harvesting confusions, including the harvesting ways and boundary definition; social media preservation confusions, including the social platform terms, preservation technology,preservation standard and content, and preservation practice; social media usage confusions, including the copyright infringement, user privacy and access practice.
Social media Digital preservation Digital resource
G250
格式〕 臧國全,趙佩端.社交媒體長期保存的困擾[J].圖書館,2016(9):77-82
臧國全(1963-),男,鄭州大學信息管理學院教授,副院長,發表論文80多篇,出版學術專著3部;趙佩端(1992-),女,鄭州大學信息管理學院在讀碩士研究生。
* 本文系國家自然科學基金項目“數字保存的風險型元數據與風險監控研究”(項目編號:71673255)研究成果之一。