999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Wikidata中數據來源分析

2020-07-23 06:38:04寇蕾蕾
圖書館理論與實踐 2020年4期
關鍵詞:數據庫

寇蕾蕾

(中國科學院西北生態環境資源研究院)

維基數據(Wikidata)是維基媒體基金會于2012年10月成立的項目,其作為輔助數據庫,為280多個語言版本的維基百科提供支持,以提高維基百科的內容質量和一致性。概括而言,Wikidata提取了不同語言版本維基百科中具有共同認知的條目,抽取了該頁面中的結構化數據,是一個基于語義的超大知識數據庫,支持用戶、機器讀取和編輯。Wikidata具有自由開放、協作編輯、多語言、結構化等特點,受到許多機構的重視。

數據來源是一種元數據,用于記錄描述數據產品生命周期的各種狀態信息。[1]目前,網絡數據數量龐大,質量難以保證,而數據來源是評價網絡數據質量的一種有效手段,近年來得到了許多研究者的重視,應用于食品、醫學、工作流系統、信息科學等眾多領域。Wikidata對結構化數據附加來源信息,為用戶提供各個記錄項的出處,以供用戶進行選擇和查證,但由于數據項的來源收集過程通常是機器自動抓取,Wikidata本身不對數據的準確性進行評判,故難免存在不同數據來源之間的數據值相互矛盾的現象。因此,本文從數據來源角度出發,選取人名名稱為研究對象,統計其在Wikidata聲明中的來源參引狀況,明確Wikidata結構化數據的基本來源情況,并基于數據質量維度分析Wikidata附加來源信息的質量,目標是通過對Wikidata中人物來源信息的分析,進一步完善Wikidata結構化信息來源,滿足用戶對高質量數據的需求。

1 Wikidata數據實體表示及來源聲明

1.1 Wikidata數據實體

Wikidata以結構化形式存儲維基百科網頁描述的事物的數據,其數據結構主要涉及條目、屬性、聲明、斷言、參引等基本概念。條目(Items)為描述維基百科頁面主題的實體,是單個事物或一類事物,Wikidata給每個條目分配一個ID作為標識符,標識為“Q+數字”;屬性(Proverty)是描述條目與屬性值之間關系的實體,標識為“P+數字”;聲明(Statement)是描述結構化數據的方法;斷言(Claim)指事實及為這種事實提供依據的參引,常見形式是屬性和值;限定詞(Qualifiers)用于進一步描述或限定屬性值;參引(Reference)用于指向聲明中數據的特定來源,通過參引記錄(Reference Record)來給定,包含至少一個屬性值對。

Wikidata對條目的描述見圖1。頁面的上部分是條目的一些基本信息,包括標識符、標簽、別名、簡要描述及到其他語種維基百科的鏈接。基本信息之下是條目的聲明列表,聲明由斷言和參引列表構成。斷言包含屬性、屬性值、限定詞;參引列表是提供參引記錄的列表,可以為空。

圖1 Wikidata數據描述結構

1.2 Wikidata來源聲明

Wikidata是一個來源數據的集合,大部分的聲明附加來源信息,其定義了兩個提供來源的屬性:Stated in(P248) 和 Reference URL(P854)。前者主要描述Wikidata內部來源條目,指向出版物和媒體;后者主要描述Wikidata外的其他來源,指向網址和在線數據庫。不考慮來源類型,在聲明中添加來源時需要遵循四個步驟:① 使用條目標題檢查Wikidata中是否存在該條目;② 若Wikidata中不存在且其不是一個網頁,則將它添加為一個條目;③ 為聲明中屬性值添加參引,并指向條目來源;④ 添加所有來源信息及必要的限定符。[2]并非所有的Wikidata聲明都需要添加來源,以下三種情況不需要添加來源信息:① 屬性值為沒有爭議的常識;② 條目的屬性直接指向外部來源,如數據庫或規范控制文檔,通過此外部來源可以確認條目的其他屬性;③ 條目本身是一個來源。[2]

2 Wikidata中數據來源分析

2.1 數據選取

Wikidata包含人物、類目、結構、管理實體、事件等內容。[3]其中,人物信息在Wikidata中所占比例較大。因此,為了使研究具有代表性,本文以人物為研究對象,基于世界名人網[4]選取研究對象,世界名人網包含不同領域的名人共5,789位,并對其做了歸類。本文從積極分子、作家、領導者、商人、畫家、時尚人士、發明家、歷史名人、科學家、音樂家、學者、醫生及其他共13類領域中,隨機選取260人(每類20人)為研究對象,且選取的人物在Wikidata的聲明中至少包含10個以上屬性。

2.2 人物屬性分析

2.2.1 屬性整體分布

基于本文統計數據,發現共有148個條目描述人物的屬性,且每個屬性至少附有一條來源。依據屬性對人物的描述深度,可將其細分為基本屬性、擴展屬性及規范文檔標識符。基本屬性包括性別、出生日期、死亡日期、出生地、死亡地、職業、實例、國籍、姓名、照片、配偶及子女,占比8%;擴展屬性包括受教育院校、所獲獎項、成員、作品、宗教、工作地、工作領域、職務等,占比46%;標識符包括虛擬國際規范文檔(VIAF)ID、國際標準名稱標識符(ISNI)、網絡知識庫(Freebase)ID、德國規范文檔(GND)ID等,占比46%。可見,除了基本屬性,Wikidata也使用多個擴展屬性對人物進行描述,并提供了不同規范文檔的標識符,進一步完善了人物屬性的描述能力。

2.2.2 高頻屬性分布

假定在所有屬性中,出現10次以上的為高頻屬性,則共有67個高頻屬性。在高頻屬性中,出現最多的為性別,達993次,出現最少的為死亡原因,僅10次。出現次數在100-1,000之間的屬性共有21個,主要包括性別、出生日期、實例、死亡日期等基本屬性及VIAFID、Freebase ID、GNDID等標識符;出現次數在100以下的屬性涉及所獲獎項、受教育院校、職務等擴展屬性及藝術家標識符(Discogsartist)ID、歐洲研究圖書館聯盟(CERL)ID等標識符。與擴展屬性相比,基本屬性出現次數普遍較高,而標識符的出現次數要視具體規范文檔而定,如VIAF ID出現次數達531次,而數學家標識符(MacTutor)ID僅出現11次。

2.2.3 高頻屬性來源數

平均來源數是指同一屬性來源項的出現總次數與其出現的條目個數之比,體現了每個條目屬性附加的來源比例,平均來源數通常反映Wikidata人物條目的整體來源情況。由于屬性的出現次數大于等于條目數,因此平均來源數大于等于1。在圖2中,平均來源數在4以上的有3個,分別是4.6、11和14:最高的屬性為“成員”(P463),共出現101次,而僅有7個人物條目提供該屬性,平均而言,每個條目中該屬性附有14個來源,這是因為“成員”屬性通常包括多個屬性值,不同屬性值又附加了多個來源;“姓名”(P735)屬性共出現164次,有15個條目具有該屬性,平均每個條目有11個來源,原因可能為姓名作為人物的特定標識符在不同名稱規范文檔中會被提及;“性別”(P21)屬性出現次數和條目數都較高,出現次數達993次,條目數為215個,平均每個條目中該屬性附有4.6個來源。其余屬性的來源比例在1-4之間,表明大部分屬性提供1-4個來源。與平均來源數相對,最高來源數指某屬性附加的最高來源個數,統計發現,“Q187199”條目中的“成員”屬性共包含11個屬性值,附加了19個來源信息,是所有條目屬性中出現最高的來源數;最低來源數指某屬性附加的最少來源個數,在本文統計數據中,最低來源數為1,而在Wikidata中,最低來源數為0,即屬性值沒有附加來源信息。

圖2 高頻屬性的平均來源數

2.2.4 屬性與屬性值

在Wikidata人物描述中,項目與屬性之間是一對多的關系,而屬性與屬性值之間既存在一對一關系,也存在一對多的關系,即同一屬性具有多個屬性值。其中,一對多關系可細分為兩種情況:一是該屬性被重復定義,對應多個屬性值,如職業、受教育院校等,表示該人物具有多個同樣屬性;二是該屬性僅有一個屬性值,但由于來源的差異導致其多個屬性值,如多個來源對出生日期的取值可能不一樣。由于Wikidata更追求數據的可驗證性而不是準確性,故會提供多個屬性值,且為屬性值附加來源,此時,屬性值有可能是不準確或矛盾的,需要基于屬性值附加的來源做進一步查證。在統計的260個人物條目中,有234個條目包含有多個屬性值的屬性,占比90%。通常,職業、受教育院校、獲獎情況、成員、作品、兄弟、子女等人物屬性包含多個屬性值。在第二種情況下,僅有17個條目包含該類型屬性,占比6%,且主要集中在歷史人物的生卒年月等屬性上,可見Wikidata中有多義性的屬性值并不多。

2.2.5 限定詞

限定詞主要用于進一步限定或修飾屬性值,類似于注釋,其作用可以概括為以下兩個方面:表明條目含義,如“法國,面積213,010平方英里”;可以約束值的有效性,如“截至2011年,德國人口為8,000萬”。[5]260個人物條目用到的限定詞(見下表),主要基于書目屬性、時間屬性、標識符及位置屬性來限定人物“作品”屬性的屬性值。通過使用限定詞,可以限定屬性值的范圍,完善來源描述,減少歧義。

表 統計數據中的限定詞

2.3 來源分析

2.3.1 內外部來源分布

如前所述,Wikidata使用兩個表示來源的屬性:“Stated in(P248)”和“Reference URL(P854)”。同時,Wikidata也經常使用“Imported from(P143)”屬性表示屬性值的來源,其主要標識參引自維基百科或其他維基網站的來源,但僅因在維基百科頁面上提到過,并不意味著維基百科頁面本身可作為Wikidata數據的來源,需使用實際的引證。因此,Wikidata規定,“Imported from”屬性支持的聲明不用于來源聲明,[2]用戶在使用時,若遇到Imported from屬性標識的來源,應將其剔除,并添加一個更可靠的來源。在260個人物條目中,“Importedfrom(P143)”屬性出現次數最多,達4,550次,表明Wikidata數據的來源大部分參引自維基百科頁面或其他維基網站,數據來源并不可靠,需要用戶進一步查證數據的準確來源。不考慮“Imported from”來源屬性,“Stated in(P248)”屬性出現次數達1,603次,高于“Reference URL(P854)”的967次,表明參引自Wikidata內部來源條目要多于Wikidata外的網上來源。

2.3.2 來源出版類型分布

Wikidata依據出版類型將來源劃分為圖書、學術期刊/報紙/雜志文章、報告/政策/法律/技術文檔、網頁、數據庫、媒體娛樂6類。[2]若基于人物條目,則共包含圖書、網頁、數據庫、媒體娛樂等4種來源類型。其中,數據庫類僅指在Wikidata中定義為特定條目并具有相應屬性的數據庫,媒體娛樂類來源包括電視、電臺。在來源統計中,數據庫類出現次數最多,達2,173次,主要包括法國國家圖書館開放數據(Data.bnf.fr)、VIAF、Freebase數據轉儲等20個開放性的來源數據庫;網頁類出現次數較多,達1,053次,主要為不同的網址來源;圖書類出現次數相對較少,共出現97次,主要包括《蘇聯環球百科全書》(第3版)、《數學史檔案》等18本圖書;出現次數最少的為媒體娛樂類(5次),僅包含在線BBC及阿拉伯衛星電視臺。總體而言,大部分人物屬性值來源于數據庫及網頁,僅有少部分來源于圖書及媒體娛樂類。

2.3.3 來源機構開放及關聯情況分析

語義網環境下,數據的開放程度是影響其發展的一個重要因素。機構內部及機構之間數據的開放共享及相互關聯,有助于知識發現及聚合。各來源機構間的關聯情況見圖3。Wikidata主要從維基百科頁面抽取結構化的數據,而維基百科的一個重要特點是免費開放,由全世界不同用戶協作編輯,其中“維基共享資源”為用戶提供了可共享的媒體文件。同時,為了更好地利用維基百科內容,DBpedia從維基百科中抽取了結構化的信息,并以關聯數據的形式將其發布在網上,允許用戶基于維基百科實施復雜查詢,與許多數據集建立了鏈接關系,成為關聯數據云圖(LOD)中最核心的數據集。除維基來源外,統計條目中也存在其他數據庫來源,其中大部分的數據庫與其他數據庫建立了關聯鏈接關系。Data.bnf.fr是基于語義網的開放數據項目,與LibraryofCongress、DNB、 VIAF、 IdRef、 Geonames、 Agrovoc、 Thesaurus W、CCFr、Europeana、SUDOC、Worldcat及維基百科建立了外部鏈接,與BnF目錄、BnF存檔建立了內部鏈接;[6]GND是個人名稱、主題詞和團體名稱的規范文檔,與DBpedia、維基百科、geonames、sw、VIAF建立了鏈接;[7]VIAF是由OCLC主辦,20個國家圖書館共同實施的聯合項目,與LCSH、DNB、BNF、DBpedia等數據集建立了外部鏈接;[8]Freebase作為Google下的關聯數據集,與bbc-music、DBpedia、Geospecies及nytimes等建立了鏈接;[9]在線音樂元數據數據庫(MusicBrainz) 與 IMDb、Allmusic、Rateyourmusic、VIAF等數據集建立了鏈接關系;[10]CERL與機構內的工作組、專家組及安全組建立了內部鏈接,與Europena及LIBFER建立了外部鏈接;[11]挪威國家圖書館規范數據(BIBSYS)是個人名稱的規范文檔,與DBpedia、DNB、VIAF建立了鏈接;[12]數學家的學術譜系與10個數學網站相連接。[13]其余數據庫雖較少與其他數據庫建立鏈接,但作為開放性的數據庫,用戶可以免費獲取所需知識。ISNI作為全球人物標識符被許多描述人物的數據集采用,有助于準確標識及定位資源;網絡電影數據庫(IMDb)目前也發布為關聯數據集,用戶基于眾多的數據庫內容可以查找與電影相關的信息;國際植物名稱索引(IPNI)是植物名稱及相關信息的數據庫,是英國皇家植物園、哈佛大學標本館和澳大利亞國立植物標本館之間的聯合項目;[14]在線書目數據庫(Open Library)已發布為關聯數據,用戶可以貢獻或修改數據。整體而言,Wikidata描述人物條目的數據庫來源開放性普遍較高,且連接了圖書館內部的書目數據、規范數據,有60%數據庫已發布為關聯數據集。數據的開放共享進一步提高了數據參引能力,使用戶面對同一“實體”時可以基于不同的檢索點進行查找。

圖3 統計數據中數據庫來源互聯情況

3 Wikidata中數據質量分析

數據質量指數據滿足用戶需求的程度,[15]為了評估數據質量,需要定義不同的質量維度,如及時性、可靠性、完整性、可獲取性、安全性、可用性等。數據來源是描述數據項生命周期的元數據,來源質量是指元數據滿足數據描述的程度。基于數據質量維度,本文選取時間性、準確性、完整性及可靠性作為來源質量維度,評估Wikidata人物信息的來源質量。

(1)時間性:包含數據條目產生過程中限定詞對某些屬性的限定時間及用戶獲取數據項的時間。Wikidata對于每一個條目頁面會給出最近的修訂時間,對于條目的某些屬性會給出引用時間。以作家茅盾(Q358494)為例,該頁面的最近修訂時間為2017年3月31日16:39;屬性“職位”的屬性值為“中國文化部長”,其來源參引包含任職開始和結束時間,若用戶下載引用“茅盾”頁面則會產生一個用戶獲取數據時間。

(2)準確性:指數據項的來源是否正確、有無矛盾性。影響準確性的因素包括:機器統計錯誤、Wikidata基于可驗證性為僅有一個值的屬性添加多個屬性值。對于機器統計錯誤,260個人物條目中共包含830條不重復的來源。可用來源只有70條,僅占8%。統計發現,Wikidata為僅有一個值的屬性添加多個屬性值的情況相對較少,僅占6%。總體而言,影響Wikidata來源信息中準確性的因素主要為機器統計錯誤。

(3)完整性:指是否從多個屬性角度描述數據項,且每個屬性的屬性值是否附加多個來源。Wikidata多數人物的屬性在10個以上,且通常會為每個屬性的屬性值附加來源,如前文所述,描述人物條目的基本屬性出現次數普遍較高,大部分屬性值附有1-4個來源信息,可見Wikidata的數據描述具有完整性。

(4)可靠性:指數據項的出處為全球通用且具有較大影響的來源機構。Wikidata規定,“Importedfrom”屬性支持的聲明不用于來源聲明,在可靠性分析時,該屬性參引的來源視為不可靠來源,同時,圖書、數據庫、媒體和娛樂、網頁的可靠性依次遞減。由上文可知,來源屬性中“Imported from”屬性出現次數最多,來源類型中網頁類出現次數較高,可見人物類Wikidata來源的可靠性并不高。

4 討論

Wikidata作為一個輔助性數據庫,其主要目的是為其他維基媒體基金會項目提供合理保存的高質量數據。當前,Wikidata仍處于完善階段,通過對Wikidata結構化數據來源信息的分析,發現Wikidata提供的來源信息仍存在諸多問題。同時,如何在不同粒度層級上追溯Wikidata的數據來源值需要研究者繼續進行深入探討。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 日韩a在线观看免费观看| a毛片免费在线观看| 成人福利一区二区视频在线| 在线中文字幕网| 中文字幕无码电影| 欧美一区精品| 99热国产这里只有精品无卡顿"| 国产高清精品在线91| 国产精品9| 综合久久五月天| 国产精品久久久精品三级| 国产美女无遮挡免费视频| 亚洲激情区| 欧美一级大片在线观看| av在线无码浏览| 爆操波多野结衣| 亚洲精品中文字幕午夜| 色天天综合久久久久综合片| 日本91在线| 香蕉视频在线精品| 中文一区二区视频| 亚洲成人精品久久| 久久99热66这里只有精品一| 国产精品入口麻豆| 久久人与动人物A级毛片| 又爽又大又黄a级毛片在线视频 | 日韩精品一区二区深田咏美| 国产在线观看第二页| 国产麻豆福利av在线播放 | 国产精品白浆在线播放| 香蕉蕉亚亚洲aav综合| 日韩国产无码一区| 免费无遮挡AV| 午夜毛片免费看| 综1合AV在线播放| 精品久久高清| 福利国产在线| 亚洲动漫h| 国产亚洲第一页| 国产一二三区在线| 久久香蕉欧美精品| 在线观看精品自拍视频| 亚洲成人精品| 亚洲视频免| 香蕉久人久人青草青草| 欧美第二区| 久久久久无码精品国产免费| 国产一区二区丝袜高跟鞋| 天天做天天爱夜夜爽毛片毛片| 国产内射在线观看| a免费毛片在线播放| 天天色天天综合| 蝴蝶伊人久久中文娱乐网| 成年女人a毛片免费视频| av午夜福利一片免费看| 亚洲欧美日韩成人在线| 欧美午夜小视频| 欧美三级视频网站| 国产在线98福利播放视频免费 | 亚洲国产无码有码| 九九热视频精品在线| 成人无码区免费视频网站蜜臀| 国产天天射| 一本视频精品中文字幕| 久久久久亚洲精品成人网 | 亚洲人妖在线| 欧美精品H在线播放| 久草热视频在线| 国产精品成人第一区| 日韩精品亚洲人旧成在线| 日韩区欧美国产区在线观看| 欧美一道本| 亚洲资源站av无码网址| AV熟女乱| 国产色偷丝袜婷婷无码麻豆制服| 日韩123欧美字幕| 日韩高清欧美| 伊人久久久大香线蕉综合直播| 精品三级在线| 欧美国产日韩另类| 亚洲一本大道在线| 夜夜拍夜夜爽|