999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結構化數字資源元數據的抽取方式研究

2022-10-15 01:14:08張學青
江蘇科技信息 2022年27期
關鍵詞:規則數據庫文本

張學青

(中國國家圖書館,北京 100081)

0 引言

元數據倉儲連通了多個數據庫形成的信息孤島,極大地提升了數字資源的利用效率,元數據經過專業的分類和組織,不僅能滿足用戶的檢索需求,還能為用戶提供深層次的數據挖掘和知識發現服務[1]。在元數據倉儲的實際工作中,會遇到許多不同來源的數字資源。數據庫等結構化資源比較容易獲取元數據,而一些因各種原因缺少元數據的非結構化數字資源,獲取就比較困難。這是很多圖書館非結構化數字資源利用率不高的一個重要原因,缺乏元數據的揭示,很難達到其他結構化資源的利用程度。研究非結構化數字資源的元數據抽取可以為非結構化數字的深度開發利用奠定基礎,最終打破結構化數字資源與一般資源之間的界限,充分發揮大量的非結構化數字資源的價值。

1 文獻綜述

徐榮華[2]提出利用基于OAI-PMH 協議的收割中外文數據庫元數據工具,收割支持OAI-PMH的開放資源的元數據,對于不支持OAI-PMH 的數據庫利用基于網頁分析的元數據抓取工具,抓取其中的元數據。梁蕙瑋等[3]提出了搜集(Gathering)、采集(Harvesting)、聯盟(Faderation)3個不同層次的策略來處理不同的數字資源,其中搜集是指對網絡資源采取的策略,即通過基本的網絡協議運用搜索引擎搜集完全開放的信息,在本地建索引庫或全文數據庫,實現信息資源整合的方法。張宏偉等[4]介紹了本地自建數據庫、分布式自建數據庫、外購數據庫等幾種不同資源的元數據采集方法以及采集過程要遵循的標準和注意事項。陳淑平[5]采用基于文檔特征與規則模式匹配的方法實現了高校圖書館學位論文數據庫的元數據抽取,取得了良好的效果。黎偉健等[6]從大數據的視角研究了非結構化數據的文本挖掘方法,總結出了一套海量文本分析流程,為海量文本的情感分析等研究提供了參考。周法國等[7]基于內在認知機理的知識發現理論,探討了非結構化信息抽取中的關鍵技術,如:機器學習技術、篇章分析與理解技術等,對非結構化信息實體識別、關系識別都有涉及。

元數據倉儲建設最關鍵、最基礎的步驟是元數據采集,可以看到,以往對元數據采集研究的重點集中在傳統館藏數字化的資源和有良好結構的自建資源及外購資源上,對占比日益增多的非結構化數字資源研究還遠遠不夠。而對非結構化數字信息的研究,主要是從自然語言處理、大數據等方向展開,缺少基于館藏利用角度的研究。本文將從館藏數字資源建設的角度,分析非結構化數字資源的特點,比較主流的元數據抽取技術,分析其優缺點,闡述其各自適應的場景,提出非結構數字資源元數據抽取的常用技術、總體思路與工作流程。

2 結構化數據與非結構化數據

各種數字資源按照組織形式可以分為結構化數據、非結構化數據兩類,其中非結構化數據又可分為半結構化數據和完全無結構化數據[8]。

結構化的數據包含了定義明確的部分,并按照一定的結構組織。例如數據庫中的記錄就是結構化數據;常見的書目表,表的每行記錄包含若干列,即字段,每個字段都有其明確的含義,如作者、書名出版社等。

這種記錄表可以方便地導出相關的字段,經過清洗后加入元數據倉儲。比如,查找書名包含“元數據”的圖書信息:Selcet 著者, 題名 from 書目信息表 where 題名 like %元數據%。

因為數據庫中的記錄都是結構化的內容,組織良好,以上的SQL語句或類似的檢索方法可以高效地找到和“元數據”相關的書目信息。

與結構化數據不同,非結構化數據無法用固定的格式組織和定義,也無法用SQL等類似的檢索方法查找。如以txt格式保存的圖書、論文,個人或組織提交的簡歷、申請,網絡采集工具抓取到的網頁、網絡文章等都是非結構化數據。

還有一些數字信息,它們不像數據庫記錄那樣有嚴格的結構,也不像堆在一起的文字一樣毫無頭緒,有自己固定的格式,每部分都有相對固定的語義。如常見的簡歷申請表等表格文件,其中單元格都有固定的意義;或者某些采集軟件的日志,雖然采用了純文字記錄的方式,每一行都代表了某方面的信息,比如第一行都是采集任務名稱、第二行都是任務狀態,把這些抽取出來就獲得了該次采集的描述信息,即元數據。實際工作中的非結構化數據大部分既包含半結構化部分,也包含無結構化部分。

非結構化數據(包括半結構化)的元數據無法直接從信息本身獲得,需要在分析數據本身的特點之后,結合運用其他知識來進行。非結構化數據一般都是批量出現的,沒有元數據這些信息將無法利用,或者利用效率非常低下。如果可以獲取這些非結構化信息的元數據,將大大擴充元數據的應用范圍,極大地提高利用效率與質量,為信息獲取的智能化、智慧化奠定基礎。

3 非結構化信息元數據抽取主要方法

由于非結構化信息具有數量大、無規律等特點,包含的元數據無法直接獲得,人工提取的方式效率低下,這類信息的元數據抽取涉及許多其他技術。

廣義上從各類數字資源中提取元數據屬于信息抽取的范疇。信息抽取是從文本數據中抽取特定信息的一種自然語言處理技術。信息抽取可能會用到自動分詞、命名實體識別、句法分析、文章分析、知識理解等自然語言處理技術。元數據抽取過程比一般的信息抽取關注的事實更為有限,很多類型的元數據不涉及對文本的理解,比如抽取一篇文章的題目更多的是根據格式信息,或者只涉及較淺層的理解,比如判斷一篇文章的主題領域。

從信息抽取的角度,元數據抽取的方法可以分為基于統計與基于規則兩大類。這兩類方法在實現的難度、適應的范圍上各有優缺點。其中基于規則的方法又稱知識工程方法(Knowledge Engineering Appor-ach),基于統計的方法也稱自動訓練方法(Automa-tically Trainable System)。從自然語言處理的歷史來看,這兩種方法經歷了不同的命運,基于規則的方法模仿了人對語言文字的認識過程,初期展現出了較好的效果;但隨著網絡技術的發展語料不斷增多,獲取更為容易,機器的計算能力大幅度提升,以及后來人工智能技術的發展,基于統計的方法展現出了強大的生命力,但很多情況下需要兩種方法的結合[9]。

3.1 基于統計方法的元數據抽取與基于規則的元數據抽取

這兩種方法主要的不同在于抽取依據。基于統計的方法要求語料庫、計算機程序處理這些大規模真實文本后獲得相關的元數據知識。語料的多樣性、機器對大規模語料的分析能力會影響以后的抽取質量。在運算能力不足、語料庫建設不便、機器學習等領域處于較低水平時,統計的方法表現平平。隨著海量語料獲得難度下降以及人工智能機器學習等高新技術的發展,基于統計的方法抽取質量會較以前有較大的提升。

基于規則的抽取方法不必事先建立語料庫,但需要人工提供抽取依據,即將元數據抽取所需的知識形式化。在當前形勢下,這種方法很多時候只能作為統計方法的一種輔助,但在一些特定情況下,基于規則的抽取方法有一定的用武之地。比如,一些大量卻結構相對單一的數字資源,人工能比較容易地從中總結出相關元數據抽取需要的知識,基于規則的方法就能體現出它的優勢,尤其是在半結構化數據元數據抽取中,基于規則的方法就有它的實用之處。

具體到非結構化數字資源元數據抽取,這兩種方法各有其適應的場合。基于規則的方法適用的非結構化數據要有以下特點:(1)抽取規則比較明確或建立了比較完善的抽取規則;(2)數據領域比較固定或事先有詞典表等領域知識;(3)機器學習成本較高難以實現;(4)只允許很低的錯誤率。

基于統計的方法適用的非結構化數據要有以下特點:(1)無明顯的抽取標記;(2)數據領域不固定或缺少相關領域知識;(3)數據量大但比較適合機器學習從中總結規則;(4)能容許一定范圍的錯誤率。

實際應用中,很多種情況需要兩種方法的結合,甚至同一組元數據中采用不同的方法。半結構化的元數據或非結構化數據中半結構化部分的元數據非常適合采用基于規則的方法。常見可利用的規則包括:(1)元數據在文章中的位置、字體、表格等格式信息;(2)html、xml標簽等標記信息;(3)特殊關鍵詞提示信息等。

半結構化數據的抽取知識相對明確,不涉及或很少涉及對具體文本的理解,如果能把這些知識較好地形式化成抽取規則就能保證較低的錯誤率。

完全非結構化信息的元數據抽取主要采用基于統計的方法,有時需要基于規則的方法輔助甚至采取一定的人工調整以提升抽取正確率。由于非結構化信息的元數據要涉及不同程度的文本理解,抽取的過程要借助自然語言理解甚至人工智能相關的技術:(1)機器學習,從大量的訓練文本中學習抽取規則;(2)文本分類,確定一篇文本的主題領域等相關知識;(3)自動文摘,生成一篇文本的內容概括;(4)知識挖掘,嘗試挖掘一篇或多篇文本隱含的知識。

這些技術的主要基礎是基于統計的自然語言處理方法,牽涉語義的理解,在相當長一段時間內機器沒有很高的精確度。但隨著人工智能和大數據相關技術的發展,這些自然語言處理技術的表現相比過去也有了質的提升。人工智能系統在確定句子語法結構上的能力已經接近人類能力的94%,從文檔中找到既定問題答案的能力已經越來越接近人類[10],使得以前無法依靠語義判斷進行的計算逐漸成為可能。

3.2 半結構化數據抽取實例

與完全非結構化數據相比,半結構化數據對計算機處理都比較友好。比如某閱讀軟件能從包含回目信息的txt文本文件中抽取目錄,回目的標記在txt文本中比較明顯(比如“第*章或第*回”的格式),是比較單純的半結構化數據,這種抽取準確率較高。網絡政府信息按照預先制定的規則抽取的元數據既有結構化內容也有非結構化內容,抽取時需要判斷很多信息,容易出錯,經常要人工調整才能得到較好的效果,如圖1所示。

圖1 網絡政府信息元數據(部分)

下面以一個實例說明半結構化數據的元數據抽取的各個環節。

以上文提到的申請表為例,假設現在有大批Word文檔格式的申請表,需要從中抽取出申請人的姓名、電話、部門、申請時間等元數據信息。申請表是Word文檔的形式,但它用表格保存了相關的信息,每部分保存的信息也都相對明確,是典型的半結構化數據。

本文用Office自帶的VBA處理相關數據,VBA即Visual Basic for Applications,它把所有Office里的元素(如文檔、單元格等)都看作是一個對象并且通過操縱對象的方法來控制,目的是使已經存在的應用程序自動化。

申請表的每個單元格都表示特定的信息,第一行單元格填寫申請者的姓名等個人信息,后面的其他單元格填寫申請的具體內容等,是抽取的主要依據,主體代碼與結果示例,如圖2所示。

圖2 主體代碼與抽取結果

Excel讀取Word文檔中的數據,并把讀取結果直接寫入Excel表格中,有一定的實用性,直觀地展現了從雜亂無章的“半結構”化數據中抽取出統一有序的元數據的過程。為了方便敘述,本例采用了比較簡單的形式,在真實工作中根據非結構化數據的特點、元數據抽取要求等可能要調整更合適的抽取工具與方法,但總的流程與思路是類似的。

3.3 非結構化信息元數據抽取方法與思路

非結構化信息的元數據抽取要在此基礎上進行。大多數情況下,非結構化數據不是完全非結構的,比如圖1所示的網絡政府信息的部分元數據,其中題名、關鍵詞、轉載來源等一般會在網頁中有所提示,比如題名可能會有相應html標記或特殊的格式,關鍵詞很多會在網頁源文件中用html標記直接列出,對于此類元數據應該按照半結構化信息來處理,即制定規則形成抽取知識,主要利用基于規則的方法抽取,可以利用機器學習的方法使機器去“理解”這些人為規定的規則會更有效率。而體裁分類和主題分類等抽取則完全是非結構化的,需要基于對網絡資源內容一定的“理解”來實現,涉及一些復雜的算法。

非結構化數字資源元數據抽取首先要將原始數據作一定的預處理,這一步不是本文重點,不作展開。將預處理后的資源按照元數據的內容作第一次分類,分成非結構化數據A和半結構化數據B,然后再對非結構化數據A作第二次分類,仍舊按照元數據內容分成非結構化部分A1和半結構化部分A2。最后對這些分好類的資源進行分批處理,利用事先制定好的抽取規則,采取基于規則的方法抽取A2和B部分的元數據,采取主要基于統計的方法抽取A1部分的元數據。抽取過程針對不同類型的元數據采取了完全不同的方法,半結構化的元數據抽取由于規則相對明確,可以保證較高的準確率,抽取前的調整和抽取后的修正可以把重點放在非結構化部分上,如圖3所示。

圖3 元數據抽取流程

4 結語

本文從元數據倉儲建設的實際問題出發,分析了非結構化數據的特點及元數據抽取的難點,介紹了不同抽取方法各自適應的場景及其優缺點,在文章的最后以一個半結構化信息元數據抽取的實際例子說明了元數據抽取的一般思路,為非結構化數字資源的元數據抽取提供了一些參考。本文提到的非結構化數據主要是指文本,圖片、視頻、音頻等非結構化數據的元數據處理則需要更多的抽取知識。

隨著大數據時代的到來,圖書館收集保存的非結構化數字資源會越來越多,對非結構化數字資源合理利用的需求也會逐漸增大,方便快捷地獲取這些資源的元數據將打通非結構化數字資源與其他結構化館藏之間的障礙,促使大量的非結構化數字資源從“持有的數據”向“有效的館藏”轉變,希望這些研究分析能為未來高質量的非結構化數字資源的元數據抽取作少許鋪墊。

猜你喜歡
規則數據庫文本
撐竿跳規則的制定
數獨的規則和演變
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
數據庫
財經(2017年2期)2017-03-10 14:35:35
TPP反腐敗規則對我國的啟示
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 91无码人妻精品一区| 亚洲欧洲自拍拍偷午夜色无码| 9cao视频精品| 国产区精品高清在线观看| 国产亚洲欧美日韩在线一区二区三区| 免费激情网址| 手机在线国产精品| 免费午夜无码18禁无码影院| 超碰91免费人妻| 亚洲综合香蕉| 日韩欧美国产三级| 婷婷综合亚洲| 91九色视频网| 精品夜恋影院亚洲欧洲| 中文字幕亚洲乱码熟女1区2区| 亚洲视频免费播放| 成人日韩精品| 九色视频线上播放| 亚洲综合色在线| 激情综合网激情综合| 欧美天堂在线| 中文字幕在线观| 好吊色国产欧美日韩免费观看| 久久免费看片| 在线精品亚洲一区二区古装| 国产色网站| 欧美亚洲一区二区三区在线| 热久久综合这里只有精品电影| 青青草综合网| 97se亚洲综合| 欧美亚洲另类在线观看| 国产精品久久久久久影院| 高清无码不卡视频| 天天色综网| 黄色网在线| 国产精品网址在线观看你懂的 | 无码高潮喷水在线观看| 国产欧美精品专区一区二区| 亚洲综合久久一本伊一区| 亚洲爱婷婷色69堂| 日本黄色a视频| 一级毛片免费高清视频| 在线观看免费人成视频色快速| 成人午夜亚洲影视在线观看| 少妇高潮惨叫久久久久久| 日韩第一页在线| 亚洲色图另类| 久一在线视频| 国产一区二区三区免费| 国产成人精品一区二区秒拍1o| 综合网天天| 国产成人精品一区二区秒拍1o| 日本日韩欧美| 欧美成人综合视频| 国产成人综合久久| 少妇露出福利视频| 国产经典免费播放视频| 91精品国产一区| 日本成人一区| 久久亚洲国产视频| 朝桐光一区二区| 五月婷婷综合色| 免费一级无码在线网站| 5555国产在线观看| 在线欧美a| 中文字幕乱妇无码AV在线| 97青草最新免费精品视频| 日本www在线视频| 日本高清成本人视频一区| 国产福利小视频在线播放观看| 男女男免费视频网站国产| 日本午夜网站| 国产SUV精品一区二区6| 国产成人调教在线视频| 中文字幕在线观看日本| 一级毛片基地| 国产在线精品美女观看| 国产h视频在线观看视频| 一级毛片基地| 91在线精品麻豆欧美在线| 欧美综合区自拍亚洲综合天堂 | 欧美亚洲第一页|