999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

年鑒中數值知識元的描述類型及規則研究

2018-05-30 10:48:04李林澳

李林澳

摘要:年鑒中有很多關于數值知識元的描述,如何把這些知識元抽取出來是細粒度知識組織的重要研究內容之一。本文通過對中國信息年鑒進行內容分析,把數值知識元分為引用型、比率型、總結型、時間型、排名型、對比型和消息型七種類型。對年鑒中包含數值的句子進行抽取,過濾句子中的其他不相關詞后形成句子的線性描述結構,在此基礎上經過人工審核與合并歸類,形成數值知識元的描述規則,為后續知識元抽取提供支撐。

關鍵詞:數值知識元;年鑒;知識元抽取

一、前言

進入21世紀以來,知識日益成為占支配地位的競爭因素之一,信息量也呈爆炸式增長,全球即將進入信息和數據存儲的“澤他時代”。雖然信息觸手可及,但隨之而來的是更深層次的問題:一方面,獲取有效信息的難度大大提升,而另一方面,繁冗復雜的知識與信息也降低了人類利用的效率。我們正處于“被信息所淹沒,卻又饑餓于知識的客觀現狀”中[1]。為了從海量信息資源中揭示與描述知識,滿足精細化的知識獲取需求,需要將知識載體的粒度碎化為知識元。

年鑒作為一種信息密集型工具書,將一年內所發生的重大事件、新聞以及各類數據和統計資料進行編排匯總,對科研進展有著極大的推動作用。年鑒中蘊含有各類型的知識元,其中數值知識元占據了非常重要的比例。隨著時間的推移,年鑒數量飛速增長,僅靠人工識別其中所包含的數值知識元已難以勝任。只有依靠知識抽取與挖掘技術來獲取有價值的知識才能滿足需求,為民所用。而要想實現自動或半自動的數值知識元抽取與挖掘,就需要對數值知識元的描述規則與識別方法進行進一步的分析與研究。因此,關于數值知識元的抽取與挖掘是具有一定的研究價值與實踐意義的。

文本挖掘是指抽取散布在文本當中的知識以更好地組織信息的過程,但這些應用更多地是關注文檔文獻本身的組織效果,沒有從文獻單元深入到知識單元。在進行分詞識別時,主要有基于統計的方法和基于規則的方法。基于統計的方法多適用于以單個詞匯為處理單元的文本,而年鑒中多是長難句分析,基于規則的方法更加適用。知識元的類型、描述規則以及常用模式就成為了抽取數值知識元的重難點。

二、基本定義

定義1:知識元。不可再分割的具有完備知識表達的知識單位??煞譃槊枋鲂椭R元和過程型知識元[2]。

定義2:數值知識元。以數值形式存在,且數值有意義、有價值、可供分析的知識單元。

數值知識元有不同的類型。在經濟建設領域,依據知識元描述對象的層次可分為宏觀數值知識元(如某地區或行業發展的數值知識)和微觀數值知識元(如某經濟組織市場經營的數值知識)[3]。

三、研究綜述

關于知識元已有一部分學者進行了研究,主要是從知識元的理論、技術以及應用方面展開探討。

(一)知識元的概念及類型研究

弗拉基米爾·斯拉麥卡指出,知識的控制單位將從文獻深入到其中的數據、公式、結論等最小的獨立的“數據元”,這是有記載的關于知識元概念最早的定義[4]。趙紅州學者最先從科學計量領域提出知識元這一概念,即“能夠用數學公式表示的科學概念”,并以“知識單元”計量為基礎,導出科學指數增長定律[5]。溫有奎在《知識元鏈接理論》中提出,知識元是構造知識機構的基元,是可獨立使用的最小單位[6]。柳長華叫冬知識元定義為知識系統中可以表達一個完整概念的不可再分解的最小知識單位;文庭孝等認為知識元應該是在知識管理中可以自由切分、表達、存取、組織、檢索和利用知識的基本知識單位[8];劉新提出一個能相對獨立并且準確表述知識的內涵以及外延的知識單元就是知識元[9];畢經元認為知識元是對知識進行存儲、共享與引用的最小單位[10]。

至于知識元的分類,溫有奎將其分為描述型知識元和過程型知識元[2]。原小玲認為,知識元可以分為理論與方法型知識元、事實型知識元和數值型知識元n;。王延章則分成了對象知識元(客觀事物實體)、屬性知識元(客觀事物實體的特征描述)和屬性映射關系知識元(對對象知識元內部屬性狀態相互作用關系的描述)三個類別[12]。

雖然上述文字表示各有不同,但大體大同小異。由于語義的復雜性,不同維度有不同的分類,目前尚無唯一標準。

(二)知識元的抽取技術研究

比較常用的知識元抽取方法主要是基于文本結構的方法和基于規則的方法兩種類型。

1.基于文本結構的方法

柳長華分析了中醫古籍文獻的知識結構、內容特點,在以知識元為核心的中醫古籍計算機知識表示方法上進一步制定了標引規范,用古籍整理的方式進行知識元的抽取與標引,取得了良好的效果[5]。姜永常等提出了基于文本物理結構和邏輯結構的抽取方法,先分析文本的物理結構,以此來建立文本的邏輯結構,抽取標題、小標題、段首、段尾、引文等作為向導信息,從而為知識元的抽取指明方向[13]。鄭彥寧、化柏林從自然語言處理的角度介紹知識元抽取的流程[14]。

2.基于規則的方法

典型代表是蔣玲提出的。她先對文本進行分句,提取向導信息以構成主題句集合,然后建立各屬性知識元的句法模型(即提取規則),將主題詞和提取規則相結合進行句法匹配,得到具有該句法的知識元描述候補句后再根據句法模型來確定各知識元屬性[15]。

此外,溫有奎認為實現數值知識元的抽取是建立知識元庫的先導和基石。他開發出了一套數值知識元抽取軟件,能從年鑒、網頁文本中自動抽取數值知識元并將抽取結果自動存人庫中[2,16-17]。肖洪和薛德軍則詳細描述類從海量年鑒文本中抽取宏觀數值知識元的具體流程以及主要算法,得出了在特定領域內將數值知識元抽取提高到可用水平是可行的這一結論[3]。

(三)知識元的應用研究

1.在檢索方面的應用

為了解決檢索查全率、查準率不高的問題,可以將對文獻知識單元的控制深入到知識元層次上來。CNKI就是一個比較成熟的例子。清華大學于1995年創辦了《中國學術期刊》,發展成為現在的中國知識基礎設施工程,即CNKI工程。目前,CNKI已擁有多個知識元庫,可以實現基于知識元的學術定義搜索、數值知識元搜索、圖形表格搜索等等[18]。

2.在應急事件處理中的應用

陳雪龍構建了知識元模型,給出了知識元屬性間關系的隱性描述方法,為突發事件的應急管理提供了知識支持[19]。仲秋雁等通過抽取情景共性要素及要素關系來形成情景原模型,認為這有利于幫助計算機進行情景模擬,輔助決策行為并提供應對基礎[20]。

3.在古籍處理方面的應用

肖懷志提出可以利用基于歷史本體而建立的語義關聯來聚集相關年份歷史知識元[21],游章才在知識元語義分析的基礎上,探討了中藥“性一效一證一癥一病”知識元間的內在聯系[22]。除此之外,還有學者通過抽取、構建知識元來嘗試分析古籍中概念不明知識元的含義。

上述研究表明,隨著認知理論的不斷發展以及自然語言處理能力的提高,對文獻正文內容進行抽取與挖掘正得到逐步重視[23]。本文試圖對年鑒中數值知識元的類型進行歸納總結,初步構建描述規則,以期為后續自動和半自動知識抽取提供參考借鑒。

四、研究方法

(一)研究的數據與素材

為了對年鑒中數值知識元的類型進行歸納總結,本文試圖從圖書情報領域關鍵詞表中識別數值術語表并以此為依據對文本進行識別。但由于數值的特殊性,幾乎沒有文章將數字總結為關鍵詞,因此從關鍵詞表中識別數值術語表是不可行的。本文轉而將重點放在了對數字以及量詞的識別上,總結了量詞表達的125種模式,并輔以《中華人民共和國行政區劃簡冊》對年鑒文本進行抽取識別。以《2015年中國信息年鑒》為例,從全文當中共識別出3413條包含有數值的句子,將這些句子融合清洗以及匯總后,嘗試進行規則的識別與構建。

(二)流程與方法

首先讀取年鑒全文,將所有包含有數值的句子抽取出來,然后剔除一些雖含有數值,但數值無意義且不可被分析的句子,隨后利用中文分詞軟件和圖書情報領域關鍵詞表進行分詞,借助量詞表以及行政區劃簡冊對句子中的命名實體進行過濾清洗,形成句子的線性結構,例如,“據統計/…數據顯示:…”、“預計…比例達到…比例升至…”得到句式結構之后,人工進行校對查重,判定不同數值知識元的類型并歸納總結,以形成數值知識元描述規則。

在上述篩選過濾過程中,有以下兩點需要注意。

1.無意義數值的過濾

雖然都是含有數值的句子,但是其中有很多并不具有知識意義,因此需要從數值知識元當中剔除,包括以下幾種情況:(l)數字編號。例如“1.電子元件百強企業”、“2.平板顯示龍頭企業”等,雖然含有數值,但缺少主謂賓結構,不能獨立的表達知識的概念;(2)特定名稱。例如“2014海峽兩岸光通信論壇”、“315晚會”、“《關于加快發展生產性服務業促進產業結構調整升級的指導意見》(國發[20]4]26號)”等,數值只是作為數字進行標記,不具有實際意義;(3)機構名稱。例如“人社部門12333民生服務平臺”、“12306中國鐵路客戶服務中心”等等,數值只是用來命名,無法進行進一步的分析;(4)其他類型。例如“3D技術”、“《物流業發展中長期規劃(2014-2020)》”、“包頭熱線電話96200”、“國內首款智能電視SoC芯片Hi3751”、“360°景區全景觀賞”等。

2.命名實體的過濾

命名實體一般是指一些具體或抽象的客觀實體,例如人、組織、地點等,可以是人名、組織名、機構名、地名等,也可以是時間、數量的表達式等形式,常是數值知識元的描述對象。命名實體識別的實際上就是從文本中發現出命名實體,并確定其類別的過程。命名實體的識別一般要經歷下面兩個階段:在進行分詞的同時,標注出詞表中已經收集的命名實體;在此基礎上,調用構建好的命名實體識別模型,對文中的尚未標記出的命實體進行識別。在進行命名實體的識別時,要結合實體自身的構成信息,合理地使用先驗知識,根據實體所在的上下文對其的約束作用來進行識別過濾。在年鑒中,基于年鑒的特點,要在機構特征詞中增加一些地域名特征詞(如“居委會”、“村公所”)并去掉一些行政機關名稱(如“委員會”、“統計局”),因為此類機構常常是發布單位,不適合作為數值知識元的主體。

五、研究結果

(一)引用型數值知識元

引用型數值知識元是指在擺出數據時,通過事實說話,所有數值都有可靠來源??梢酝ㄟ^“據…統計…”等描述規則來抽取,也可以通過“…指數為…”來抽取。

(二)比率型數值知識元

比率型數值知識元是指所有的數值都是以比率的形式呈現的,在描述過程中必定會出現百分比。除此之外,還包含各類型的比率,比如覆蓋率、普及率、增長率等等。

(三)總結型數值知識元

總結型數值知識元就是指將數據進行匯總后統一發布的知識元,描述規則比較簡單,如下所示。

(四)時間型數值知識元

時間型數值知識元是指側重點在于時間的知識元,通常是在某一特定時間范圍內所發生的事情。

(五)排名型數值知識元

排名型數值知識元是指對數值主體進行排名的知識元。在進行排名型數值知識元的識別時,量詞形式大多限定在“位”與“名”這兩個詞之間,因此只要將這兩個量詞識別出來,就可以把大部分的排名型數值知識元識別出來。

(六)對比型數值知識元

對比型數值知識元是指將同類型或不同類型的數值進行比較,從而得到有效信息。在句式上可以分為一對一和一對多。

(七)消息型數值知識元

消息型數值知識元是最常見的數值知識元,通常為六元組形式,是指將事實用敘述的方式呈現出來的知識元,如“2014年全國制作完成的國產電視動畫片為278部、1.17萬集、13.86萬分鐘?!钡捎谙盗魁嫶蟆热莘睆颓揖哂须S意性,很難將其描述規則具體化,所以只能從表達模式上對其進行識別。

依據中文數值的表達習慣,本文將消息型數值知識元的文字表達總結為如下3種模式,重難點在于如何識別指標、謂詞和其他文本的區別。而實現這一重難點的關鍵技術則在于中文自動分詞和詞性標引。

(1)模式1:指標十謂詞十數值+單位

例:“全國高新技術產業增加值比上年增長23.5%”

(2)模式2:謂詞+指標+數值+單位

例:”醫院共有醫生526人”

備注:模式2同時也處理無謂詞的“指標+數值”模式。

(3)模式3:謂詞+數值+指標+單位

例:“全年全社會建筑業上繳2002億元稅金”

六、討論與展望

本文通過人工與機器相結合的方法,將數值知識元的表達形式分為引用型、比率型、總結型、時間型、排名型、對比型和消息型七種類型,并給出了詳細實例。這些分類以及描述規則希望能對后續數值知識元的抽取技術有所幫助。

研究中發現,雖然都是運用數值來表達知識,但不同句式以及數值的排列組合能表達出的意思千差萬別,句子的復雜程度以及描述規則也不盡相同。需要特別注意的是,雖然數值知識元有不同的類別,但一個句子中往往可以同時包含多個類型的數值知識元,比如"2014年,全國兩化融合發展總指數達為66.14,比2013年增長4.19,但仍只處于世界中等水平”就同時包含了引用型和對比型數值知識元。

本文研究還存在較多不足之處。一方面,本文選取的文本局限性較強,僅分析了年鑒當中的數值知識元表達形式。年鑒由于自身文本特征的局限性,大多采用了規范化的語言進行描述,而中文博大精深,由于語言的復雜以及各學科論文文體的差異性,總結出的規則覆蓋度不高,不適用于所有類型文檔。另一方面,沒有針對數值知識元抽取的測試集,抽取出來的結果難以評測且無具體評估標準。后續研究可以增加原始語料的規模并構建測試集,發現更具有普適性的數值知識元描述規則。

參考文獻:

[1]溫有奎,計算機檢索中的情報取樣與濾波分析[J].情報學報,1993,(1):87.

[2]溫有奎,徐國華,賴伯年,等知識元挖掘[M].西安:西安電子科技大學出版社,2005:171,177-183.

[3]肖洪,薛德軍.基于大規模真實文本的數值知識元挖掘研究[J].計算機工程與應用,2008,44(30):150-152,222.

[4]高國偉,王亞杰,李永先,我國知識元研究綜述[J].情報科學,2016,34(2):161-165.

[5]趙紅州,唐敬年,蔣國華,鄭文藝.知識單元的靜智荷及其在荷空間的表示問題[J].科學學與科學技術管理,1990,11(1):37-41.

[6]溫有奎,徐國華.知識元鏈接理論[J].情報學報,2003,22(6):665-670.

[7]柳長華.基于知識元的中醫古籍計算機知識表示方法[C].第三屆國際傳統醫藥大會文集,2004:240-241.

[8]文庭孝.知識單元的演變及其評價研究[J].圖書情報工作,2007,51(10):72-76.

[9]劉新,王泰森,學習型知識元數據庫鏈接理論研究[J].圖書館學研究,2009,(11):25-28.

[10]畢經元,基于web2.0的知識元鏈接網絡系統ID],杭州:浙江大學,2010:24-25.

[11]原小玲.基于知識元的知識標引[J].圖書館學研究,2007,(6):47-49.

[12]王延章.模型管理的知識及其表示方法[J].系統工程學報,2011,26(6):850-856.

[13]姜永常,基于知識元的知識組織及其系統服務功能研究[J].情報理論與實踐,2007,(1):37-40.

[14]鄭彥寧,化柏林.句子級知識抽取在情報學中的應用分析[J].情報理論與實踐,2011,(12):5-8.

[15]蔣玲.面向學科的知識元標引關鍵技術研究[D],武漢:華中師范大學,2011:36-37.

[16]溫有奎,溫浩,徐端頤,等,基于知識元的文本知識標引[J].情報學報,2006,25(3):282-288.

[17]溫有奎,文本知識元標引[C]第十九屆全國計算機信息管理學術研討會,宜昌,2005:59-66.

[18]盧城曉,基于知識元檢索的知識相關度研究[D]南京:南京大學,2012:16.

[19]陳雪龍,董恩超,王延章非常規突發事件應急管理的知識元模型[J].情報雜志,2011,(12):21-30.

[20]仲秋雁,等,基于知識元的非常規突發事件情景模型研究[J].情報科學,2012,30(1):115-120.

[21]肖懷志,李明.基于本體的歷史年代知識元在古籍數字化中國的應用[J].圖書情報知識,2005,(3):28-33.

[22]游章才,等.基于中藥“性—效—證—癥—病”知識元關聯探討“澀味”的內涵[J].四川中醫,2010,28(8):54-57.

[23]化柏林.學術論文中方法知識元的類型與描述規則研究[J].中國圖書館學報,2016,42(221):30-40.

主站蜘蛛池模板: 色哟哟国产精品| 在线五月婷婷| 欧美综合区自拍亚洲综合绿色 | 日本久久网站| 亚洲日本www| 欧美视频在线播放观看免费福利资源 | 国产三级韩国三级理| 精品国产女同疯狂摩擦2| AV天堂资源福利在线观看| 日韩天堂网| 久久国产精品嫖妓| 99久久国产综合精品2023| 国产精鲁鲁网在线视频| 狠狠色丁香婷婷| 国产乱子精品一区二区在线观看| 欧美精品伊人久久| 欧美亚洲国产精品第一页| 亚洲国产精品国自产拍A| 日本精品视频一区二区| 久久无码免费束人妻| 波多野结衣在线se| julia中文字幕久久亚洲| 美女免费黄网站| 久久久噜噜噜| 成人在线不卡| 日本高清在线看免费观看| 国产精品久久久久久久久久久久| 无码免费视频| 天堂av综合网| 毛片视频网址| 亚洲第一天堂无码专区| 国产精品亚洲精品爽爽| 国模粉嫩小泬视频在线观看| 性视频一区| 国产H片无码不卡在线视频| 亚洲永久视频| 日本道中文字幕久久一区| 午夜天堂视频| 亚洲欧洲国产成人综合不卡| 国产国语一级毛片在线视频| 成人在线观看不卡| 成人福利在线观看| 色偷偷av男人的天堂不卡| 国产在线拍偷自揄拍精品| 国产欧美日韩免费| 99在线观看精品视频| 亚洲精品午夜无码电影网| 亚洲国产欧美自拍| 日韩国产另类| 欧美啪啪网| 丰满人妻久久中文字幕| 中文字幕欧美成人免费| 国产手机在线小视频免费观看| 美女亚洲一区| 久久6免费视频| 青青青国产免费线在| 久久国产精品娇妻素人| 91成人在线免费观看| 99这里只有精品免费视频| 久久精品国产电影| 欧美成人午夜在线全部免费| www.av男人.com| 久久天天躁狠狠躁夜夜躁| 亚洲精品亚洲人成在线| 9999在线视频| 高清码无在线看| 波多野结衣AV无码久久一区| 99re视频在线| www精品久久| 国产精品xxx| 精品久久蜜桃| 亚洲第一天堂无码专区| 美女视频黄频a免费高清不卡| a毛片免费在线观看| 欧美一级高清片欧美国产欧美| 亚洲第一极品精品无码| 波多野结衣一区二区三区四区| h视频在线观看网站| 国产精品林美惠子在线播放| 中文字幕永久视频| 激情综合网激情综合| 999国内精品久久免费视频|