999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學習資源的語義眾包標注系統設計 *

2016-09-06 01:27:12丁國柱余勝泉
中國電化教育 2016年9期
關鍵詞:語義概念資源

丁國柱,余勝泉,潘 升

(1.北京師范大學 教育學部 教育技術學院,北京 100875;2.“移動學習”教育部—中國移動聯合實驗室,北京 100875)

學習資源的語義眾包標注系統設計 *

丁國柱1,2,余勝泉1,2,潘 升1,2

(1.北京師范大學 教育學部 教育技術學院,北京 100875;2.“移動學習”教育部—中國移動聯合實驗室,北京 100875)

語義標注是Web3.0環境下學習資源組織方式的基礎和前提。目前學習資源的語義標注多是通過本體對文檔的實體進行識別和標注,一般揭示的是顯性的、有確定規則的知識,對人文性學科中蘊含情境性、文化性特征可多元解釋的隱性知識揭示不足,針對目前這個問題,該文提出基于眾包的學習資源語義標記的思路,充分利用人的集體智慧,解決海量學習資源的復雜多元語義標注問題。研究以學習元平臺為支撐,構建基于眾包的語義標注系統,通過社會信任計算和關聯詞匯判別過濾機制進行質量控制,實現學習資源中隱性知識的標注,通過實驗證明基于眾包能夠有效解決人文性學科中的隱性知識標注。

語義標注;眾包;學科資源;學習元

一、引言

語義標注是指為文檔添加規范化知識表示的過程[1],是實現文檔機器可讀的重要途徑,也是學習資源語義檢索、資源庫轉向知識服務等應用的關鍵環節。雖然目前已有不少機器自動處理的辦法來實現語義標注,但一些學科特別是人文社會類學科的實例具有動態變化的特點,一些知識實例存在的隱性關聯是機器難以自動處理的,如語文學科中的人文性知識是動態發展的,而且具有一定的主觀性,單純靠機器來實現語義標注比較困難,特別是隱性知識存在情境性,受文化、民族傳統甚至宗教的影響,機器標注的正確率低;而依賴少數專家的人工標注則存在巨大的人力和時間成本,需要其他方式來解決這個問題。眾包利用互聯網將工作分配出去[2],利用群體的智慧完成工程巨大的任務。利用眾包來解決機器難以完成的部分學習資源的語義標注是一個值得研究的課題。

二、研究現狀

語義標注的本質是實體識別和實體標注,即基于本體對文檔中的實體進行提取,并對實體進行標注,從而使得計算機可以理解文檔的內容。目前語義標注的方法主要有自動化標注、半自動標注、手工標等類型[3],自動標注有基于機器學習的方式(Machine Learning-based)、基于模式的方式(Patternbased)和綜合方式(Multi Strategy,結合機器學習和模式方式);半自動標注結合了自動標注和手工標注兩種方式,有助于提高標注的準確性。標注工具方面,手工工具有SHOE Knowledge Annotation;半自動工具有SMORE、MnM、Melita、Semantic Word等,自動化工具有AeroDAML等[4]。總的來看,語義標注包括如下幾個方面:(1)實體標注,實體標注是指將某個實體指向為本體中的某個概念(或稱為類),即建立實例和概念的關聯,其形式化表示為(I,rdf:type,C),其中I表示實例,C表示概念;(2)實體關聯,實體關聯則是基于本體中的對象屬性建立2個實例的關系,形式化表示為(I1,R,I2),其中I1、I2為2個不同的實例,R為對象屬性;(3)實體屬性標注,即標注一個實體的XML數據類型信息,如人的出生日期、身高等,形式化表示為(I1,R,d),其中I1為實體,R為數據屬性,d則是XML數據類型的相關數據;(4)新增概念,當一個實例要標注的概念系統未記錄時,這個概念就是新增的概念,可以納入本體中;(5)新增概念關系,即增加本體中的對象屬性;(6)新增概念屬性,即增加本體中的數據屬性。

對于學習資源而言,合理的語義標注可以實現資源聚合、語義檢索、資源推薦等應用,然而當前語義標注方法多是針對顯性知識進行標注,對隱性知識的標注能力不強,如“廉頗老矣”簡單四字,卻涉及了歷史、情感和隱喻,機器往往難以標注全面,因此現實中很大一部分學習資源的標注還是要依賴于人工。

基于眾包對信息進行標注可以追溯到Web2.0時代,如圖片分享網站Flickr的Folksonomy,用戶群體將照片貼上標簽并且以此來組織圖片資源;眾包的標志性成果則是路易斯·馮·安開發的reCAPTCHA,完成紙質書的數字化[5];利用同樣的原理Sophia等開發faceCAPTCHA,完成性別標注[6];研究者設計了一款基于眾包的游戲Foldit,僅用了三周時間,玩家就解決了一個艾滋病方面的難題[7],而這個難題已經困擾了科學家15年;也有學者利用眾包來構建情感詞匯[8],構建詞匯聯想網絡[9]等。此外亞馬遜、愛立信、華為等500強企業也以各種方式利用眾包,讓群體智慧為自己的企業解決部分難題。從已有的研究來看,眾包至少有3個特點:(1)問題轉化:將機器難以處理的任務轉化成人類可以完成的任務;(2)化整為零:將一個巨大的任務分成數量較大的小任務,這些小任務分配下來后用戶可以較輕松完成;(3)聚合群體智慧:對于每一個任務而言,互聯網中個體的簡單行為(如創建、投票、瀏覽)可以看成是一個微小N維向量,一定數量用戶的行為產生的向量之和則可以產生足夠的影響力;即單獨個體的行為與智能簡單有限,但相當數量的個體行為相互作用可以形成巨大的智慧。

從眾包的特點來,眾包可以充分利用人本計算(Human-based Computation),將人視為計算資源,即基于網絡的分眾性和協同性,利用人的智慧來完成計算機難以做好的事情。因此利用眾包來完成學習資源語義標注,可以解決學習資源隱性知識的語義標注問題。

三、基于眾包的學習資源語義標注模型

建構主義認為知識的獲取過程來自于他人(包括教師和學習伙伴)的幫助,他人知識的顯性化可以促進個體的認知。學習資源的標注可以看成是個體知識顯性化的過程。當標注活動成為群體行為時,可產生知識共享與協同知識建構,與此同時也解決了學習資源的語義標注問題。具體實現步驟如下:(1)任務分配:根據學習內容與用戶特征將任務分配下去;(2)用戶參與機制:學習管理系統的目標是為了促進用戶的學習,因此應該設計合理的機制,使得用戶在完成學習任務的過程中自然地完成標注任務;(3)群體智慧的聚合:利用聚合算法實現用戶參與結果計算,使得大量用戶相對無序的工作變成智慧的產物。基于上述步驟,本研究構建了基于眾包的語義標注模型,如圖1所示。基于眾包的學習資源語義標注主要包括任務分配器、語義標注工具、眾包質量控制機制三個部分。

圖1 基于眾包的語義標注模型

(一)眾包任務分配器

“學習活動”通過支持教學方法、教學策略、教學活動的重用,在教學層面上實現了教育過程與活動的高水平共享[10][11]。網絡學習環境下,教學目標的達成可以由一系列的學習活動組成,通過恰當的教學策略與方法,設計和實施有效的學習活動,促進學生與教師之間、學生與學生之間的交流,使得學生積極地投入到網絡學習中,實現知識的習得與內化。因此“活動”是學習設計的重要載體,如課堂/小組討論、問題解決、角色扮演等,可以將學習資源的語義標注任務轉化為學習活動,既促進學習者的學習,也實現學習資源的語義標注。語文學習中大量的知識需要學生進行構建和關聯,通過學習活動讓學生建立相關的知識關聯,一方面可以促進學生的知識內化,教師也可以發現學生的認知缺陷,進而有針對性地指導學生;另一方面也可以利用學生的智慧完善語義標注。如圖2所示,教師發布語義標注的學習活動,學生參與學習學動,進而構建更完整的知識體系,而教師也可以根據學生完成情況進行個性化指導,基于學習活動的任務分配可以取到一舉多得的效果。

圖2 基于學習活動的任務分配

(二)用戶參與機制設計

當一個語義標注任務分配下來后,相關群體需要一個適合的語義標注工具來完成任務。考慮到參與人員大部分是普通的教師,用戶對語義這個概念的了解程度比較有限,可以利用一些輔助工具來降低語義標注的難度。語義標注包括的實體標注、實體關聯、實體屬性標注、新增概念、新增概念關系、新增概念屬性等內容,其本質來看都是描述事物A、事物B和2者關系R的三元組,標記為<A,R,B>,故最簡單的辦法可能是讓用戶直接填充這個三元組,然后再通過算法識別是哪一個類型的語義標注。因此一個完整的語義標注工具包括了用戶前端標注和標注后端分析。

用戶前端標注,本文使用了兩種用戶標注方法,一是直接填充三元組法:通過三個文本輸入框,讓用戶直接填充知識,如右圖3所示;二是構建個人知識圖譜法:通過圖像界面,顯示知識點與知識點之間的關系,通過構建個人知識圖譜完善語義標注。如圖4所示。

圖3 利用直接填充三元組法實現語義標注

圖4 利用知識圖譜實現語義標注

用戶完成語義標注后,具體標注類型還是未知的,系統可以通過算法進行分類。具體算法如下:

(1)一個語義標注<A,R,B>,若B為概念,R為是、是一個、為、是一類、類型是、類型等類別詞匯,同時A不屬于一個概念時,則<A,R,B>為實體標注。如標注<劉禹錫,是,唐朝詩人>,唐朝詩人在系統中已作為一個關鍵概念存在,而劉禹錫不是概念,則這個語義標注為實體標注,將劉禹錫標注為一個實體,并作為唐朝詩人的一個實例。

(2)一個語義標注<A,R,B>,若A和B都不是概念,同時A和B是分別或者同時是某個概念的實例,則<A,R,B>為實體關聯。如標注<李白,創作,靜夜思>,李白和靜夜思都不是概念,而分別屬于唐朝詩人和唐朝詩詞的實例,那么這個標注為實體關聯。

(3)一個語義標注<A,R,B>,若A為某個概念的實例,B既不是實例也不是一個概念,則<A,R,B>為實體屬性標注。如<杜甫,字,子美>,杜甫為唐朝詩人的實例,子美在系統中不是實例也不是一個概念,那么這個標注可以視為屬性標注,即將“字”作為杜甫的一個屬性。

(4)一個語義標注<A,R,B>,若A為某個概念的實例或者A不是實例也不是一個概念,R為是、是一個、為、是一類、類型是、類型等類別詞匯,B在系統中沒有對應的概念,則<A,R,B>為新增概念。如標注<杜甫,是,現實主義詩人>,已知杜甫是唐朝詩人的實例,而現實主義詩人在系統中沒有作為一個概念存在,現實主義詩人就作為一個新增的概念加入系統。

(5)一個語義標注<A,R,B>,若A是一個概念,B在系統中沒有對應的概念,同時B有其他關系連接,則<A,R,B>為新增概念關系。如標注<司馬遷,創作,史記>,系統中<司馬遷,是,史學家>的記錄,同時也有<史記,被譽為,“史家之絕唱,無韻之離騷”>,此時可以把“創作”這個作為史學家的一個概念關系。

(6)一個語義標注<A,R,B>,若A是一個概念,B在系統中沒有對應的概念,同時B沒有其他關系連接,則<A,R,B>為新增概念屬性。如標注<衛青,字,仲卿>,衛青是西漢大將軍,而仲卿則未有其他節點與之關聯,則可以將“字”視為大將軍的一個屬性。

(三)群體智慧的聚合

互聯網環境下,參與眾包的用戶量巨大,需要有效的匯聚群體智慧的機制。本文參考王蓉博士的群體認知聚合模型算法[12], 從兩個方面進行語義標注聚合計算:一是個體標注的疊加效果計算,如多個用戶都標注了相同的語義信息;二是群體對語義標注聚合結果實施的行為表現出來的認可程度,如瀏覽、投票次數等,對每個標注Wi聚合算法如下:

其中:Wit為t時刻標注W的權重;Wit-1為t-1時刻標注W的權重;d為時間衰減因子;R為當前標注的可信度;y為投票權重系數;V為對W的投票人數;z 為瀏覽權重系數;L為瀏覽過W的人數。

根據算法,用戶信任評價、投票、瀏覽參數的設定決定了群體智慧的價值取向和群體智慧進化方向,當一個學習資源的標注的聚合程度超過一定閥值時,可以認為圍繞這個學習資源形成了一個群體認知。其中R表示的標注可信度是能否有效促進學習資源語義眾包的關鍵,本文從社會信任評估和機器判斷2個方面進行可信度計算,公式如下:

基于社會信任評估機制。利用開放知識社區中的信任評估模型[13],系統為每個用戶建立信任評估值UT,對于對每一條語義標注信息,用戶可以投贊成或者反對票。算法如下:

其中,f(x)為具體一條語義標注信息可信度,UTn為具體投票用戶的可信度,K表示用戶的意見,投贊成票時為1,反對票為-1。當f(x)值超過系統預設的閥值時,可以認為這條語義標注信息可信,可以存入語義數據庫。

基于Word2vec進行關聯詞匹配判斷。語義標注本質上是把學習資源中的關鍵知識通過三元組進行表示,每一個三元組都可以看成是描述主語和賓語之間的關聯,理論上主語和賓語之間存在一定的共現概率。當一個新的三元組被錄入時,可以通過分析和主語一起相關詞匯,按照關聯度可以幫助判斷這個語義標注的準確性。Word2vec是Google在2013年發布基于深度學習的自然語言處理開源工具[14],Word2vec可以將詞匯表征為向量,核心思想是將語料庫作為訓練集,把對文本內容的處理簡化為K維向量空間中的向量運算,因此可以利用word2vec來計算詞與詞之間的相似度,進而實現語義標注的質量控制。算法流程如下表所示。

基于深度學習的本體進化質量控制算法表

四、基于學習元平臺的語義眾包實驗

為驗證系統對特定學科語文語義標注效果,以學習元平臺(Learning Cell System,簡稱LCS)[15]作為支撐,基于人教版初中語文課本中的《孔子語錄十則》,要求學生完善儒家相關知識,驗證結合學科知識本體和眾包機制對學習資源進行語義標注的質量,運行時間為1個月。

(一)實驗對象

本次實驗選取某初級中學七年級學生43人作為實驗對象,實驗前已對學生進行了語義標注的相關操作培訓。

(二)實驗過程

1.任務描述

《孔子語錄十則》的教學目標之一是“積累成語、格言、警句等,了解儒家相關諸子百家信息,并能用儒家的思想指導自己的言行”。這節課含有較多的人文性知識——儒家思想是中國傳統文化的核心之一,從孔子和儒家展開,可以呈現波瀾壯闊的中國傳統文化。學生通過了解儒家相關的知識,進行語義標注,實現知識共享與構建。

2.實驗過程

(1)以人教版初中七年級語文課程《孔子語錄十則》為基礎,學生學習相關學習資源,包括中國傳統文化、儒家經典欣賞、百家爭鳴和儒家思想形成等;

(2)教師基于教學目標,針對每個學習資源發布語義標注任務;

(3)學生在學習元平臺上閱讀相關課程內容;

(4)學生完成語義標注活動。

3.實驗結果分析

(1)語義標注結果分析:學生使用三元組標注和構建個人知識圖譜法,一共生成了134條三元組;系統對語義標注的情況進行質量控制,包括用戶投票和利用Word2vec進行機器判斷,其中一共有6833條用戶投票記錄,其中贊成票6703條,贊成比例為98%,反對票130條,反對比例為2%;Word2vce方面針對134條三元組,一共生成1356條候選詞匯,其中有236條記錄關聯詞匯被確認相關;最終有126條記錄存儲進了語義數據庫。

(2)隱性知識標注分析,134條標注中有48條人文性知識,集中在儒家相關名言上,如<儒家,名言,“三人行,必有我師”><“三人行,必有我師”,表示,要善于向其他學習>,不單揭示圍繞《論語十則》的隱性知識,還表現出學生對知識的理解。

六、結論與展望

學習資源的語義標注是構建學科知識庫的重要環節,本研究提出結合學科知識本體和眾包解決學習資源語義標注問題的方法,本方法可以利用人類計算(Human Computation)解決學科知識中的蘊涵的大規模隱性知識的語義標注問題,為深層次的學科知識庫構建提供了一種新思路。本研究不足之處是體智慧匯聚還需探討更有效的算法,以確保群體智慧可以有效匯聚,同時在調動用戶參與眾包上的獎勵機制還可改進,如何設計高效有用的用戶激勵機制是眾包成功的關鍵。因此,本文的后續工作是針對學習社區群體,研究更有效的學習者智慧匯集算法,設計有吸引力同時相對低耗的激勵機制,讓更多的用戶參與語義標注,為實現學科知識本體的進化打下基礎。

[1] 荊濤,左萬利等.中文網頁語義標注:由句子到RDF表示[J].計算機研究與發展,2008,(7):1221-1231.

[2] 杰夫·豪(JEFF HOWE).眾包:群體力量驅動商業未來[M].北京:中信出版社,2011.

[3] 邱均平等.國內外語義標注研究進展分析[J].情報理論與實踐,2014,(5):12-16.

[4] 王傳清,畢強.數字圖書館自動化語義標注工具系統模型研究[J].現代圖書情報技術,2014,(6):17-24.

[5] Von Ahn,Luis,Benjamin Maurer,Colin McMillen,David Abraham,and Manuel Blum.recaptcha:Human-based character recognition via web security measures[J].Science,2008,(321):1465-1468.

[6] Kim,Jonghak,Sangtae Kim,Joonhyuk Yang,Jung-hee Ryu,and KwangYun Wohn.Facecaptcha: a captcha that identifies the gender of face images unrecognized by existing gender classifiers[J].Multimedia Tools and Applications,2013,(72): 1-23.

[7] 胡昭陽.眾包科學:網絡傳播語境下的公眾參與創新[D].合肥:中國科學技術大學,2015.

[8] 邰陽,基于眾包的語料標注系統設計與實現[D].大連:大連理工大學,2013.

[9] 丁宇,車萬翔,劉挺,張梅山.基于眾包的詞匯聯想網絡的獲取和分析[J].中文信息學報,2013,(3):100-106.

[10] 楊現民,余勝泉.開放環境下學習資源內容進化的智能控制研究[J].電化教育研究,2013,(9):83-88.

[11] 余勝泉,楊現民.辨析“積件”“學習對象”與“學習活動”——教育資源共享的新方向[J].中國電化教育,2007,(12):60-65.

[12] 王蓉,劉妍妍,陳禹,方美琪.社會性群體協作學習環境中的認知聚合研究[J].信息系統學報,2010,(1):65-75.

[13] 楊現民.泛在學習環境下的學習資源進化研究[D].北京:北京師范大學,2012.

[14] Tomas Mikolov.Word2vec project[EB/OL].https://code.google.com/p/ word2v,2015-12-06.

[15] 余勝泉,楊現民,程罡.泛在學習環境中的學習資源設計與共享——“學習元”的理念與結構[J].開放教育研究,2009,(1):47-53.

The Annotation of Learning Resources Based on Crowdsourcing

Ding Guozhu1,2, Yu Shengquan1,2, Pan Sheng1,2
(1.School of Educational Technology, Faculty of Education, Beijing Normal University, Beijing 100875; 2.The Joint Laboratory for Mobile Learning, Ministry of Education-China Mobile Communications Corporation, Beijing 100875)

Semantic annotation is the foundation and precondition of learning resources organization which based on Web3.0. But there are little paper Focus on the annotation of tacit knowledge. In this paper, we put forward a new way to solve this problem by crowdsourcing which can make full use of human computation to work out the magnanimity learning resources’ tacit knowledge. further on ,we created a crowdsourcing based semantic tagging system based on LCS, via vote by the user and the machine for quality control, realized tacit knowledge during the learning resources by the above work and to prove based on crowdsourcing can e ff ectively improve the quality of the annotation of learning resources by experiment.

Semantic Annotation; Crowdsourcing; Subject Learning Resources; Learning Cell

G434

A

丁國柱:在讀博士,研究方向為知識本體技術、計算機教育應用(laoding1982@qq.com)。

余勝泉:教授,博士生導師,研究方向為移動教育與泛在學習、信息技術與課程整合、網絡學習平臺關鍵技術、區域性教育信息化等(yusq@bnu.edu.cn)。

潘升:碩士,研究方向為研究方向為知識本體技術、計算機教育應用(ps199052@163.com)。

2016年6月13日

責任編輯:趙興龍

1006—9860(2016)09—0091—05

* 本文受北京市未來教育高精尖創新中心項目“智慧學伴平臺設計與開發”(項目編號:BJAICFFE2016DR-001)資助。

猜你喜歡
語義概念資源
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
基礎教育資源展示
一樣的資源,不一樣的收獲
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
資源回收
學習集合概念『四步走』
聚焦集合的概念及應用
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 欧美一区二区三区香蕉视| 日韩小视频在线播放| 黄色在线不卡| 久久综合干| 日本精品一在线观看视频| 这里只有精品国产| 国产免费精彩视频| 狠狠干欧美| 久久99蜜桃精品久久久久小说| 国产丝袜丝视频在线观看| 亚洲 日韩 激情 无码 中出| 久久精品人人做人人综合试看| 毛片免费观看视频| 亚洲欧美另类日本| 波多野结衣久久高清免费| 久久夜色精品国产嚕嚕亚洲av| 亚洲精品无码久久毛片波多野吉| 免费一级毛片在线观看| 久久综合亚洲色一区二区三区| av在线5g无码天天| 97国产精品视频人人做人人爱| 丁香五月激情图片| 久久精品视频亚洲| 色屁屁一区二区三区视频国产| 国产精品视频免费网站| 69国产精品视频免费| 国产成人精品免费av| 97视频精品全国在线观看| 国产不卡一级毛片视频| 免费视频在线2021入口| 欧美亚洲一区二区三区导航| 国产性精品| 天天综合网色中文字幕| 91系列在线观看| аⅴ资源中文在线天堂| 国产综合日韩另类一区二区| av大片在线无码免费| 日本在线视频免费| a毛片免费在线观看| 999国内精品久久免费视频| 99无码中文字幕视频| 亚洲综合激情另类专区| 亚洲无码高清免费视频亚洲 | 亚洲男人的天堂网| 天天综合网在线| 永久免费无码成人网站| 欧美在线综合视频| 欧美日韩一区二区在线播放| 久久无码免费束人妻| 国产精品污视频| 夜夜操国产| 欧美中文字幕在线视频| 狠狠五月天中文字幕| 久久综合五月婷婷| 亚洲最黄视频| 丝袜亚洲综合| 亚洲国产无码有码| 亚洲综合久久成人AV| 欧美人人干| 国产第一页亚洲| 成人伊人色一区二区三区| 国产一级特黄aa级特黄裸毛片 | 国产精品网址在线观看你懂的| 91亚洲国产视频| 国产特级毛片aaaaaaa高清| 无码高潮喷水在线观看| 精品1区2区3区| 午夜小视频在线| 99久久99这里只有免费的精品| 97国产在线播放| 国产精品福利社| 国产一在线| 久久久久无码精品| 中文字幕有乳无码| 先锋资源久久| 新SSS无码手机在线观看| 日韩激情成人| 免费一级毛片在线播放傲雪网| 国产激情第一页| 国产精品女熟高潮视频| 国产激情第一页| 亚洲人成网站18禁动漫无码|