999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言處理技術在中高職課程銜接中的應用

2015-12-22 07:40:37申玫徐寧趙曉玲
職業教育研究 2015年11期
關鍵詞:船舶中職文本

申玫 徐寧 趙曉玲

(青島遠洋船員職業學院 山東 青島 266071)

自然語言處理技術在中高職課程銜接中的應用

申玫 徐寧 趙曉玲

(青島遠洋船員職業學院 山東 青島 266071)

在中高職課程銜接的實際中,存在著中高職專業設置不對口、專業課程內容重復等問題。為了選擇對口專業及查找重復課程,采用人工手段對教育教學文件進行分析研究,效率低、精確性差。而使用計算機自然語言處理技術對中高職教學文件中的文本數據進行分析,可以快速獲得中高職相關專業之間的相似度及專業課程內容之間的重復度,為課程設置提供科學依據。將自然語言處理技術用于青島遠洋船員職業學院“船舶工程技術”專業中高職課程銜接問題上,對相關文件進行分析,得到合理的結論。

中高職銜接;自然語言處理技術;課程設置

中高職教育課程銜接主要存在兩個方面的難題:其一,中高職教育沒有實行專業歸類對口招生報考制度,造成中高職專業設置的對應關系不明確,各院校自行選擇對接專業,造成很多中職專業在升高職時不對口。其二,中高職專業課程內容重復,使中職畢業生升入高職時重復學習相同的課程內容。

在我國,中高職課程銜接仍然依賴于專家經驗。對口專業的判斷及重復課程的篩選是通過對“人才培養方案”和“課程標準”等文本文件的內容進行人工分析。面對多個專業,每個專業數十門課程,采用人工分析,工作效率低,專業的對口程度和課程重復程度難以精確的衡量。為了科學高效地進行中高職課程銜接,不能僅僅依賴經驗和人工分析,而應該運用計算機技術,對各院校多年積累的課程數據文件進行深入分析研究,使中高職課程銜接方法具備精確性和實用性。如何讓計算機對“人才培養方案”和“課程標準”等文本文件進行自動識別分析是科學高效進行中高職課程銜接的關鍵。

自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬于人工智能的一個分支,是計算機科學與語言學的交叉學科,又常被稱為計算語言學,是計算機科學領域與人工智能領域中的一個重要方向。 自然語言處理技術可以實現文本分類聚類、文本自動摘要、機器翻譯、檢索系統、問答系統、人機交互等諸多功能,其中重要的一項任務就是文本相似度分析。文本相似度分析最為著名的應用案例之一是搜索引擎,如谷歌、百度等,人們能通過輸入文字來查找相關的新聞等網絡資源,另外,在檢測學術論文是否抄襲方面文本相似度也有其關鍵技術的應用。所謂文本相似度計算是指利用計算機自動計算文本間的相似程度,文本相似度是表示兩個或多個文本之間相似程度的一個度量參數,相似度大,說明文件相似程度高,反之文件相似程度就低。

本文運用自然語言處理中的文本相似度算法對中高職課程相關的文本數據進行分析,能夠快速地找出中高職對口專業,指導課程銜接方案的合理設置。

一、自然語言處理中的文本相似度算法

文本相似度度量任務就是衡量兩個文本之間語義相似的程度,是自然語言處理中一個非常重要的任務。常規的文本相似度度量方法是將文本轉化詞匯的集合,分析每個詞在單個文本中出現的次數以及在整個語料庫中出現的次數,進而利用每個文本的詞頻信息構建為一個向量,并利用向量間的余弦相似度或Jaccard相似度等方法計算文本之間的相似度。圖1顯示了文本相似度算法的主要流程。

圖1 文本相似度算法流程圖

(一)預處理

計算機可以快速地計算出兩列數組之間的相似度,也可以分析出兩個矩陣之間的相似度,但對于兩篇文本來說,相似度的計算要相對復雜。因為,文本是非結構化的數據,數據挖掘的算法要應用到文本對象之上,就必須對文本進行預處理,使其結構化,即將文本轉化為數組或向量。對于中文文本的預處理技術主要包括中文分詞和停用詞過濾兩個方面。

1.中文分詞技術

中文文本與英文文本不同,詞與詞之間沒有空格,讀者閱讀時要根據經驗和語言知識來自行分詞。因而,計算機對于中文的處理相對于以英文為代表的西文處理存在更大的難度。現有的分詞方法主要有:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。對于分析者來說,自行開發中文分詞算法難度較大,目前有很多開源的軟件和在線工具都可以完成分詞工作,如Jieba、SCWS、中科院張華平開發的ICTCLAS、武漢大學沈陽開發的ROSTCM等。

2.停用詞過濾

在文本處理中,有一些詞出現頻繁但意義不大,為了提高文本的分析速度和精度,須將這些詞忽略。比如,“的”、“在”、“是”等幾乎是中文文本中出現頻率最高的詞,這類詞對文本相似度的計算會產生不良的干擾。對于這類問題的解決,可以利用現有的“中文停用詞表”將這些詞進行過濾刪除。但是較為精確的方法是計算文本中每個詞的TF-IDF值,將TF-IDF值為0的詞刪除。

TF-IDF是用來評估某一詞匯對于一個文件集或一個語料庫中的其中一份文件的重要程度的統計方法。詞匯的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。比如,“船體的認識”被分詞后變成 “船體”、“的”、“認識”,其中“的”是停用詞,而“船體”和“認識”這兩個詞在計算文本相似度中的重要程度是不同的。“船體”這個詞較為專業,“認識”這個詞較為普通,在中高職院校的教學文件中幾乎每篇都會出現 “認識”這個詞。當某個詞在所有文本中都會出現,那么,它對文本相似性也就沒有貢獻了。

(二)基于余弦相似度的文本相似度算法

經過預處理之后,兩篇文本被轉換為兩份詞匯表數據,分別用向量D1(n)和D2(m)來表示,其中n和m表示兩表中詞匯的數目。文本相似度工作就是計算分析D1(n)和D2(m)的相似度。具體步驟如下:

(1)將兩份詞匯表中重復多次的詞合并,并將兩份詞匯表匯總成一個總詞匯表,用向量A(p)表示,其中p表示詞匯的數目,p≤m+n。

(2)計算A(p)中的詞在D1(n)和D2(m)中出現的次數,分別用向量B1(p)和B2(p)表示。

二、中高職課程銜接文本數據來源

近年來,中高職教育銜接是我國教育領域的研究熱點,各級教育部門頒發了一系列文件,如《教育部關于推進中等和高等職業教育協調發展的指導意見》、《國家中長期教育改革和發展規劃綱要(2010—2020 年)》、《山東省中等職業學校教學指導方案》等。在進行文本相似度分析時,要合理選擇相關文本進行研究。本文所選的數據來源有以下兩個方面:

判斷對口專業的文本文件主要有:地方教育部門或行業指導委員會制定的各專業教育教學指導性文件,如《山東省中等職業學校教學指導方案》或各中高職院校制定的《人才培養方案》。中等職業學校專業教學指導方案是中等職業學校專業建設和專業教學的基本指導文件,內容包括教學計劃和各門課程的課程標準。人才培養方案是人才培養的總體設計,反映著一個學院人才培養的指導思想和整體思路,關系著學院人才培養的內容、途徑和質量。

衡量專業課程內容重復情況的文本文件主要有:地方教育部門、行業指導委員會或院校制定的人才培養方案和課程標準。其中課程標準是指規定某一學科的課程性質、課程目標、內容目標、實施建議的教學指導性文件,是衡量課程內容重復度的主要依據。

三、實例分析

青島遠洋船員職業學院是一所高職院校,其船舶工程技術專業,在面對機械制造技術、焊接技術應用、電氣運行與控制等多個中職專業的畢業生時,如何能對口接收并進行合理的課程設置,是學院開展中高職教育銜接的關鍵。

(一)選擇對口專業

根據教育部頒發的 《中等職業學校專業目錄》(2010年修訂),將山東省教育廳開發的6個中職專業(船舶建造與維修、焊接技術應用、機械制造技術、機電技術應用、電氣運行與控制、旅游服務與管理)的教學指導方案與青島遠洋船員職業學院“船舶工程技術專業”人才培養方案進行文本相似度分析,得到數據結果,如圖2所示。

圖2 中、高職培養方案文本余弦相似度對比圖

通過對人才培養方案進行文本相似度分析,可以看出,高職“船舶工程技術”專業的三個方向“船體”、“輪機”和“電氣”,與6個中職專業的相似程度各不相同:與“船體方向”對口的中職專業,按相似度依次為“船舶建造與維修”、“焊接技術應用”、“機械制造技術”;與“輪機方向”對口的中職專業,按相似度依次為“船舶建造與維修”、“機電技術應用”、“機械制造技術”;與“電氣方向”對口的中職專業,按相似度依次為 “船舶建造與維修”、“機電技術應用”、“機械制造技術”、“電氣運行與控制”。

本文選擇“旅游服務與管理”作為與其他專業對比的參考專業,與船舶工程技術三個方向均不對口,相似度極低,與生活常識相符合。

(二)判斷重復課程

中高職對口專業經常會出現課程內容重復的問題,專業對口程度越高,其課程重復的可能性就越大。通過分析課程標準的文本相似度,可能得到課程內容的重復程度,從而指導課程安排和課時分配,避免中職學生升入高職后重復學習。

圖3以中職“船舶制造與修理”專業與高職“船舶工程技術”專業船體方向為例,將4門高職課程分別與9門中職課程進行了文本相似度分析。為了直觀判斷出中職課程與高職課程之間的相關度,將高職的任一課程與所有中職課程對比繪制成折線圖,如圖2所示。將高職機械設計、電工基礎、結構制圖、修造工藝這4門課與中職9門課程進行比較,可以得出以下結論。

圖3 高職與中職專業課程相似度圖

第一,高職機械設計課程與中職各課程相似度均不高,說明課程內容沒有重復;第二,高職電工基礎課程與中職各課程相似度均不高,說明課程內容沒有重復;第三,高職結構制圖課與中職船舶識圖課的相似度非常高,說明課程內容重復;第四,高職修造工藝課與中職船舶建造與修理課的相似度非常高,說明課程內容重復。

通過對每門課程的“課程標準”的文本相似度進行分析,可以準確快速地得出各門課程重復程度,對與中職課程重復程度高的高職課程,如“結構制圖”和“修造工藝”等應考慮免修或適當減免學時。

運用自然語言處理技術,分析文本文檔、為課程設置提供可靠依據,在中高職教育課程銜接領域是全新的嘗試。本文通過使用自然語言處理技術,對中高職銜接相關教育教學文件進行文本相似度分析。通過青島遠洋船員職業學院的實驗驗證,這種方法可以定量地對中高職教育銜接時對口專業進行篩選,以及對重復課程進行判斷,取得了良好的分析效果,具有較強的科學性和應用性。

將自然語言處理引入中高職教育銜接領域,可以充分利用現有的教學文件數據,提高各項教育教學決策的速度和準確性,促進了職業教育水平的整體提高。隨著自然語言處理技術的不斷發展,通過計算機可以高速地對海量數據進行分析,這些數據不僅包括院校原有的教育教學文檔,還包括行業發展趨勢、社會人才需求等文本數據,并自動生成適應社會發展情況的“人才培養方案”、“課程標準”等教育教學文檔,從而實現教育決策的“人工智能”。

[1]顧曰國.自然語言語義、語義自動化處理與知識本體——寫在“知識本體”專號前面的話[J].當代語言學, 2013(2):127-128.

[2]金希茜.基于語義相似度的中文文本相似度算法研究[D].杭州:浙江工業大學,2009.

[3]沈斌.基于分詞的中文文本相似度計算研究[D].天津:天津財經大學,2006.

[4]張華平.語言淺層分析與句子級新信息檢測研究[D].北京:中國科學院研究生院,2005.

[5]黃承慧.一種結合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機學報,2011,34(5):856-864.

[7]鄧澤民.《中等職業學校專業目錄2010年修訂》解讀[J].中國職業技術教育,2010(16):22-25.

(責任編輯:王璐)

Application of Natural Language Processing Technology in Cohesion Between Secondary and Higher Vocational Education Curriculum

SHEN Mei,XU Ning,ZHAO Xiao-ling
(Qingdao Ocean Shipping Mariners College,Qingdao Shandong 266071,China)

There are many problems in cohesion between secondary and higher vocational education,such as specialty mismatch and course content duplication.In order to solve these problems,manual work is adopted to analyze education documents,which has low efficiency and poor accuracy,while natural language processing technology is used to analyze the documents,similarities between specialties and repeat-ability between courses can be quickly obtained,which can provide a scientific basis for curriculum.In this paper, natural language processing technology is used to analyze education documents of Qingdao Ocean Shipping Mariners College,and the result shows that it is reasonable.

cohesion between secondary and higher vocational education;natural language processing;curriculum

G712

A

1672-5727(2015)11-0060-04

申玫(1984—),女,青島遠洋船員職業學院船舶與海洋工程系講師,研究方向為船舶與海洋工程教學和研究。

2013年交通運輸職業教育教學指導委員會科研項目“船舶工程技術專業群中高職教育課程銜接研究”(項目編號:2013B40)

猜你喜歡
船舶中職文本
計算流體力學在船舶操縱運動仿真中的應用
《船舶》2022 年度征訂啟事
船舶(2021年4期)2021-09-07 17:32:22
船舶!請加速
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
淺談中職英語教育三部曲
散文百家(2014年11期)2014-08-21 07:17:08
果真是“誤了百萬中職生”嗎?
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
構建中職生成才通道的思考
河南科技(2014年11期)2014-02-27 14:17:57
主站蜘蛛池模板: 精品人妻无码区在线视频| 91精品情国产情侣高潮对白蜜| 亚洲综合一区国产精品| 九色在线视频导航91| 精品国产成人高清在线| 国产日韩欧美中文| 国产国语一级毛片在线视频| 丁香综合在线| 亚洲a级在线观看| 欧美色图久久| 欧美国产三级| 在线国产你懂的| 一区二区偷拍美女撒尿视频| 中文字幕在线一区二区在线| 高清免费毛片| 在线国产欧美| 欧美在线综合视频| 久久精品一品道久久精品| 亚洲久悠悠色悠在线播放| 中文国产成人久久精品小说| 亚洲欧美不卡| 亚洲精品综合一二三区在线| 国产黄色片在线看| 亚洲天堂高清| 欧美午夜小视频| 国产永久免费视频m3u8| 久久鸭综合久久国产| 波多野结衣久久精品| 五月天福利视频| 成年人福利视频| 日韩精品少妇无码受不了| 午夜福利网址| 一区二区在线视频免费观看| 无码粉嫩虎白一线天在线观看| 野花国产精品入口| 丁香婷婷激情网| 久久久久国产精品熟女影院| 成年人国产网站| 亚洲丝袜第一页| 欧美激情二区三区| 亚洲国产亚综合在线区| 日本欧美在线观看| 高h视频在线| 五月天久久婷婷| 国产精品开放后亚洲| 午夜色综合| 国产免费a级片| 久青草国产高清在线视频| 四虎永久在线精品国产免费| 国产一级片网址| 国产一级二级在线观看| 久青草免费在线视频| 久久国产成人精品国产成人亚洲| 亚洲最新在线| 国产欧美在线视频免费| 久久99久久无码毛片一区二区| 91色国产在线| 亚洲国产欧美国产综合久久| 欧美在线国产| 狠狠亚洲五月天| 日本尹人综合香蕉在线观看| 日韩午夜伦| 99色亚洲国产精品11p| 欧美午夜小视频| 亚洲人在线| 一级毛片在线免费看| 日韩免费成人| 国产电话自拍伊人| 日韩精品专区免费无码aⅴ| 一本色道久久88| www中文字幕在线观看| 国产成人高清精品免费软件| 97se亚洲综合在线天天| 毛片免费在线视频| 国产99视频在线| 国内丰满少妇猛烈精品播| 一级在线毛片| 久久久久中文字幕精品视频| 国产成人精品一区二区三在线观看| 国产成人凹凸视频在线| 精品视频福利| 99久久精品免费视频|