何燁辛 谷 林 孫 晨
(1.西安工程大學計算機科學學院 西安 710048)(2.西安科技大學管理學院 西安 710054)(3.西安市閻良區新型農村合作醫療經辦中心 西安 710089)
人與計算機之間怎樣使用自然語言處理進行更高效的通信是在計算機技術應用領域和新一代人工智能應用領域中的一項重要研究。在現今互聯網海量數據中,如何高效地實現譬如信息抽取[1]、文本挖掘[2]、網絡輿情分析[3~4]、情感分析[5~6]等問題,是自然語言處理領域的研究方向。而這些問題的根本就在于如何篩選出有效的信息特征。程序編譯錯誤信息特征的提取可以廣泛應用于高校程序設計課程的學生錯誤類型的匯總與評價,教師可以熟練把握學生的錯誤方向,給予針對性的指導。高效的特征選擇方法有助于提升特征篩選的質量,目前現有的特征提取方法包含詞袋模型[7]、信息增益(Information Gain,IG)[8]、詞頻-逆向文件頻率模型[9~10](TF-IDF)模型以及神經網絡[11]等相關的特征提取方法。在傳統的文本特征提取方法中使用局限性較大,提取差異性較深,而神經網絡模型可提供更大的數據量和更高的維度,文本特征提取的精確度更好[12]。文獻[13]首先利用N-Gram算法進行特征項選取和統計權重,接下來再利用在網絡輿情領域的本體抽取轉換對相關原始特征項進行,然后再使用語義特征向量獲得Web文字的語義特性;文獻[14]針對文本特征提取輸入層中的變分自動編碼器設計了一種降噪機制,以減少噪聲干擾并提高模型的魯棒性和特征判別能力。……