999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的自然語言處理和傳輸技術研究

2023-12-31 00:00:00賀鑫
電腦迷 2023年16期

【摘" 要】 隨著信息技術的飛速發展,各類信息技術及應用軟件層出不窮,越來越多的人開始利用電腦進行工作。但由于沒有專門的計算機技術,一般人很難和這個系統進行互動并得到一些有用的信息。近年來,人們對信息技術進行大量的理論和實驗研究,并對其進行深入的探討。本文探討了基于機器學習的自然語言分析方法。針對該問題,本項目擬研究一種新的詞嵌入向量構建方法,將現有詞匯矢量與現有詞嵌入向量集進行整合,從而得到一個更好的詞嵌入向量集。

【關鍵詞】 機器學習;自然語言處理;傳輸技術

隨著信息技術的飛速發展,其已經能夠將資料以不同的方式上傳、傳遞與利用。據微博2022年用戶發展報告統計,2022年總營收18.36億,而目前的9月,月活躍用戶數為5.84億、日均活躍用戶數為2.53億。這樣便捷的信息交流與分享方式,正在為人類的生存帶來一場革命。比如人們可以在家上網學習,或者在網上進行遠距離工作和購物。但是,由于缺少專門的計算機技術,一般人很難和這個系統進行互動,從而得到一些有用的信息。而且,在現實生活中,許多問題并不是單純地統計運算就能得到解答的,因此,對數據的分析與處理提出了更高的要求。近年來,人們對計算機技術進行大量的理論和實驗研究,并對其進行深入探討。為了適應人類對自然語言理解的要求,各種新的方法被提出。

一、研究意義

(一)詞嵌入學習

詞嵌入技術在名稱實體識別、詞性標、信息檢索和文本分類等多個自然語言處理領域具有非常重要的應用前景,已有的研究主要基于大規模語料中單詞的空間分布,通過訓練獲得單詞內嵌的向量集合。例如,從谷歌新聞語料中進行學習,獲得word2Vec向量集,從維基百科(Wikipedia Body)和英語 Gigaword (英語)語料中進行學習,獲得Glo Ve (Glo Ve)向量集,基于魯特英語新聞數據庫,Mnih等通過對HLBL向量集合進行學習而獲得。通過對不同神經網絡進行建模,通過對向量集的分析,可以獲得對詞匯特征的不同刻畫,從而對詞匯特征進行分類。因而,充分發揮詞向量集合間的互補作用,實現對詞向量集合的一體化學習成為可能,也是必然的。

(二)英語學習系統中的個性化推薦方法

隨著計算機技術的發展以及互聯網的普及,使在線教學成為可能。隨著在線教學資源數量的增加,可供選擇的教學內容越來越多。針對每一位使用者所使用的資訊,因其層次與利益之差異而有所差異。因此,如何在浩如煙海的網絡環境下,針對不同的使用者特征,為使用者提供適合自己的、有針對性的教學素材是有待解決的問題。目前,推薦方法大致可以分為三大類:以內容為基礎的推薦、協同過濾的推薦、復合的推薦。在此基礎上,提出一種新的面向對象的個性化推薦算法。本文研究基于用戶個性化的在線課程推薦算法,以提供一種針對學生個體需要而制訂個體化電子課程的適應性產生方法,并利用協作篩選技術,通過對相同用戶的使用習慣進行有效資源推薦,提出一種基于社會網絡中朋友信息的推薦方法,這兩種方法結合在一起。同時,在個人興趣、人際興趣相似性和人際影響力的基礎上,給出一種基于個人興趣、人際興趣相似性和人際影響力的個性化推薦算法。

二、國內外研究現狀

(一)詞表示技術現狀

自然語言與符號有著緊密的聯系,一句話是由許多字的符號構成的,一段文字或對話也是由許多字的符號構成的。所以,對自然語言的理解就建立在對這些標志的認識之上。在傳統的計算語言學中,研究人員采用的是本地表達,這個辦法用非常稀疏的高維向量來表達一個符號。這個向量的尺寸與這個系統的數目相等,一般為幾十萬或幾百萬個。對于一群正負號D,一個本地代表把正負號D內的正負號對應成一個正負號Rn內的正負號 ei,這里n為正負號的正負號。所以,i個單元矢量代表i個正負號。而局部表示法則是對這些符號進行變換的一種十分直觀和便利的方法,但是,隨著字符個數的增加,區域表達的有效性會降低。同時,這種本地化表達方式也不能很好地表達出符號間的關系。與局域表達法相比,分布式表達法是在測度空間上用密集的向量來表達符號。分散表現的信息以多個要素的形式分配,其中的每一個要素都對總體的信息作出貢獻。與傳統的局域表達相比,分布式表達更具優勢,即更加高效,能夠充分反映測度空間中各要素之間的差異。目前,針對大規模文本數據,提出三種新的詞匯內嵌算法:矩陣化算法、帶窗算法、整體對數—回歸算法。矩陣分解法通過對數據進行低秩逼近,對數據進行有效的降維處理,以獲取數據中的數據。該研究可分為兩類:一類是基于隱語義的語義解析,另一類是基于超空間的仿真語言。該算法采用“詞—文件”的模式,每行都有一個詞或者一個詞,每個欄都有一個詞。與此相反,超空間模擬語言采用“詞—詞(term-term)”類型的矩陣,也就是行和列與一個給定詞語和另一個給定詞語出現在同一情境中的次數相對應。基于隱語義的研究以及基于跨空間的語言關聯研究,存在著一些高頻詞匯所包含的信息不多等問題。舉例來說,“the”這個詞與“and”這個詞經常同時使用,但它們之間沒有任何聯系。

(二)在線學習中的推薦技術現狀

按照推薦方式,推薦系統主要有三種類型:基于內容的推薦方法、協作過濾方法和混合方法。在此基礎上,提出一種新的智能產品推薦算法。如利用神經網絡對參考文獻進行推薦,按照使用者的需要建議該內容。比如提供一種卷積神經網絡(current negative model)模型,其用于識別目標用戶的消費意向。在社會網絡中建立一個以用戶之間的聯系為基礎的推薦系統。該復合式建議系統綜合以上兩項技術,如提出一種將個人興趣、好友興趣相似度和人際影響力等因素綜合起來的個性化推薦系統。按照建議的內容,網上的教育建議體系主要有:閱讀資料建議、單詞建議等。在知識工程的基礎上,提出一種以讀者的個人喜好和能力為讀者推薦閱讀資料的方法。在這一點上,還給出一種個體化的手機閱讀資料的推薦方式,這種方式是將使用者的閱讀喜好進行采集,然后在手機上向使用者提供與使用者的喜好和能力相一致的閱讀資料。

三、基于詞嵌入向量集和語義知識庫的集成學習方法

(一)集成詞嵌入學習方法

正如前面提到的,不管是整合多個詞嵌入向量集合,還是引入附加的語義知識庫,都能夠充分發揮不同的詞語嵌入向量集合的優勢,從而產生出更高的詞嵌入向量集合。在本節中,將引入一種綜合模式 EGM,可以將多個字內嵌向量集合與一個意義知識基結合起來。本項目提出的融合算法要求:在融合空間中,目前單詞在融合空間中的詞矢量盡量接近該單詞在融合空間中的詞向量。在整合空間中,當前單詞與該單詞在該知識基中有著類似情境的單詞與單詞矢量類似。在此,單詞的背景是單詞與其在一個意義上的知識基礎有聯系的單詞。本文對詞嵌入向量集及詞匯間的關聯進行了初步研究。在此基礎上,提出從詞嵌入向量集中提取詞匯的方法,同時提出一種基于 EGM的綜合模式學習算法(如圖1)。

(二)實驗所用數據集

這一部分將描述該整合模式所需的資料組,其中包含兩個部分,分別為詞嵌入向量集與字語義關系知識庫。其中,提出的詞嵌入向量集:該模式采用的開放來源單詞內嵌向量集合有HLBL18、GloVel17。HLBL向量集的一個訓練模式是一個具有一定概率的線性神經網絡模式,該算法給出一個ngram,然后根據n-1個字的詞向量來預測后面一個字的詞向量。在此基礎上,將所預測的詞語與目前的真實詞語間的相似度轉化為一種可能性。共有246122個單詞,每一個單詞有100個單詞,一個單詞的單詞矢量為RCV1(Renters英語新聞1996.081997.08)作為一個訓練詞匯。本文提出一種新的詞嵌入向量集的訓練方法,即將詞嵌入向量集的局部與整體特性結合起來形成詞匯矢量的神經網絡模型。在此基礎上,提出一種基于焦點詞及其語境的分類方法,并將其分類為一分,將焦點詞及其語境的分類方法轉化為一分,最終的總得分是兩項得分之和。

四、基于樹匹配的語法問題檢索方法

(一)語法MCQ檢索問題分析

題目由一題干組成,四道選擇題,其中只能選擇一道題的正確答案。在題目中,用“*”標記出空白區域,即必須填寫的地方。舉例來說,在Qi的題目主語是“The w ai tess* we thougltdeservres aS ervice Qualityawad has esignel.”而A項中的“wlom”才是Qn的正確選擇。問:“ whon?”是什么意思?將題目后面的話補全,使之成為“The w aitres wlomwe thought deserves a Service Quality aw and has les igned.”本文提出的基于文法的MCQ檢索方法,可提供兩種形式的MCQ,即不完備的和完備的。本文提出的文法MCQ搜索方法,旨在尋找與其所要搜索的MCQ有類似文法知識的文法問題。

(二)語法問題檢索系統框架

這一章提供兩個MCQ的形式:僅有題目;包括題目、選項和正確答案。在未完成的情況下,基于 MCQ問題的題目干,產生一個新的parekey樹。在此基礎上,提出一種基于POS分類的聚類算法,并采用基于模糊聚類算法的聚類算法(如圖2)。最終,利用聚類分析方法對 MCQ進行分類。若使用者填寫全部問題,則會依據所提供之信息,以提升搜尋的精確性。首先,在產生parse-hey前,把正確的答案填充到題目中,使它成為一句話。接著,一個完全的查詢就會在此全句的基礎上產生一個關鍵字。在此基礎上,對兩種不同類型的問題進行回答相似度分析,其中回答相似度包括單詞嵌入相似度、單詞類型相似度以及文字相似度。

(三)parse-key 樹的構建

人們發現現有的樹構建無法表達文法 MCQ中的文法知識要點,為此,本文給出一種新的基于parse-key樹的構建方法。所提出的包括一個文法樹的一個子樹和一個位置信息。與完整的句法樹比較,采用子樹形的句法樹可以有效降低噪音的干擾,同時,保持句法樹所要求的句法樹的特點。根據題目中的空白對文法的理解程度有很大影響,把空白的空間位置信息嵌入到“子樹形”中。在討論如何構造parse-key樹以前,要先來看一下構造parse-key樹需要的兩個要素:文法樹和單詞空白距離。另外,匹配算法。在前一部分,討論如何構造parse-key樹的構建。在 MCQ中,采用pars-key樹的構建表達文法中的知識要點。在本節中,將給出兩個用于計算parse-key樹間的結構相似性與順序相似性的核子——模糊樹與 POS排序核子。

五、結語

總之,本文著重對機器學習進行探討,在NLP領域,本項目將研究一種新的基于整合詞匯的語義表達方法,并將其推廣至多個NLP領域。同時,在自然語言信息傳遞方面,本項目將研究利用深度神經網絡進行信息傳遞的方法,并從多個角度對天然信息處理中的問題進行深入探討。今后,還會有更多的研究。在此基礎上,通過分析不同類型的文本、句法等文本中所蘊含的語義、語義等特點,設計具有較強魯棒性的文本自動生成算法。在未來研究中,還可以結合自然語言自身的特點,設計更具針對性的傳輸模型。

參考文獻:

[1] 葉莉莉,陳亞盛. 基于自然語言處理和機器學習的長期股權投資分類模型[J]. 管理會計研究,2022(05):12-19.

[2] 王思麗,劉巍,楊恒,等. 基于自然語言處理和機器學習的實體關系抽取方法研究[J]. 圖書館學研究,2021(18):39-48.

[3] 濮澤堃. 基于機器學習的電商評論情感分析系統[D]. 南京:南京郵電大學,2020.

[4] 楊夕. 基于融合學習模型的文本描述刑事犯罪行為自動分類的研究[D]. 南寧:廣西師范大學,2020.

主站蜘蛛池模板: 国产中文一区a级毛片视频| 国产在线小视频| 伊人大杳蕉中文无码| 日韩成人免费网站| 99精品一区二区免费视频| 国产草草影院18成年视频| 久草视频中文| 19国产精品麻豆免费观看| 天堂va亚洲va欧美va国产| 欧美人在线一区二区三区| 亚洲欧美日韩综合二区三区| 超清无码熟妇人妻AV在线绿巨人| 成人蜜桃网| 日本影院一区| 91一级片| 54pao国产成人免费视频| 一本一道波多野结衣av黑人在线| 热久久综合这里只有精品电影| 热99re99首页精品亚洲五月天| 无码网站免费观看| 国产精品久久久久无码网站| 99久久国产综合精品2020| 成人福利在线看| 在线播放国产一区| 日本高清免费不卡视频| 91久久国产热精品免费| 成人av专区精品无码国产| 国国产a国产片免费麻豆| 国产亚洲日韩av在线| 国产视频大全| 99福利视频导航| 精品国产成人av免费| 91在线精品免费免费播放| 青青青视频免费一区二区| 亚洲国产在一区二区三区| 一级一级一片免费| 国产在线观看人成激情视频| 久久天天躁夜夜躁狠狠| 国产人免费人成免费视频| 女高中生自慰污污网站| 无码专区在线观看| 日韩亚洲综合在线| 欧美在线综合视频| 91无码网站| 亚洲视频在线青青| 免费欧美一级| 国产亚洲精品97在线观看| 久久国产香蕉| 国产高清无码第一十页在线观看| 美女无遮挡拍拍拍免费视频| 91国内在线视频| 亚洲网综合| 91在线中文| 亚洲视频三级| 亚洲av日韩av制服丝袜| 久久一本精品久久久ー99| 国产高颜值露脸在线观看| 香蕉综合在线视频91| 日韩毛片在线视频| 免费看一级毛片波多结衣| 高清不卡一区二区三区香蕉| 老色鬼欧美精品| 亚洲色精品国产一区二区三区| 亚洲欧美日韩天堂| 黄色网站不卡无码| 国产69精品久久久久孕妇大杂乱| 日本一区二区三区精品国产| 亚洲欧洲国产成人综合不卡| 国产成人精品亚洲77美色| 99激情网| 日本爱爱精品一区二区| 亚洲激情区| 亚洲天堂777| 亚洲不卡无码av中文字幕| 国产91无码福利在线| 在线人成精品免费视频| 日韩欧美国产综合| 色综合久久无码网| 国产在线欧美| 青青热久免费精品视频6| 亚洲欧洲自拍拍偷午夜色无码| 日本道综合一本久久久88|