999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談智能審核的技術與實踐

2023-04-24 21:29:15鞠傳森張守先李滿江
中國傳媒科技 2023年11期
關鍵詞:語義高質量智能

鞠傳森 張守先 李滿江

[1.大眾報業集團(大眾日報社),山東 濟南 250014; 2.半島都市報社,山東 青島 266071;3.濰坊北大青鳥華光照排有限公司,山東 濰坊 261061]

導語

新聞報道作為及時和準確地傳播信息的重要方式,對公眾有很大影響力,以前的人工新聞審核方法效率不高,難以滿足大量新聞稿高效準確審核的需要。人工審核也很難消除審核人員的主觀傾向,使新聞報道保持高度的客觀性和準確性。

隨著人工智能和深度學習技術的發展,基于機器學習和自然語言處理的新聞審核方法蓬勃發展。目前已經有了一些把人工智能應用于實際生產的場景,騰訊廣泛應用自然語言處理技術,實現棋牌游戲新聞自動審核,過濾不良信息,利用AI 技術輔助微信公眾號內容審核;字節跳動針對短視頻、直播內容的AI 審核系統;中國移動研發新聞自動審核系統,判斷新聞是否違規,輔助人工審核,這些產品將自然語言處理、深度學習等應用于新聞審核,實現了審核效率的大幅提升。

與規則和統計方法相比,基于深度學習的模型在文本表示和語義理解方面有顯著優勢,可以更好地判斷新聞稿的屬性。特別是BERT、GPT-2 和ERNIE 等預訓練語言模型,在長文本生成和分類等任務上達到了接近人工的效果。這為基于深度學習的新聞審核方法提供了重要的借鑒和支持。

為實現新聞審核的高效化、準確化和客觀化,這個項目提出一種基于ERNIE 等預訓練語言模型的智能新聞審核方案。通過大量高質量新聞數據集進行訓練,構建具有比較強判斷能力的審核模型。這個模型可以準確判斷新聞稿的主觀性、真實性和準確性等屬性,實現新聞審核過程的自動化。這個方案有較高的審核質量和效率,適合應用于真實場景。

這個項目提出使用AI 技術實現智能新聞審核,通過訓練獲得判斷新聞屬性的能力。相比人工審核,這個方法可以更高效和準確地判斷新聞稿,實現新聞審核的自動化,更符合實際應用的需要。這有助于提高新聞報道的客觀性和準確性。

1.相關工作

新聞審核旨在判斷新聞稿是否符合發布標準,其研究歷史悠久,早期工作主要基于規則和統計機器學習方法。如關鍵詞匹配和主題分類相結合的規則方法等。這些方法依賴規則和特征方程,效果較差。

隨著深度學習和神經網絡的發展,基于深度學習的新聞審核方法快速興起。采用CNN 判斷新聞主觀性,能夠達到83%的準確率。應用LSTM 判斷新聞屬性,取得較佳效果。這些方法證明,深度學習模型可以有效刻畫新聞文本的語義特征,判斷其屬性。

近年來,BERT、GPT-2 和ERNIE 等預訓練語言模型的提出,使模型具備較強的語義表示能力和生成能力。BERT 可用于文本分類和語言判斷,GPT-2 可生成連貫自然的長文本。隨著預訓練語言模型的發展,百度提出了面向中文理解的ERNIE(Enhanced Representation through Knowledge Integration)。ERNIE有較強的多樣性與更長的生成長度,這有利于新聞審核。基于ERNIE 的文本分類技術也已廣泛應用于新聞審核任務,表現優異。利用ERNIE Fine-tune 對新聞標題進行情感判斷,實現正負面分類,輔助新聞價值方向的審核。結果顯示,ERNIE 在該任務上的準確率達92%,優于BERT,另外,使用ERNIE 構建假新聞檢測模型ERNIE-DS,實現自動新聞真實性檢測,在多個數據集上的測試結果表明,ERNIE-DS 的ROC 曲線優于基于LSTM 和BERT 的模型,更適合假新聞的識別。ERNIE 通過整合詞匯語義和實體關系知識,文本表示能力更強。在新聞分類、事實檢測等文本分析任務上,ERNIE 精調后效果顯著,為構建自動智能新聞審核系統奠定了基礎。本項目在相關工作的基礎上,提出一種基于ERNIE 的新聞智能審核方案,通過新聞數據集的訓練實現新聞審核的自動化。

2.方案

本項目提出一種基于ERNIE 等預訓練語言模型的新聞智能審核方案。該方案主要由數據預處理、模型訓練和新聞審核三部分組成。

數據預處理是模型訓練的基礎。需要構建高質量、標準化的數據集供模型學習,涉及數據采集、清洗、標注等步驟。數據預處理階段,我們使用包含近3 年幾萬條新聞的大規模數據集。刪除了空文檔,過濾了近似重復的文章,去除了文檔中的非文本元素,如代碼、圖片等,用校對軟件糾正一定文字錯誤,按照標注規范,手工標注了新聞文章的屬性,如類別、情感傾向、真實性等,或先用程序自動標注,再人工檢查修正。檢查不同分類、情感屬性的樣本,確保數據集覆蓋廣泛,避免樣本分布偏差。對可能涉及隱私的文本內容做脫敏處理。選擇了其中上萬篇高質量新聞,并人工標注了其主觀性、真實性、準確性等屬性。其中部分作為訓練集,部分作為驗證集,部分作為測試集。

模型訓練是核心環節。針對特定業務,需要進行模型選擇、優化、調試等,最終得到滿足業務要求的審核模型。在模型訓練階段,我們采用ERNIE-TINY模型,其參數量較小但生成能力較強。模型輸入為新聞標題和內容,輸出為新聞屬性判斷,采用二分類交叉熵損失進行訓練。

新聞審核是產品交付的環節。將訓練好的模型集成到新聞編務流程,進行實時預測和結果輸出。在新聞審核階段,我們輸入待審核新聞稿的標題和內容,ERNIE 審核模型自動判斷其主觀性、真實性和準確性屬性。判斷結果為“通過”或“不通過”,從而實現新聞審核的自動化。整個審核過程無需人工干預,大幅提高審核效率。

本方案具有以下三點優勢:

(1)利用高質量新聞數據訓練,審核判斷準確性較高;

(2)基于強大的ERNIE 模型,審核效率顯著提高,實現自動化審核;

(3)支持判斷多種新聞屬性,更全面地實現新聞審核。

3.試驗

為驗證新聞智能審核方案的效果,我們進行了一些實驗。具體實驗如下:

數據集:使用的數萬篇高質量新聞數據集,其中部分作為訓練集,部分作為驗證集,部分作為測試集。訓練集用于模型的參數訓練,占數據集的最大比例(70%左右),通過訓練使模型適應任務,驗證集用于調優超參數,占數據集的較小比例(15%左右),訓練時不使用驗證集,但會定期在驗證集上評估模型,指導超參數選擇,測試集用于最終測試模型性能,占數據集更小比例(例如15%)。只在訓練結束后使用一次,給出模型在真實數據上的指標。要確保三者樣本同分布、相互獨立,以免過擬合。隨機采樣劃分同時考慮不同類別樣本的平衡。

評價指標:采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 分值評價模型的審核效果。準確率(Accuracy)預測正確的樣本數占全部預測樣本數的比例。反映模型判斷正確的概率,精確率(Precision)預測正確的正類樣本數占全部預測為正類的樣本數的比例,反映正類預測的可信度,召回率(Recall)預測正確的正類樣本數占全部正類樣本數的比例。反映模型找出正類樣本的能力。F1 分值綜合考慮精確率和召回率,計算公式為 F1 = 2PR/(P+R)。P 代表精確率,R 代表召回率。準確率直觀地反映整體判斷的正確率,召回率反映對正例的識別能力,F1 分值兼顧兩者,是對預測性能更全面的評估,例如當準確率很高時,可能預測為負的樣本過多,則召回率較低。綜合使用準確率、召回率和F1 評價,可以比較全面地評估模型在新聞審核任務上的表現。

實驗目的:驗證模型實現新聞審核自動化的有效性;判斷模型的審核效果是否達到較高水平。

實驗結果顯示,本方案的審核效果明顯優于規則匹配和統計機器學習模型,這證明ERNIE 模型在新聞屬性判斷方面具有顯著優勢。

綜上,實驗結果驗證了新聞智能審核方案可實現新聞審核的高效準確,達到較高水平。但個別屬性判斷仍需提高,需要更大規模的數據和模型優化來改進。這為模型進一步改進指明了方向。

4.討論

實驗結果表明,本項目提出的基于ERNIE 的新聞智能審核方案可有效實現新聞審核的自動化,審核效果達到較高水平,較好地彌補了人工審核的不足。該方案具有以下優勢:

(1)利用大規模高質量新聞數據訓練,審核判斷的準確性較高;

(2)基于ERNIE 等強大語言模型,審核效率顯著提高,實現自動化;

(3)支持判斷多種新聞屬性,更全面地實現新聞審核;

(4)相比LSTM 等模型,審核效果提高較大,更適合實際應用。

該方案不足之處在于:

(1)某些新聞屬性的判斷精度仍較人工審核差,特別是對新聞內容的理解;

(2)仍需人工干預新聞審核的結果,難以完全取代人工審核;

(3)需要更大規模的數據集和計算資源來進一步提高審核質量。

預訓練階段需要大規模集群進行模型參數預訓練,此時GPU 數量直接影響訓練速度。理想情況下需要數百甚至數千個高端GPU 進行并行化訓練,才能在合理時間內完成。微調階段同樣需要相當規模的GPU 集群,才能在大數據集上快速迭代優化模型。此時GPU 的并行計算能力也至關重要。存儲上需要高速存儲系統來存放大規模預訓練模型和新聞數據集,尤其是I/O 性能直接決定數據載入速度。模型服務階段也需要高性能服務器進行實時推理,確保服務響應速度。要實現新聞審核的產業化落地,建立具備千萬級樣本處理能力和高并發服務能力的AI 計算平臺是必要的,可以大幅提升模型效果和質量。此方面投入也是實現真正自動化審核的重要基礎。

綜上,本項目為新聞審核自動化和智能化作出積極探索,旨在減輕人工記者的工作壓力,提高新聞生產效率。但人工審核仍是實現高質量新聞審核不可或缺的一環,未來研究的重點將是:

(1)采集和標注更大規模高質量的新聞數據。構建高質量的大規模新聞數據集,是推動新聞智能審核技術進步的基礎。可以與新聞媒體合作,直接獲取第一手新聞稿件作為數據集來源,確保質量,嚴格質量審查,過濾低質量樣本,控制數據集質量,聘請專業編輯進行人工標注,標注新聞主題分類、真實性、情感傾向等多維屬性,對不同類型新聞的標注,如體育、娛樂、金融等垂直領域,確保標注覆蓋廣泛,先通過預訓練語言模型進行初步自動標注,再由人工進行檢查修正,提高效率。數據集要具有一定規模,理想目標是達到百萬級甚至千萬級樣本量,并會持續擴充。構建這樣海量、多域、豐富標注的新聞數據集,將大幅提升新聞審核模型的訓練效果,是智能新聞審核的基石。

(2)增強模型理解新聞語義和判斷屬性的能力。當前在新聞自動審核方面,自然語言處理模型對文本語義理解和屬性判斷的能力仍然有限,這束縛了審核效果。因此,進一步增強模型對復雜語義的理解能力,是推進新聞智能審核的關鍵所在。因此要構建含豐富語義標注的大規模新聞語料庫,提供高質量訓練數據,組合不同預訓練語言模型的優勢,提升語義表示的穩定性,引入外部知識圖譜,補充實體關系知識,增強對語境的理解,開發能捕捉文檔級語義關系的閱讀理解模型,而不僅是文本分類,加入注釋機制,支持模型對自身判斷提出解釋,便于錯誤分析與提高,通過這些方式的深入研究,建立對新聞語義和屬性更加穩健判斷的智能審核模型,將是推動新聞審核自動化的重要一環。

(3)人工審核與機器審核的有機結合,實現智能化與自動化相結合的高效新聞審核機制。實現真正高效且準確的新聞審核,還需人工智能與人類智慧的協同共治。將人工審核與機器審核優勢互補,形成有機配合機制,是實現智能化與自動化并重的重要途徑。具體來說,可以構建一套人機協同的新聞審核系統。首先,利用自然語言處理技術自動過濾掉一部分明顯不合規范的新聞內容;其次,人工編輯重點審查機器篩選出的可疑樣本,檢查誤判情況,同時標注樣本供機器學習;最后,利用編輯反饋不斷優化機器審核模型,逐步減少誤判。在該系統中,人工審核發揮經驗判斷與語義理解的優勢,機器審核發揮高效篩選與自動學習的優勢。兩者相互制約、相互促進、共同演化,最終構建一個高質量的新聞審核機制。未來,隨著機器審核能力的不斷增強,人工審核可以逐步減少投入,轉為監督模型訓練和決策核查,人機協作模式將不斷優化。實現人機互補的智能審核系統,仍是新聞審核進一步智能化和自動化的重要路徑。

結語

本項目提出一種基于ERNIE 的新聞智能審核方案。通過大規模高質量新聞數據集的訓練,構建了一種能夠自動判斷新聞屬性的審核模型。實驗結果表明,該方案實現了新聞審核的自動化與高效準確,達到較高的審核質量,較好地彌補了人工審核的不足。

該方案仍需進一步提高模型對新聞語義理解和屬性判斷的能力,需要更大規模的數據與計算資源來優化模型,提高泛化性。人工審核也是實現高質量新聞審核不可或缺的一環,人工參與技術支持的結合是未來新聞審核發展的重要方向。由于當前AI 模型對新聞語義理解還存在局限,可能會出現一定的誤判情況,導致純機器審核的準確率難以達到人工編輯的水平。因此靠全自動模式完成審核仍有困難,并且不同新聞單位的審核規則和偏好存在差異,如果直接應用統一的AI 模型,則不太能適應這些差異化需求,需要人工制定不同的審核方案, 即使訓練非常優秀的審核模型,實際應用中仍需人工檢查模型的判斷并核實誤報情況,要不斷完善模型,人在其中起監督作用。重大公共事件發生時,新聞報道具有很強的時效性和社會影響力,這時可能需要更多人工謹慎判斷以確保審核結果的準確性。從業務角度而言,純機器審核在公眾接受度上可能還有疑慮,設置一定人工干預可以增加結果公信力。

盡管智能審核技術取得了長足進展,但要實現新聞自動審核的廣泛應用,還面臨一定挑戰。首先是數據集規模不足的問題。高質量的標注新聞數據極為寶貴,目前公開的數據集規模有限,大約在十萬級,這會制約深度學習模型的效果。擴充質量可控的數據是關鍵所在。其次是對新聞語義理解的能力不足。新聞涉及的主題廣泛,語言表達復雜多樣。當前AI 模型對語義的表示與推理還達不到人類的水平。最后,不同客戶的審核需求各異,如何快速定制模型以適應不同場景也是一個難點。這需要在泛化能力與特定領域適配之間求取平衡。數據短板與對復雜語義的理解是阻礙新聞智能審核廣泛應用的兩大挑戰。業界仍需持續努力,才能實現真正意義上的自動化新聞審核。

本項目為新聞審核自動化與智能化的研究與應用作出有益探索。基于優化的數據與模型,新聞智能審核技術將達到更高水平,進一步改革傳統新聞審核模式,實現新聞生產的高效化與準確化。這將為構建信息時代的高質量新聞報道機制提供重要支撐。

猜你喜歡
語義高質量智能
堅持以高質量發展統攬全局
當代陜西(2022年5期)2022-04-19 12:10:12
高質量項目 高質量發展
當代陜西(2021年1期)2021-02-01 07:18:02
牢牢把握高質量發展這個根本要求
當代陜西(2020年20期)2020-11-27 01:43:10
語言與語義
“三部曲”促數學復習課高質量互動
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 日本不卡在线视频| 国产精品污污在线观看网站| 一本色道久久88| 三上悠亚精品二区在线观看| 99视频精品全国免费品| 亚洲色图欧美激情| 欧美日本在线观看| 久久九九热视频| 真实国产精品vr专区| 亚洲免费播放| 91在线播放国产| 黄色在线不卡| 婷婷激情亚洲| 国产99精品久久| 日本五区在线不卡精品| 99精品国产电影| 亚洲毛片在线看| 青青青国产在线播放| 久久五月天国产自| 国产精品不卡永久免费| 国产无人区一区二区三区 | 中文字幕天无码久久精品视频免费 | 色屁屁一区二区三区视频国产| 91亚洲免费| 伊人激情综合网| 亚洲第一视频网站| www.youjizz.com久久| www.日韩三级| 亚洲一区黄色| 91在线播放免费不卡无毒| 日韩在线中文| 国内精品手机在线观看视频| 精品视频免费在线| 国产最爽的乱婬视频国语对白| 在线免费观看a视频| 大陆精大陆国产国语精品1024| AV不卡国产在线观看| 欧美中出一区二区| 亚洲资源站av无码网址| 91娇喘视频| 国产成人乱码一区二区三区在线| 国产一在线| 欧美精品啪啪| 色爽网免费视频| 伊人蕉久影院| 亚洲三级a| 欧美亚洲一二三区 | 日本国产一区在线观看| 天堂久久久久久中文字幕| 亚洲国产精品日韩av专区| 最新国产在线| 亚洲av片在线免费观看| 亚洲欧美成人| 国产精女同一区二区三区久| 亚洲伊人久久精品影院| 91在线激情在线观看| 久久综合激情网| 91精品aⅴ无码中文字字幕蜜桃| 男女男精品视频| 玖玖精品在线| 亚洲成av人无码综合在线观看| 成人伊人色一区二区三区| 亚洲一区二区约美女探花| 亚洲一欧洲中文字幕在线| 国产成人精品免费av| 亚洲精品无码日韩国产不卡| 亚洲一区黄色| 亚洲精品日产精品乱码不卡| 亚洲第一区在线| 在线观看国产网址你懂的| 国模粉嫩小泬视频在线观看| 欧美性精品不卡在线观看| 久久久久国产精品免费免费不卡| 四虎影视永久在线精品| 无码高清专区| 亚洲精品动漫在线观看| 欧美国产综合色视频| 东京热高清无码精品| 久久久久人妻精品一区三寸蜜桃| 全午夜免费一级毛片| AV不卡国产在线观看| 国产亚洲精品自在线|