許越 黃思緣 吳佳怡 顧秦 王絡
摘 要 隨著計算機智能化技術發展的提升,越來越多的人有條件利用智能設備進行網上娛樂活動。但隨著用戶數量的增加,評論區會出現一些不文明、不理智的發言。本項目將通過對于不文明用語的及時識別和屏蔽,降低用戶在網絡上與其他用戶起沖突的可能性,也在一定程度上減輕了網絡不文明現象可能給被攻擊用戶造成的負面心理影響。
關鍵詞 文明網絡交流環境 文本分析技術 人工智能
中圖分類號:H0;TP311 文獻標識碼:A 文章編號:1007-0745(2021)06-0015-03
1 項目價值和意義
隨著人們生活水平的不斷提高,智能設備已經逐漸成為了人們生活中的必需品,越來越多的人使用智能設備在網絡上通過各種軟件進行線上社交活動,而在這個過程中,不可避免地會產生網絡不文明用語現象。軟件上的發布動態、評論、轉發、聊天等功能給人們提供了一個更方便地進行思想交流的平臺。但與此同時,網絡的匿名性也導致了各類網絡不文明現象的頻發。言語上口無遮攔的攻擊謾罵對網絡環境和被攻擊者的心理都造成了極其惡劣的影響,對于攻擊者本人正確的思想道德培養也有一定的阻礙。[1]
如今,國內人工+機器的不文明用語審核方式雖已在一定程度上提升了識別效率,但仍無法趕上用戶創造網絡用語的速度,識別的準確度難以得到提升。且目前的機器識別方式仍較死板,只能通過簡單的文本比對機械地識別出某個字或某個詞,不能聯系前后文本完整地識別出語句的準確含義,因此有時會導致原本不存在不文明用語的文本被錯誤地識別、屏蔽,給用戶的線上交流帶來一定困擾,也降低了用戶的軟件使用體驗。而真正使用了不文明語言的文本也可能因為使用了替代詞而沒有被及時識別屏蔽,破壞了良好的網絡語言環境。本項目將通過文本預處理、建立語料庫、不文明用語庫等方式,使用相似性比較,聚類分析等文本挖掘技術,實現對不文明用語更高速、更準確的識別處理。
本項目的意義可以體現在用戶、網絡平臺、社會及人工智能發展四個方面:首先,對用戶而言,本項目將通過對于不文明用語的及時識別和屏蔽,降低用戶在網絡上與其他用戶起沖突的可能性,也在一定程度上減輕了網絡不文明現象可能給被攻擊用戶造成的負面心理影響,同時能有效避免為防止踩中屏蔽詞只能使用替代詞進行交流的情況,增強用戶的溝通效率,提升用戶的軟件使用體驗,為交流雙方提供一個更加健康的網絡環境;其次,對有用戶留言、評論、轉發等各類功能的網絡平臺而言,本項目能為其提供更高效的用戶留言管理方法和策略,創建良好的網絡語言環境,減少人工審核不文明用語的成本。同時也能為用戶創造一個更優秀、更文明的線上交流平臺,提升用戶的使用體驗,使得用戶愿意更頻繁地使用該平臺進行線上交流,為平臺增加收益。本項目也能幫助平臺通過某一詞匯的提及度了解用戶對于某一話題的關注度,為網絡平臺業務開展和話題建設打下良好的基礎。增強平臺對網絡話題趨勢的掌握度,更清晰地了解用戶喜好,為軟件的功能提升提供方向,吸引更多用戶,最終達成良性循環;再次,對社會而言,網絡肩負著引導輿論、成風化人的職責,使用文明規范的語言文字是傳承文明、傳播文化的基本要求。本項目能夠減少網絡上不文明用語的出現頻率,從而減少不文明用語對社會風氣產生的不良影響。同時,對于網絡上數量龐大的未成年用戶而言,一個文明和諧的網絡語言環境會對他們的身心健康發展起到良性引導的作用。也在一定程度上降低了線上的語言暴力給用戶的身心所帶來的危害;最后,對人工智能的發展而言,人工智能本就是在不斷學習中成長,通過對互聯網上大量的語言識別樣本進行學習意味著能夠使人工智能更精確地識別出當前文本的真實語義,甚至識別出帶有更強烈的情感色彩的調侃、諷刺等語氣的文本含義,避免錯誤的識別屏蔽,達到優化用戶體驗的目的。提升人工智能在語言識別方面的成長進度,為未來人工智能的發展打下基礎。
2 項目設計
2.1 研究對象與研究方法
項目靈感來源于大一上學期我們在思想政治課上研究的課題——上海市大學生對于網絡道德的認識。該研究通過向大學生發放紙質問卷和電子問卷的方式進行調查,采取簡單隨機抽樣的方式發放問卷。研究目的在于從整體上探究大學生對于網絡道德的認知程度,從人們對于網絡持有的意識態度、網上行為規范、評價選擇等方面設計問卷。同時,結合了校內校外隨機采訪輔助前期調研,側重對訪問者在網上沖浪時對于不文明或具有煽動性的言論的真實感受。同時請大學生對于制止網絡暴力給予適當的建議。希望通過豐富的問卷內容體現出大學生真實的心理狀態,從而進一步探究解決網絡暴力以及網絡不文明現象的有效手段。
2.2 樣本的概況及分布
本次研究在上海立信會計金融學院等學校共發放150份紙質調查問卷,有效問卷112份。在性別比例上,參與調查的男生占20%,女生占80%。其中大一學生為本次研究著重調查的對象,占據80%。另外還有14.67%的大二學生,2.67%的大三學生和1.33%的大四學生參與了調查。
2.3 理論綜述
當下,大學生是使用網絡最頻繁、耗時最多的社會群體之一。根據數據統計,62.67%的大學生平均每天會花費4個小時以上的時間在網絡上,而在其中,有68%的大學生會把大部分時間花在社交媒體上,可見網上交流是大部分大學生必不可少的社交手段,如今常用的社交媒體包括在全國甚至全球關于娛樂休閑生活信息分享交流的平臺。通過數據顯示,82.67%和80%的大學生把微信和QQ作為常用的社交軟件。此外,還有44%、10.67%和5.33%的大學生分別把微博、貼吧和直播網站這樣具有互動性、透明性、公開性的網上交流平臺作為常用的社交軟件。其中的互動性就體現在媒體會為那些看到信息的人提供自由評論的區域,讓他們發表看法,這樣的設計讓互不相識的人通過網絡建立起了聯系,為網上沖浪增添了許多樂趣。
但是人們對待同一事物的看法不可能完全相同,有時候針對某個觀點難免會起紛爭。通過問卷調查的數據,41.34%的大學生無法做到在閱讀完信息后理性地判斷內容的真實性再轉發評論,從而導致某些不慎或者過激的言論成為擾亂網絡秩序的源頭,網絡暴力也由此而生。
據調查,超過四分之一的大學生遭受過網絡暴力,其中有17.33%的大學生以個人行為代替報警或舉報維權進行回擊,而9.33%的大學生只選擇默默忍受或不予理睬??梢妼τ诰W絡暴力的迫害,不是所有的大學生都能采用正確的渠道合理地進行解決。有專家指出,網絡暴力會帶來道德綁架、輿論嘲諷、虛假信息和侵犯隱私四種危害。如果沒有有效的手段來治理網絡暴力,勢必會對大學生乃至所有網民產生嚴重的影響。
為了營造和諧的網上交流環境,相關的平臺為用戶設置了舉報系統。當讀者瀏覽到垃圾營銷、涉黃信息、人身攻擊、有害信息以及違法信息時,可以按類型向平臺進行投訴,平臺的工作人員也會馬上進行反饋。
針對這一點,我們小組設計了相關問題來調查大學生是否能有效利用此類舉報系統。
經數據統計,面對不良信息只有45.33%的大學生能夠理性地舉報所有他們認為的不良信息,多數大學生只是看心情舉報,少數則是不予理睬或是湊個熱鬧,這表明只有一半不到的大學生能有效利用平臺設置的舉報系統。大部分的大學生理應具備識別網絡暴力的能力,但為什么這類系統不能被大學生完全利用到位?提出疑問后,我們緊接著就大學生面對網絡暴力所持有的態度展開調查。
根據數據顯示,超過四分之一的大學生面對網絡暴力表示無所謂、看熱鬧或是低估了網絡暴力帶來的傷害。由此可見,從用戶角度來說,平臺設置的舉報系統一定程度上可以懲治發表不良言論的人,但還有一大批未能被舉報的用戶成為漏網之魚,同時,仍有一部分人因為對待網絡暴力的態度不同而未能及時制止使得事態惡化;從平臺自身來說,舉報系統的不完善同樣會讓部分用戶利用平臺的漏洞,不斷散播不良信息,這兩點讓網絡暴力的問題無法得到有效的根治。
所以,為了打造更加文明的網絡環境,我們小組決定從用戶發布信息的源頭探究在信息發布欄里加入文本分析的技術,通過文本預處理、建立語料庫、不文明用語庫等方式,使用相似性比較、聚類分析等文本挖掘技術,對評論者發表的留言、評論進行識別,提取文本特征,計算其與不文明用語語料的相似性。從而能夠相對快速、準確地對用戶留言進行及時的處理,識別其中的不文明用語并通過限制發文、信用打分等方式對留言者進行標識和評價,從而起到一定的警告作用。
3 項目方案
3.1 項目的主要問題
3.1.1評論數據的收集以及數據的處理
我們需要大量的數據建立屏蔽詞的語料庫與是否屏蔽的數據庫,首先要解決的是如何獲取大量真實可靠的清潔數據,而數據的處理方式需要運用大量實踐去建立初步模型決定采用的預處理方式,是本次項目的重難點,需要我們運用數據科學知識找到最有效的途徑。
3.1.2建立文明用語的語料庫
為了實現屏蔽機制,我們需要將網絡上的各種語言分類為文明用語、不文明用語和侮辱性用語。因為數據較為龐大且存在大量的俚語、隱晦語、網絡用語、符號等,如果要全面準確地識別隱藏其中的不文明用語,需要合適的文本分析挖掘方法。
3.1.3網絡環境維護方案優化策略
在識別了是否需要屏蔽數據之后,我們需要采取一種相對合適的方式來優化,例如直接屏蔽、將屏蔽部分的不文明用語替換成文明用語,并對用戶進行警告,設置一定限度的禁言措施。但過度的警告措施會引起用戶反感,所以需要大量數據來確定措施的力度對用戶的影響,在維護網絡環境的同時最大程度地保證用戶對平臺的駐留。
3.2 擬解決途徑
3.2.1數據的采集
我們準備選取當下在大學生中較熱門的網站,比如微博、易班,在這些以評論作為主要交流方式的平臺上可以更簡單地獲取信息,且網站中較大的流量可以獲得更龐大的數據,為之后建立數據庫和處理數據打下基礎。運用爬蟲作為搜集數據的工具可以快速準確地搜集到大量數據,減少人工搜集的難度。
3.2.2數據預處理
首先對于被爬取的數據需要過濾污染數據,去除重復數據,并去除無關消息,得到較為干凈的數據。中文語料數據大多為短文本或長文本。通過jieba和HanLP等較為簡單的中文分詞器與詞性注解的方式將較為長的文本分為我們需要的詞,運用去停止詞、特征提取、tf-idf權值計算等方式,將文本留言轉化成數據向量,使用文本相似性計算,logistic
(下轉第27頁)