999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下公平競爭審查文本的排查研究

2021-03-01 06:08:34鐘錦鴻林瑞娜龍熠燚孔蔭瑩
汕頭大學學報(自然科學版) 2021年1期
關鍵詞:文本標準模型

鐘錦鴻,林瑞娜,龍熠燚,孔蔭瑩

(1.廣東財經大學經濟學院,廣東 廣州 510320;2.廣東財經大學會計學院,廣東 廣州 510320;3.廣東財經大學信息學院,廣東 廣州 510320)

0 引言

國務院2016年6月14日頒布的《關于在市場體系建設中建立公平競爭審查制度的意見》標志著我國公平競爭審查制度開始確立[1].公平競爭審查制度的含義是公平競爭審查主體針對立法及行政機關制定出來的法律及政策進行市場競爭影響評估,將不利于市場競爭秩序的法律及政策修改或廢止的一項評估制度[2].

在現階段,各地市場監管局開展公平競爭審查的依據主要是2017年國家發展改革委發布的《公平競爭審查實施細則(暫行)》(以下簡稱《實施細則》)[3].《實施細則》提出了違反公平競爭的四類審查標準,對各類標準下的一些典型違背行為作了明確或概括性的規定,但這些規定并沒有涵蓋更多的違反公平競爭審查標準的行為,因此在實務審查中需要借助監管人員的經驗積累;在審查范圍上,主要是對重點行業和地區開展專項審查,難以做到對各級政府單位的統一監督審查;在審查方式上,主要是依據政府監管人員對審查公文進行逐一排查,客觀上受監管人員能力和主觀性判斷的限制,且人工排查條件下效率較低.

隨著各級政府不斷地發布新的法規和政策文件,積累了大量的文本數據.這些數據可以通過一些大數據技術來更好地幫助公平競爭審查人員去排查疑似違反公平競爭標準的文本.目前國內有關公平競爭審查的研究主要是集中于研究如何完善公平競爭的制度以及更好地落實公平競爭制度,如謝芳琳學者考察了目前公平競爭實施制度的現狀并提出了關于公平競爭制度的一系列問題及有關改善的意見[5],孫考利學者和劉瀾晶學者論述了如何更好地保障公平競爭制度的實施[6],金善明反思和檢討了公平競爭審查制度并提出了要將其拓展為外部的監督機制[7].上述學者對于公平競爭審查研究是基于法律和政治層面,對于如何利用大數據技術去處理公平競爭審查的文本分類還尚未有相關的研究.目前篩選和分類文本最常用和簡單的方法是構建關鍵詞詞典并基于關鍵詞詞典來篩選含有關鍵詞的文本[8].除此之外,還有應用樸素貝葉斯、支持向量機、卷積神經網絡、決策樹等算法進行文本分類.在應用卷積神經網絡于文本分類方面,自Yoon Kim把CNN從圖像領域轉入到NLP的領域,提出了TextCNN,將CNN用于處理文本數據進行情感分析取得很好的效果后,涌現了許多應用該卷積神經網絡的成果,如楊銳等學者應用了卷積神經網絡對能源政策文本提取主題信息并進行分類[9],明建華等學者將TextCNN用于直播彈幕的過濾[10].

目前結合大數據技術去處理公平競爭審查文本的研究,國內外還處于一片空白.針對該領域,本文創新性地提出了將當前比較主流的數據分析技術和深度學習中的卷積神經網絡應用到公平競爭審查的人工排查過程中,能夠擴大實務中審查范圍和提高人工審查效率;同時積累建立公平競爭審查疑似案例庫,對違反《實施細則》中規定的典型市場行為做進一步補充和經驗性總結,進一步對公平競爭審查工作重點提出反饋意見,同時也為后來學者在公平競爭審查領域的研究提供另一種思路和研究方法.

1 研究意義

中國共產黨的十九大報告提出了加快完善社會主義市場經濟體制,明確指出“深化商事制度改革,打破行政性壟斷,防止市場壟斷,加快要素價格市場化改革,放寬服務業準入限制,完善市場監管體制.”[11]公平競爭審查作為市場價格監督與反壟斷排查的工作重點,對打破行政性壟斷、提高市場活力起者關鍵性作用.下面分別從理論層面和應用層面對項目意義進行闡述.

1.1 理論指導意義

全面推進依法治國.應用數據政策工具健全行政機關內部決策合法性審查機制,有助于監督政府依法全面正確履行職能,加強政策文本的合憲性解釋,鞏固好經濟憲法的地位,實現社會主義制度下的良法善治.

促進經濟體制改革.通過大數據技術進行公平競爭文本排查,有利于完善和建立公平競爭的中國特色社會主義市場體系,同時防止政府過度干預以及不當干預市場的行為,更好地發揮市場在資源配置中所發揮的決定性作用,實現效益最大化和效率最優化.

釋放市場主體活力.我國經濟發展正處于培育和催生經濟發展新動能的關鍵時期[12],通過目前的大數據技術手段規范政府有關行為,廢除政府部門行政壟斷的政策,有利于調動各類市場主體的積極性和創造性,優化營商環境,推動大眾創業、萬眾創新.

實現創新驅動發展.隨著市場競爭機制的強化和統一的全國大市場的初步確立,營造公平競爭的市場環境成為了創新驅動發展的重要動力.通過大數據手段破除具有排除、限制競爭內容的政策措施,能在新常態下推進經濟穩定持續地健康發展.

深化“放管服”改革.“放管服”改革其中一點提出政府部門要創新和加強監管職能,利用新技術新體制加強監管體制創新[13].通過利用大數據的技術,可以提高市場監管局的監管能力,提高公平競爭審查工作效率,同時,通過建立公平競爭審查數據庫也可以為公平競爭審查工作起到借鑒作用.

1.2 實際應用價值

針對政務審查中的“信息大爆炸困境”,引入大數據處理方法成為排查問題文本的有效手段和發揮監督價值的關鍵.一方面,大數據作為信息時代的重要生產要素和戰略資源,能夠在海量信息中獲取所需要的關鍵信息;另一方面,深化電子政務審查技術的路徑革新,能夠提高國家治理能力的現代化水平.

2 研究方法

2.1 基于關鍵詞詞庫篩選文本

需要排查的法律及政策的文本數據來源主要由廣東省市場監督管理局官方提供和基于python的Selenium庫和Requests庫編寫的爬蟲程序從廣東省的各級政府爬取的地方性法規、政策、通告等文本數據,兩者相加共2 808份文本數據.將數據收集起來后,通過人工篩選先將數據分為違反了公平競爭標準和沒有違反公平競爭標準的兩類文本數據,然后分別從兩類文本數據的標題中篩選出各自的關鍵詞組成關鍵詞詞庫,如表1和表2所示列出了關鍵詞詞庫的關鍵詞,表1是通過人工篩選從違反了公平競爭審查標準的文本的標題中篩選出來的關鍵詞,而表2是通過人工篩選從沒有違反公平競爭審查標準的文本的標題中篩選出來的關鍵詞.將關鍵詞詞庫和需要篩選的數據導入到MySQL數據庫中,最后使用數據庫MySQL編寫的SQL程序對導入的數據進行篩選,篩選出兩類文本數據.

2.2 基于TextCNN的文本分類

2.2.1 研究思路

基于TextCNN的法律及政策文本的分類流程如圖1所示.

表1 違反公平競爭標準文本標題的關鍵詞

表2 沒有違反公平競爭標準文本標題的關鍵詞

圖1 基于TextCNN的文本分類流程

上述提到的基于關鍵詞詞庫篩選文本的方法雖然是很高效,但由于準確度不高,同時由于違反公平競爭標準的文本千變萬化所以關鍵詞的選擇需要不斷地更新,這種簡單的基于關鍵詞的方法難以符合當前的實際需求,因此提出了基于TextCNN來分類需要排查的文本.

首先將收集到的所有需要排查的文本數據進行人工標注,將違反了公平競爭標準的文本標注為1,將沒有違反公平競爭標準的文本標注為0.之后對數據進行清洗,使用jieba進行中文分詞等一系列數據預處理后將數據劃分為訓練數據集、驗證數據集和測試集.在訓練數據集上訓練模型,在驗證數據集上評估模型.在訓練數據集上訓練好的模型會在驗證數據集上評估模型的好壞[14],將模型在驗證數據集上所表現出來的性能作為不斷調整模型參數的反饋信號從而達到最佳的參數.模型達到最佳的參數后就在測試數據集上進行最后一次測試,來衡量模型的泛化能力是否在其它新的數據集上也有像在驗證數據集上這么良好的性能.將輸入的經過數據預處理后的文本數據進行one-hot編碼后輸入到基于python的keras框架搭建好的TextCNN的模型中,最后將訓練好的模型對訓練數據集進行最后一次的測試并評估模型的性能.

2.2.2 TextCNN理論模型

TextCNN最基本的模型如圖2所示.

圖2 TextCNN模型圖

設xi∈Rk表示一個句子中第i個詞的k維詞向量,其中Rk表示k個Descartes乘積集,其數學表示為:

一個長度為n的句子可以表示為:

⊕表示的是連接操作符.因此,圖2中所表示的句子“提高了準入門檻”就可以表示為 x1:7=x1⊕x2⊕…⊕x7,其中 xi∈R6.

設給定的句子的長度(詞匯數)為s,用d表示詞向量的維數,因此可以將句子轉化為一個s×d的維數矩陣.在圖2中有6個過濾器,每兩個過濾器分別對應一個窗口大小,一共有3個窗口,大小分別為2、3和4.如圖3所示的是一個窗口大小為4的一個過濾器,圖中的數字表示的是過濾器的參數.設窗口的大小為h,某個過濾器的參數化權向量為 ω∈Rh×d,ω 包含了 h×d 個參數.用 A∈Rs×d表示句子矩陣,A[i,j]表示從 i行到j行的子矩陣,如A[1,2]表示x1:2=x1⊕x2.

圖3 窗口大小為4的過濾器

句子矩陣與過濾器進行卷積運算得到:

其中,i=1…s-h+1,表示子矩陣與過濾器之間的點積運算,輸出的序列長度為s-h+1,最后通過激活函數f與偏置項b得到對應的特征向量c∈Rs-h+1:

對特征向量進行池化運算池化成一個值,并將池化后的值全都連接起來組成一個新的特征向量,并使用softmax函數進行分類.

3 實驗與結果

3.1 實驗環境配置

表3 實驗環境配置情況

3.2 實驗設計

3.2.1 數據預處理

對由廣東省市場監督局收集和爬取到的數據共2 808份數據首先進行人工標注分類,之后進行數據清洗,用jieba進行中文分詞,分詞后對數據進行去除停用詞處理,停用詞表采用哈爾濱工業大學的停用詞表hit_stopwords[15].將數據劃分為訓練數據集1581份,驗證數據集678份,測試數據集549份.

3.2.2 TextCNN

TextCNN模型主要由輸入層、卷積層、池化層、全連接層和輸出層構成,其中卷積層負責進行卷積運算,池化層負責進行池化運算而全連接層是將卷積運算后的特征值連接起來[16].本文的TextCNN模型加入了嵌入層用于學習詞嵌入得到一個密集的詞向量.TextCNN模型使用基于python的keras深度學習框架來進行搭建,具體的參數如表4所示,將訓練數據集1 581份和驗證數據集678份輸入到構建好的TextCNN模型中,訓練完成后載入訓練完成的模型對測試數據集549份進行最后一次測試,檢驗模型的泛化能力.

表4 TextCNN參數設置

3.3 實驗結果

為了評估模型的性能,本文使用了準確率、精確率以及召回率這3個指標作為評估的標準,計算公式如下:

準確率表示判斷正確的次數和所有判斷的次數的比值,精確率表示在所有被判斷為正樣本的樣本中有多大比例是真正的正樣本,召回率表示在所有真正的正樣本中有多大的比例是被判斷正確了[17].在本實驗中正樣本是沒有違反公平競爭標準的文本數據,負樣本是違反了公平競爭標準的文本數據.從實驗結果來看,該模型在判斷文本是沒有違反公平競爭標準的準確度較高,而在判斷文本是違反了公平競爭標準的這個情況下準確度卻較低,需要做進一步的改進.

表5 實驗結果評估

4 討論

目前公平競爭審查流程如圖4所示,在人工工作模式下,對于公平競爭文本初步審查(即判斷公平競爭審查文本是否涉及市場經濟活動這一部分)的工作難度不大,但是工作量龐大,對于經驗豐富的工作人員來說是簡單重復的工作,這在一定程度上增加了人工成本.在判斷公平競爭審查文本是否違反了18條標準的判斷階段,工作人員一般需要查閱大量的法律文獻和資料作為參考,這個階段不僅耗時長,過程繁瑣,還會給判斷結果帶來一定的誤差.

圖4 公平競爭審查基本流程

本文通過實現卷積神經網絡對公平競爭審查文本的分類能夠在一定程度上幫助到工作人員進行公平競爭審查文本的排查,初步快速地對大量的公平競爭的審查文本給出初步的判斷,同時在判斷沒有違反公平競爭審查的文本準確率較高,但是目前該算法仍然不能完全替代人工,而是作為工作人員的輔助工具.其仍然存在一定的誤差項和局限性,在面對較為復雜的審查文本的時候可能無法精準判斷仍需要人工判斷,仍然需要進一步地研究.

5 結束語

本文針對公平競爭審查中的人工審查的過程首先提出了基于關鍵詞過濾篩選違反公平競爭審查標準的文本,由于該方法存在準確度不是很高、難以抽全關鍵詞等問題,因此難以適應目前的實際需求.接著提出了將深度學習結合到公平審查中的方法提升了分類的準確率,實現通過電腦程序來自動進行公平競爭審查文本的排查,模型在訓練數據集中各項指標都達到了92.22%,驗證數據集中各項指標達到了92.48%,測試數據集中的各項指標也基本在90%左右,然而模型由于樣本數據不均衡導致了負樣本的精確率和召回率指標數很低,因此模型仍存在著一些問題需要進一步的改進.感謝廣東省市場監督局為我們提供實習機會并提供相關的研究數據和公平競爭審查的標準,幫助我們更好地了解和掌握公平競爭審查的流程,在之后的工作中,會更加深入地研究以提高排查的準確度.

猜你喜歡
文本標準模型
一半模型
2022 年3 月實施的工程建設標準
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
主站蜘蛛池模板: 人妖无码第一页| 午夜少妇精品视频小电影| 亚洲欧洲日产无码AV| 国产情侣一区| 国产黑丝一区| 国产最新无码专区在线| 国产理论一区| 国产日韩精品一区在线不卡| 青青草原国产av福利网站| 亚洲男人的天堂视频| 在线视频97| 91av国产在线| 在线免费亚洲无码视频| 亚洲精品国产日韩无码AV永久免费网| 国产真实乱子伦视频播放| 中文字幕伦视频| 欧美日韩国产在线观看一区二区三区 | 日韩专区第一页| 99精品这里只有精品高清视频| 亚洲国产欧美国产综合久久 | 亚洲成人播放| 国产精品福利在线观看无码卡| 国产精品网址你懂的| 国产亚洲精品91| AV天堂资源福利在线观看| 国产男人天堂| 中文字幕人成乱码熟女免费| 亚洲视频二| 日韩天堂在线观看| 99视频在线看| 亚洲国产精品日韩av专区| 欧美高清视频一区二区三区| 国产内射一区亚洲| 麻豆国产在线观看一区二区| 日韩美毛片| 99热线精品大全在线观看| 无码高潮喷水专区久久| 欧美成人免费午夜全| 国产欧美日韩视频怡春院| 91视频国产高清| 国产簧片免费在线播放| 亚洲婷婷六月| 日本一本在线视频| 小说区 亚洲 自拍 另类| P尤物久久99国产综合精品| 免费A∨中文乱码专区| 一区二区三区成人| 国产尤物jk自慰制服喷水| 亚洲天堂日韩av电影| 国产成人AV综合久久| 国产资源免费观看| 久久久久国产一级毛片高清板| 夜夜操国产| 好吊日免费视频| 一级毛片视频免费| 欧美亚洲欧美| 国产菊爆视频在线观看| 97在线免费| 成人精品视频一区二区在线| 97久久人人超碰国产精品| 91网在线| 亚洲三级视频在线观看| 国产成人精品视频一区二区电影| 亚洲69视频| 国产中文在线亚洲精品官网| 亚洲日韩高清在线亚洲专区| 2021天堂在线亚洲精品专区 | 亚洲激情99| 午夜无码一区二区三区| www.99精品视频在线播放| 亚洲黄色激情网站| 美女毛片在线| 99re在线观看视频| 伊人91在线| 久久国产精品夜色| 熟女视频91| 国产精品人人做人人爽人人添| 精品成人免费自拍视频| 亚洲精品图区| 国产乱人伦精品一区二区| 91啦中文字幕| 亚洲人成网7777777国产|