陳 立
(1.浙江工商大學 實驗室與設備管理處,浙江 杭州 310018;2.浙江大學 計算機與科學學院,浙江 杭州 310058)
所謂批量集中采購,是對一些通用性強、技術規格統一、便于歸集的政府采購品目,由采購人按規定標準歸集采購需求后,交由集中采購機構統一組織采購的一種采購模式。
目前高校儀器設備批量集中采購的過程是:主管采購的政府部門按照“滿足基本辦公需要”、“市場成熟度高”和“競爭性充分”的原則,先制定采購目錄,如臺式計算機,其采購目錄就有10款基本配置機型;然后各行政事業單位基于上述采購目錄,通過網上報送采購計劃;在規定的報送時間截止后,采購部門再對申請單位的采購需求進行匯總整理、分類打包,編制具體采購需求,進而進行采購[1]。
批量集中采購試點工作近年來得到財政部的大力推進。它不僅較好地解決了傳統的協議采購方式中品目協議價格高于市場價、采購人在協議供貨中任意選擇高配置機型、采購人員對供貨商選擇有明顯傾向性等問題,更為重要的是,它能帶來顯著的規模效益[2]。與分散采購相比,批量集中采購更符合市場競爭規則。批量越大,吸引的供應商就越多;而參與競爭的供應商越多,競爭就越充分,采購方所獲得的價格優勢、質量優勢及得到的配套服務自然會顯著提升。所以,批量集中采購帶來的是采購成本、人力成本、監督成本的下降,是商品質量和服務質量的提升,從而使得財政資金得到最大化節約[3-4]。
但同時,批量集中采購的推行也面臨一些難題。例如對于行政管理部門而言,其設備“滿足基本辦公需要”即可;而對于高校某些研究部門而言,所需采購的設備專用性較強、技術規格也很難統一,所以無法出現在政府主管部門制定的采購目錄中,只能分散自行采購,因而不能得到批量集中采購的優勢[5]。實踐中,“政府采購目錄”尚未涵蓋的設備需求總量還是很大的,如果這些設備也能實現批量集中采購,將會大大拓展批量集中采購的適用范圍。
鑒于某些大的生產商或代理商能夠生產或代理多種類設備,高校在分散采購中常常將不同型號及種類的設備組合起來進行招標。按照這種思路,只要某些設備的組合滿足招標條件并曾經招標成功,就可以嘗試將這種組合形成一個“類”,由政府主管部門將各高校待采購的設備按照這種組合進行分類匯總,一旦形成規模時即可進行公開招標。利用貝葉斯算法及機器分類,通過計算機及網絡,就可以實現上述跨部門、跨地區的設備分類匯總。由此,批量集中采購在擺脫了采購目錄中品目分類限制的情況下得以實施。
貝葉斯分類器分為兩部分:一個是訓練部分,包括對滿足招標條件且成功招標過的設備文本的收集和預處理,以及分類器的構建,其中須對文本進行中文分詞、文本特征向量的提取;另一個是分類部分,包括對高校待采購設備文本的收集和預處理及分類和輸出,同樣也必須對其進行中文分詞、文本特征向量的提取。
使用已經獲取的訓練模型來對設備文本進行分類,將待采購的設備與訓練集中的類進行匹配,通過計算申購設備屬于哪一類的概率,將其歸為概率最大的一類,從而用機器分類的方法實現分類匯總,進而公開招標(見圖1)。

圖1 設備分類流程圖
2.2.1 設備模型
采用向量空間模型[6](vector space model,VSM)作為設備文本的表示模型。該模型的基本思想是用特征詞條來表示文本的語義,把文本表示為以詞為單位的項,項代表向量空間中的維度,每個文本被表示成一個n維向量,權重代表維度的大小,即設備文本Di可以表示為:

式中:wij表示第j個特征項tj在設備文本Di中出現的頻度(權重),n為向量空間的維數。可以看出,wij的值越大,表示tj越能反映設備Di所屬類別;反之,該值越小,表示tj越不能反映設備Di所屬類別。
2.2.2 設備文本分詞
由于貝葉斯文本分類算法是以單詞為粒度,所以在特征提取前,必須對需參與分類的文本作分詞處理。在分詞前要對設備文本做預處理,根據經驗,只保留最能說明設備屬性的名詞及英文字母。分詞過程則是采用開源的ICTCLAS漢語分詞系統,它是基于多層隱式馬爾科夫鏈模型的漢語詞法分析系統[7],該系統的主要功能有中文分詞、詞性標注、新詞識別等,分詞精度為98.45%。
2.2.3 設備文本特征詞條的提取
設備文本內容由大量的詞組成,大部分詞對分類的影響很小,但若把所有詞都作為特征詞條,會使向量的維數很大,計算機處理速度變慢。因此,在表示設備內容時要選擇有典型意義的詞作為特征詞條,以減少向量的維數。常用的降維方法是進行特征提取[8]。
常用特征選取方法有信息增益(IG)、互信息(MI)、文檔頻度(DF)、類別區分詞[9]等,本文采用類別區分詞方法。類別區分詞方法能夠從局部意義上考慮特征詞條對單個類別的區分能力。全局意義上的詞可能存在多類的表示意義,但有些詞的單類類別表示意義很明顯,比如“交換機”、“色譜儀”、“移液器”等,它們只會出現在某一設備文本之中,這些詞稱之為類別區分詞。類別區分詞的選取有兩種方式:一種與詞條的類間離散度[10]有關,另一種與類內分散度有關。類間離散度用來描述特征詞條在類間的分布情況。本文采用類間離散度來對設備文本的單詞進行特征提取,特征詞條的類間離散度為:


2.2.4 特征詞條權重的表示方法
特征詞條選取后就可以使用模型來表示設備文本。但表示設備文本之前,要先計算每個特征詞條的權重,根據特征詞條在設備文本中的重要程度來給予特征詞條不同的權重。特征詞條權重的表示方法主要有聯合權重(TF-IDF)、布爾權重、特征詞條頻度等,本文選擇特征詞條頻度作為權重的表示方法。
貝葉斯方法[11]是基于概率的一種算法,樸素貝葉斯方法是貝葉斯方法中最簡單的形式,其原理是通過計算文本dx屬于某個類別Cj的概率P(Cj/dx),把文本dx分類到概率最大的類別中。

式中:P(Cj)是類的先驗概率;P(dx/Cj)是類條件概率。設dx表示為特征詞條集合(t1,t2,…,tn),n為特征詞條個數,假設特征詞條之間相互獨立,則P(dx/Cj)、P(dx)的計算方法為:

本文中,筆者將每種類別的所有設備匯總到一個文本中,所以P(Cj)在這里不用計算,公式可以簡化為:

訓練部分數據是本校及其他兄弟院校采購完成的50份招標文件,用人工的方式找出符合要求的招標標項,并且按標項將其中的設備文本一一提取出來,每個標項作為一類,這樣總共從50份招標文件中匯總出10個類別的訓練文本,包含設備數157臺套。
分類部分數據是在本校申購系統準備采購的項目中提取的9個項目,其中包含7個財政專項以及2個常規項目。這些申購項目包括計算機、環境、食品、藝術等專業申購的設備160臺套,從中挑選出用于測試的設備132臺套,設備價值共計387萬元。因為有些設備是指定品牌或是屬于非標設備,無法用于招標采購,所以將其剔除掉。
本文使用文本分類的評價指標——準確率和查全率來對設備分類進行評估,以評價實驗結果。準確率和查全率可用公式表示如下:
準確率=(機器分類結果的設備與人工分類結果的設備相一致的設備數)/(機器分類結果的設備數);
查全率=(人工分類結果的設備與機器分類結果的設備相一致的設備數)/(人工分類結果的設備數)。
綜合考慮準確率和查全率的共同影響,采用另一種常見的評價指標F-Score[12],即F-Score=準確率×查全率×2/(準確率+查全率)。
首先將使用部門申報的待采購設備用人工方式分類。為了使人工分類的結果更準確,將分類結果匯總,并做成標書后用郵件的方式詢問3家以上有實力的供應商,征求其對分類結果的意見。因為分類結果會直接影響到招投標結果,所以幾乎所有供應商都認真、詳盡地給出了答案。另外,也通過郵件征詢了用戶對人工分類合理性的意見,也收到很多的意見反饋。最后綜合用戶和供應商的意見,對分類的結果做進一步的調整,這為后續的比較提供了準確的依據。
分類的結果如表1所示。F-Score的平均值達到70%以上,分類器分類結果對比人工分類正確數共計72臺套設備,設備的預算價值接近300萬元,這個結果是比較令人滿意的。就筆者所在的學校來說,用這種方式的話,一年可以有價值2 000~3 000萬元的原本分散采購的設備進入到批量集中采購。
對于F-Score比較低的類,通過對比人工分類的結果,發現主要是由于待分類設備文本對設備的描述不夠清晰、明確導致。還有一些設備是因為本身自帶了另一類的設備(如有些色譜儀本身自帶了臺式計算機),導致機器分類的錯誤,也降低了分類效率。
通過實驗可以看到,改進的貝葉斯分類器在設備分類時取得了較好的效果。采用這種辦法可以有效擴大批量集中采購的適用范圍,將原本不適用于集中采購的設備也部分納入批量集中采購中來。運用計算機處理不僅加快了采購速度,而且也體現出批量集中采購的優勢。不過,機器分類畢竟有其局限性,在實際運用中還應該圍繞機器分類制定相關的制度,以確保最終分類的準確性。此外,本文的結論只是在實驗狀態下得出的,在采購實踐際中,設備的種類千變萬化,因此還需建立一套反饋機制,以提高機器分類效率,滿足不斷變化的采購需求。

表1 分類器分類評價
(
)
[1]李麗輝,王保安.政府批量集中采購將向全國推廣[N].人民日報,2011-10-24(003).
[2]中華人民共和國財政部.政府采購貨物和服務招標投標管理辦法[J].中國政府采購,2004(9):7-15.
[3]鐘永泉,趙邦枝.高校集中采購內部控制制度的構建與探索[J].實驗技術與管理,2009,26(12):146-148.
[4]張彥志,向青春.高校規避政府集中采購的問題及對策[J].實驗技術與管理,2009,26(8):172-175.
[5]鄧文,龔福忠,覃戟,等.政府采購制度下地方高校儀器設備采購的問題及對策[J].實驗技術與管理,2012,29(11):4-7.
[6]邢軍,韓敏.基于兩層向量空間模型和模糊FCA本體學習方法[J].計算機研究與發展,2009,46(3):443-451.
[7]陳功平,沈明玉,王紅,等.基于內容的短信分類技術[J].華東理工大學學報:自然科學版,2011,37(6):770-774.
[8]黃秀麗,王蔚.一種改進的文本分類特征選擇方法[J].計算機工程與應用,2009,45(36):129-130.
[9]周奇年,張振浩,徐登彩.用于中文文本分類的基于類別區分詞的特征選擇方法[J].計算機應用與軟件,2013,30(3):193-195.
[10]熊忠陽,黎剛,陳小莉,等.文本分類中詞語權重計算方法的改進與應用[J].計算機工程與應用,2008,44(5):187-189.
[11]Ian H.Witten,Eibe Frank.數據挖掘:實用機器學習技術[M].董琳,邱泉,于曉峰,等譯.北京:機械工業出版社,2006.
[12]Sebastiani F.Machine learning in automated text categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.