通過搜索引擎所獲取知識可用度的研究——基于圖靈測試的視角

2013-07-21 09:35:06嚴梓峻王志酉劉慧

中國科技信息 2013年22期

嚴梓峻王志酉劉慧

上海對外經貿大學，上海 201620

1.研究背景

在現今社會中用戶習慣通過搜索引擎來解決一些生活中的難題，然而很少有人思考搜索引擎所提供的知識在多大程度上是有用的。在本文中，作者將探討這樣一個問題：普通人與搜索引擎的組合是否在某些領域，能夠解決一定程度上的難題？換言之，作者希望了解不具備完整領域知識的普通人在擁有搜索引擎工具后，其在某些特定任務中能力可以在何等程度上接近一個領域專家的水準。作者將用“可用度”來描述通過搜索引擎獲得的專業知識在解決實際問題時的可用性。

本項目研究的結果將對問答系統的發展起到積極作用。基于全自動的問答系統（如AnswerBus、維基百科）目前尚只能回答簡單的問題，對于復雜具體的問題就捉襟見肘。而對基于社會化網絡的問答系統[1]（如百度知道、騰訊問問、Quora等）而言，其中許多問答者并非精通專業知識，結果也未必理想。那么，是否可以通過搜索引擎的幫助，根據人的常識來選取搜索引擎的結果、找到解決方案？這也就是本文研究的背景之一。

作者將采用類似于圖靈測試的方法來比較專家和擁有搜索引擎的普通人在完成特定領域任務上的差距。采取此方法原因有二，一是受到了圖靈測試的啟發，作者認為通過人的智能與電腦的大信息量結合，通過人的判斷，就能較為高效地解決大量問題，甚至超過部分領域的專家；二是通過圖靈測試中的實驗方法，可以更好得控制變量，提高實驗結論結果的準確性，并且具有可操作性。

本文結構如下：在第二節作者將介紹圖靈測試的基本情況，然后在第三節作者介紹本文提出的“類圖靈測試”的設計與實現，然后在第四節中作者對于實驗數據進行了分析。最后一節是實驗小結。

2.圖靈測試

圖靈測試探討機器在什么情況下“擁有人的智能”。圖靈測試是在1950年由著名的“計算機之父”阿蘭·圖靈（Alan Turing）設計的實驗。具體實施方案是一個人在與被測試者(一個人和一臺機器)隔開的情況下，通過一些裝置（如鍵盤）向被測試者隨意提問。問過一些問題后，如果測試人不能確認被測試者的答復哪個是人、哪個是機器的回答，那么這臺機器就通過了測試，并被認為具有人類智能[2]。在當今世界的圖靈測試比賽中，最佳的談話機器人也很難瞞過人類。也有研究者提出在一個限定的領域或者任務中來進行圖靈測試[4]。在國內也有研究者對這個問題進行研究。陸汝鈐[5]提到過人工智能能達到人類多少程度的問題，但是發現許多機器永遠不會做到的特質，像和藹、美麗、創新精神以及幽默感等。

作者設計的測試方法可以稱之為“類圖靈測試”，整體實驗框架與圖靈測試類似，但是不同的在于其中一組不是計算機，而是“計算機+人”，也就是擁有搜索引擎工具的普通人，而另一組是擁有領域知識的專家。作者通過比較這兩組在完成任務上的差異來分析搜索引擎的可用度問題。

3.實驗設計

在實驗階段，作者選擇了英語作為主要研究領域、以分組別完成英語問卷的方式，展開設計“類圖靈測試”的實驗。

實驗總人數即樣本總體約為120人，剔除異常數據后（如實驗個體交白卷與全選同一選項）收集到問卷100份。其中分為A、B、C三個組別，A、B兩組實驗人員是來自某校初二學生，A組允許使用計算機網絡檢索而B組則不能，C組是專業組，即來自我校的大二學生，各個組別中分別隨機抽樣15份作為樣本進行試驗。

表1 實驗人群與數據個數

實驗工具方面,英語問卷難度處于大學英語專業六級水平,題目分20題單選題(占50%)以及20空的閱讀題(占50%)，滿分為100分。

先選取A、B兩組實驗人員，分發實驗用英語問卷讓其完成。抽樣統計兩組人員的問答情況得出搜索引擎對于英語能力的提升程度。隨后，我們再取以上A組實驗人群的數據，將B組人員換成的專業組C組，給他們做同樣的問卷，收集整理數據進行抽樣統計，通過分析正確率和分布情況以及“偽專家”可回答的問題類型做統計。

4.數據分析

4.1 數據總體分析

首先分析總體情況：

設定業余組，即未通過搜索，為A組；搜索組，即業余人員通過搜索引擎參與問卷的為B組；專業組為C組。調查結果的總體分布如下：

圖1 成績的總體分布情況

在均值方面， C組為70.50分，A組與B組數據分別為55.67分和72.67分，可得B組的均值為最高、超過專業組C組均值，其中前者最高分為92.5分、后者最高分達到95分，意味著在搜索引擎的幫助下，業余組在某領域的解決問能力有可能超過專業組。

圖2 均值分析情況

橫向分析方差，C組為215.36，A組和B組的數據分別為188.27和267.38，比較A組和B組，搜索引擎幫助下的非專業測試者雖然總體提高，但成績方差較小。根據結果推測造成這種結果的原因在于業余組的實驗人群對于搜索引擎利用能力方面水平不一，造成成績上的提升也不相同，這表示，在人與搜索引擎合作中，并沒有專業組穩定，對于網絡信息篩選與渠道選擇有較大影響。

4.2 數據分布分析

作者縱向比較，研究數據中各樣本的分布情況。標記區間1為≥85、區間2為75～85、區間3為60～75、區間4為45～60、區間5為<45，分別得到下列數據。

專業組的分數分布從區間1到5分別為17%、29%、37%、13%、4%，A組數據：7%、13%、20%、40%、20%,B組數據：40%、13%、34%、13%、0%。專業組分數主要處于60～75分段、75～85分段占大部分，業余組搜索前分數處于45～60分段，圖形曲線都接近正態分布，而B組搜索后分數竟然達到85及以上分段，分布巔峰高于專業組，顯示在搜索引擎的幫助下，業余人員在高分段人數上超過了較專業人員、但兩者的總體平均水平相近。

圖3 總體分數分布情況

進一步分項比較單選和閱讀的錯誤率狀況分布。由于都是20題,標記錯題0～4個、5～8個、9～12個、13～16個、17～20個分別為區間1、區間2、區間3、區間4、區間5。單選方面,區間1到區間5業余組A錯題數分布為:0%、20%、40%、33%、7%，業余組B錯題數分布為：20%、46%、27%、7%、0%，查看其趨勢，分數分布提升了一個分段，意味著搜索引擎能對此類題目的正確率有顯著提高。

圖4 兩業余組的單選錯題數分布對比

在閱讀方面，區間1到區間5業余組A錯題數分布為：0%、6%、63%、25%、6%，業余組B錯題數分布為：26%、27%、27%、20%、0%，查看其趨勢，分數從主高錯誤數（9～12個錯誤）變得更平均，提升不如單選顯著。

圖5 兩業余組的閱讀錯題數分布對比

就結果而言我們推斷：首先由于選擇題的題干較短，只需搜索出相關的知識點或生詞就能夠很好地解決問題；而閱讀題的信息量較大、生詞和詞組之間的聯系較為緊密，所以即便是知道解釋，也難以從整體上去理解、進而得出正確答案，其次來說，在語言學方面，對于段落語義的理解，知識層面更深奧，難以通過單詞拼接完成整篇文章的主體把握，需要專業知識與經驗融入理解，才能更好地解決難題。

4.3 實驗結果分析

根據以上結果，作者得到以下推斷：

1）就總體而言，借助因特網，普通人解決問題的能力（就英語學習方面）的水平是完全可以達到甚至超越專業人員的水平的。

2）就個體而言，鑒于檢索與篩選能力的參差不齊，不同的個人之間借助因特網解決問題的能力水平有較大的差異。

3）因特網或者搜索引擎對普通人解決問題能力水平的提升作用，在更簡單理性的問題上更顯著，相比之下更復雜感性、更需要個人理解的實際問題上提升的作用不那么明顯。

5 實驗小結

本文中作者研究了非專業人員在有與沒有計算機網絡的幫助下解決同一問題的能力以及前后的差別，然后將上述兩者得到的實驗數據同時與專業人員的數據進行比對。通過各方面分析，作者發現計算機網絡對于非專業人員而言計算機網絡能夠顯著地提高其解決問題的能力。除此之外，這樣的“普通人+計算機網絡”的組合在一定條件下，相比專業人員更能勝任對于專業領域知識的工作。

本文研究的課題也有一些局限性。本實驗只對英語這一專業進行了研究，樣本容量還是不夠大，問卷的相對難度、題量的把握還有待商榷，得出的結論只能是淺層次的。在下一步工作中，作者還考慮引入第四組人群，即精通信息檢索專業的實驗人群，得出數據再與專業組人群進行比對。同時，作者還會將本文中所提及的“專業領域”的范圍進行擴大，進一步針對計算機專業、數學專業、經濟學專業等等其他專業進行研究。

[1]Gazan R.Social Q&A[J].Journal of the American Society for Information Science and Technology, 2011, 62(12): 2301-2312.

[2]Turing A M.Computing machinery and intelligence[J].Mind, 1950,59(236): 433-460.

[3]Results Loebner Prize 2012 [EB/OL], http://loebner.net/Prizef/2012Contest/Scoring-2012.html

[4]Feigenbaum E A.Some challenges and grand challenges for computational intelligence[J].Journal of the ACM (JACM), 2003, 50(1): 32-40.

[5]陸汝鈐,韋梓楚,張松懋等.圖靈測試——機器是否有智能[J].創新科技, 2008, 12: 034.