漂流

向量的名字中,就包含了方向的天然基因.向量概念的出現,顛覆了我們對于數學的許多固有的認識.
向量又稱為矢量,最初被應用于物理學,向量是既有方向又有大小的量,向量的大小或方向不同會產生不同的量.
“向量”一詞來自力學、解析幾何中的有向線段.最先使用有向線段表示向量的是英國科學家牛頓.
大約公元前350年,古希臘著名學者亞里士多德就知道了力可以表示成向量,兩個力的組合作用可用平行四邊形法則來解決.
一般日常生活中使用的向量是一種帶幾何性質的量,除零向量外,總可以畫出箭頭表示方向.在進入大學后,我們還將在高等數學中學習到更廣泛的向量.如把所有實系數多項式的全體看成一個多項式空間,這里的多項式都可看成一個向量,在這種情況下,要找出起點和終點甚至畫出箭頭表示方向是辦不到的,這種空間中的向量比幾何中的向量要廣泛得多,可以是任意數學對象或物理對象.
向量既是幾何的研究對象,又是代數的研究對象,是溝通代數、幾何的橋梁,是重要的數學模型,其廣泛的應用也就順理成章了.
物理中的矢量是向量的原型,向量在物理中有廣泛應用是不言而喻的.向量與物理學中的力學、運動學等有著天然的聯系.很多物理量如力、速度、位移以及電場強度、磁感應強度等都是向量.將向量這一工具應用到物理中,可以使物理題解答更簡捷、更清晰.
向量知識不僅是解決物理題的有利工具,而且在機器人設計與操控、衛星定位、飛船設計等現代技術中也有著廣泛的應用,大顯身手.
在計算機圖像處理技術中,存儲圖像有一種向量格式.向量圖形(也稱“矢量圖”)是以坐標數值去表示一些控制點,而點與點之間用線連起來便成圖形,所以也稱外框圖形.因為是用坐標及外框方式去記錄圖形,所以圖形可以隨意放大及縮小,其效果都是一樣的,其突出的優點是所需的存儲空間相對于圖像小了很多.
在現代生活中遇到解決不了的問題時,我們常常會“百度”一下,其實這中間就有向量的影子.比如目前應用最廣泛的百度和谷歌搜索,通常使用信息檢索技術中的布爾檢索.
布爾模型已經可以解決一個很重要的問題,就是找到和用戶需求相關的文檔(其中還需要很多技術處理等).但是這樣找到的文檔會有很多,數以萬計,這遠遠不是用戶所要的.用戶也不會去從幾萬個文檔中挑選自己要找的.我們需要對結果進行排序,把最能滿足用戶需求的文檔放在最上面顯示給用戶,就像谷歌和百度做的一樣.
細心的同學會發現,其實信息檢索是一個循序漸進的剪枝和篩選過程,最后留下的就是用戶想要的.
我們需要一種評分機制來進行排序,通過得分的高低排出TOP N的文檔返回給用戶.如何確定這種評分的標準呢?向量空間模型(VSM)方法就是其中重要的一種.為了清楚說明問題,我們首先介紹2個概念:TF和IDF.
TF即Term Frequency,表示一個Term t出現在Document d中的次數,這是文檔中一個很重要的概念.出現次數更多意味著重要程度越高,當然需要注意的是,相關度的提高并不是和次數的提高成同比的.因此通常對TF做如下的處理:
Wl=log10(TF十1),這樣做就是要弱化次數對于相關度的影響.數學模型的思想和方法體現得淋漓盡致.
DF即Document Frequency,表示一個Term在整個文檔集中出現的頻率,與TF相反,一個Term的重要程度是隨著它在語料庫中出現的頻率成反比的,比如and,or等詞在幾乎所有文檔中都出現,那么這些詞的意義就很弱,而一些專業詞匯只在幾篇文檔中出現過,顯然意義更加重要.IDF就是DF取倒數,這里只是為了表示方便.
同樣,為了弱化頻率的效果,我們也做如下處理
有了上面的TF和IDF作為權重,我們可以很簡單地計算所有詞的權重,然后用一個n維(平面向量是二維向量)的向量來表示一個文檔,同樣用n維的向量來表示Query,Query中如果沒有對應的Term,該維權重為O.
我們已經知道,無論是在平面還是在空間中,如果兩個向量的夾角越小,說明兩個向量越相似,反之兩個向量越無關,我們可以很簡單地得到向量之間的相似度.空間向量模型可以說是信息檢索中相當常見并且非常重要的模型之一.理解起來非常簡單直觀,并且效果也是很不錯的.
同樣,向量中也有著豐富的文化內涵,寓言故事《南轅北轍》告訴我們,很多時候,方向是否正確對事情的結果至關重要,向量的方向就像我們的人生目標或理想,向量的模就是我們為了達到目標而付出努力的多少,只有具有了向量的這兩個條件我們才能實現自己的理想!
最后讓我們一起來欣賞一首關于向量的數學小詩:
我的向量
給你一個方向,你就是我的向量.
給你一個坐標系,你就在我心中飛翔.
給你一組基底,帶著我,揚帆啟航.
繁復的幾何關系,變成純代數的情殤.
優美的動態結構,沒有人情冷暖世態炎涼.
哪怕山高路遠,哪怕風雨蒼茫,不管起點在哪,你始終在水一方.
啊,我的向量,你是一股無窮的力量,溶進了我的身體,在我的心中,靜靜地流淌!