張 賀
(商丘市科技情報研究所,河南 商丘 476000)
現階段各個行業的科技交流和信息傳播都離不開網絡,網絡在人們生產和生活中占據的地位也越來越重要。尤其是在科研領域,網絡是實現對外信息發布的重要渠道,比如一些科研活動、科技戰略、科技成果等都需要借助網絡來宣布。情報機構一項非常重要的任務就是在網絡科技信息支持下,實現對科技動態的實時監測,并對其所制定的戰略決策進行分析,確保從繁多的網絡科技信息資源中發現有高情報價值的信息資源。因此,情報機構如何提高自身探索情報價值信息資源的工作效率是工作人員關注的重點。相關資料顯示,網絡科技信息情報價值歸屬于網絡信息資源評價研究,借助科學有效的評價方法可以選擇并評估眾多網絡信息。
對網絡資源相關信息進行自動搜集并整理的統計方法為定量評價方法,定量評價方法是按數量來進行統計分析的,具有較強的客觀性。定量評價方法在早期選用的指標較為簡單,存在訪問量波動性大、耗費人力和時間較多等問題。此外,訪問量的大小與網絡資源情報價值并不是高度相符的,惡意刷訪問量的情況也會存在。定量評價方法作為一種數學分析方法,帶有一定的科學性、系統性、規范性以及客觀性,應用該方法得出的評價結果更具說服力[1]。
定性評價方法就是結合評價目的和評價服務對象自身需求,以此為依據構建相應的規范和準則,確立評價標準、構建評價體系的評價方法。定性評價方法中不少研究學者是基于不同角度做出不同假設來制定網絡信息資源評價指標的。這些指標的獲取存在高度的間接性,受外部特征衍生指標的影響,難以實現對網絡科技信息資源情報價值更為準確的判斷。此外,定性指標中主觀色彩較強,所產生的分析結果差異性較大,因此,說服力和科學性均較低。
定性和定量評價方法都帶有一定的不足,因此,不少學者開始將兩者結合在一起形成綜合評價方法。綜合評價方法可以將定性評價方法中成熟、細致、全面的優勢體現出來,又能落實定量評價方法中規范、客觀、科學、系統的優勢,以此滿足網絡信息綜合完整性的評價需求。張智雄等[2]對網絡科技信息的特點進行了分析,總結出了情報來源、情報主題對象、情報類型以及情報科技相關度等有關指標,并進一步細化上述指標,將其分為31個二級指標,既包括定性指標,又包括定量指標。細化后的指標可以綜合評價資源外在屬性和資源內容特征等內容,實現對網絡科技信息價值的判斷。這兩名學者的研究對后人產生了深遠的影響。陸寶益在參考了國內外學者的研究資料后,也一直認為網絡科技信息情報價值的評價需要將定量指標和定性指標結合在一起,在構建評價指標體系時,不僅要具備定性指標,還要具備定量指標,如網絡信息資源的外部特征、網頁格式、外觀設計、讀者對象、引文等。綜合評價法與定性和定量評價方相比,結合了以上兩種方法的優點,可以有效克服定性評價方法中主觀性強、客觀性及可操作性差等問題,因此,評價效果是非常理想的[2]。
個性化信息搜索可以結合用戶的興趣、偏好以及特殊目的等優化檢索結果,此種信息搜索方法便于用戶在最短時間內發現自己所需要的信息資源。Price首次提出了準確性和特殊性均較高的信息組織和檢索方法,此種組織和檢索方法是面向各個領域內專家的。此種算法下,結合不同類型的信息將特定領域的文檔分成不同部分,這些不同部分被稱作語義組件。一個或者多個語義組件中相關信息文檔片段則被稱為語義組件實例,將語義組件和語義組件實例結合在一起可以進一步優化檢索結果,最終形成一種特殊的檢索引擎,該檢索引擎主要是面向領域的專家們[3]。Danoud等則為所有的檢索會話構建了加權圖,加權圖可以對用戶興趣模型進行描述。一旦用戶需要檢索新的內容,則可以結合用戶的興趣模型將檢索出來的結果重新排序,并在同一個會話用戶模型中納入相應的檢索詞。TSoi對用戶定制的網頁檢索排序算法進行了研究,該算法允許用戶調用他們自己感興趣的頁面實例。此外,該算法還對用戶制定了一些限制規則,比如頁面j的重要性遠遠低于頁面i;站點B頁面的重要性遠遠低于站點A頁面;頁面i的重要程度與PageRank算法計算出來的重要程度相比,前者比后者多出兩倍。
上述算法一旦被調用,可以滿足特定用戶的信息需求。Han則充分挖掘了用戶某些特定的查詢習慣、搜索引擎訪問的頁面以及訪問頻率等內容,在對用戶感興趣的資源進行全面了解的基礎上,依照用戶的偏好構建了模型,由此滿足了用戶個性化檢索信息的需求。個性化搜索是建立在用戶行為和偏好上的,此種搜索評價模式在一定程度上可以解決傳統搜索引擎帶來的“認知過載”等問題,但是要想在網絡科技信息情報價值評價中更好地應用,還需進一步改進。在對用戶興趣、偏好以及檢索信息等進行充分挖掘的基礎上構建模型,并對檢索出來的結果結合用戶興趣進行排序,此種檢索方法是對傳統檢索方法的進一步優化。但是優化后的檢索方法具有較強的特殊性,是依據用戶具體場景而設置的專門算法,因此,該算法的移植性較差,難以實現對戰略情報人情報關注的建模。此外,情報價值較高的資源并不都是與用戶關鍵詞匹配度高的資源,還需要情報人員進一步挖掘數據資源的語義,對其進行深層次解析,才能進一步提升情報資源信息判斷的準確性[4]。
解決網絡信息過載最有效的技術就是信息搜索和信息過濾。兩種技術具有高度的相似性,但不同的是,信息搜索技術需要按照信息的重要性進行排序,信息過濾則不會。信息過濾技術主要有兩類,分別是協同過濾和內容過濾。網絡科技信息情報價值評價方法中信息過濾占據非常重要的地位。
(1)在信息過濾系統中融入了網頁內容、質量以及用戶的喜好,并構建了信息過濾模型。(2)領域本體納入了過濾模型,該模型適用于邏輯性推理較為復雜的語義層次,是對傳統過濾技術的改進。(3)將用戶興趣模型進一步分解,將其分解成多個子模型和興趣片段,其中,不同子模型代表的用戶喜好、背景、任務以及情緒等是不一樣的。多個子模型組成了用戶興趣模型,可結合用戶的興趣及其社會背景等選擇性地過濾信息。(4)敏感性信息在過濾時要考慮的內容較多,如敏感信息彼此組合產生的相互作用,因此,在信息過濾上提出了敏感詞組合信息的概念,目的是將過濾敏感信息的作用進一步增強。(5)在過濾敏感信息問題上將核算法納入其中,在理論上可以明顯提升敏感信息過濾的有效性。(6)為了提高信息過濾的效能,可以立足于頁面特征來考慮,頁面特征是指詞本身的長度、融合次出現的頻率、文本中詞的屬性以及具備的語法特征。在此基礎上,在特征模型構建上融入了訓練集中的特性,確保了信息過濾的有效性。(7)在處理詞時納入用戶興趣模型,在處理過程中可以找出該次的同義詞并在信息過濾時將其過濾出去。用戶興趣模型中的詞是非常重要的,代表了用戶對所推薦資源的接受程度。此外,在信息過濾的過程中,也可以結合網頁中該詞出現的具體位置,對其賦予不同的權值。現階段不少領域的專家將用戶反饋機制融入了信息過濾,可以將用戶的信息過濾結果反饋出來,但是此種方法并不適合所有的用戶。
綜上所述,網絡科技信息情報價值自動判斷可以明顯減輕工作人員的負擔,保證所獲取的信息資源具有較高的價值。文章對網絡科技信息情報價值評價方法的分析,希望對該領域的研究有一定的參考價值。