吳正洋 陳先哲
[摘 要] 隨著Web 2.0及社交網絡的普及,以協同合作為推動力的科技創新有了新的開展環境。利用學術社交網絡平臺,學術人員可以共享及快速獲取開展科研活動所需的各類學術信息和資源,廣泛發布合作需求信息,尋求合作伙伴,以及與身處不同地域的合作伙伴進行實時交流,實現跨學科的科研合作。“提高協同效率”是學術社交網絡平臺設計的核心理念,本文以此為基礎,重點討論了學術社交網絡平臺建設中的兩個問題:一是信息采集及語義化處理;二是開展協同創新所需信息的推薦方法。最后,展示了一個學術社交網絡平臺的實例。
[關鍵詞] 學術;社交;網絡;平臺;協同;創新
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 11. 057
[中圖分類號] TP393;TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2014)11- 0089- 03
1 引 言
創新是學術發展的核心動力,促進學科交流,加強交叉學科研究,是推動科技創新的重要手段。2012年教育部啟動2011計劃,旨在鼓勵積極開展跨學科合作,校企合作,實現協同創新。然而,如何獲取跨學科領域的有效信息,找到最佳合作伙伴,是協同創新工作開展需要解決的首要問題。隨著Web 2.0及社交網絡工具的廣泛應用,人們的交流方式由傳統的語言文字交流,發展為基于網絡平臺的即時通訊、多媒體、多渠道的交流。尤其是社交網絡(SNS,Social Networking Services)的普及,使人際關系發展、信息傳播速率得到了顯著提高,傳統的協作模式和研究方法都面臨新的變革。近年來,眾多面向學術科研的社交網絡平臺(如學者網、中國知網學者圈、學術網等)逐漸興起,帶動增加了學術人員在社交網絡上的活動。以學者網為例,2013年度,其活躍用戶數增加了932人。因為學術人員作為高層次知識結構的人群,具有更高水平的網絡活動接受度和參與度。同時,在社交網絡平臺的應用中,也在不斷產生各種新的交流方式,信息共享的種類、信息傳播的范圍、信息擴散的速率都在以幾何倍數增大,對用戶而言,接收信息變得非常容易,交流合作的機會也不斷增多,學術社交網絡為學術人員開展協同創新活動提供了一個支持平臺。本文從提高有效信息的獲取率、發掘最優的潛在合作者等方面研究學術社交網絡的應用技術,使其能夠為學術人員的協同創新提供更強大的支持。
2 協同與創新
1976年,德國斯圖加特大學的哈肯教授(Hermann Haken)首次系統地論述了協同論,著重探討各種系統從無序變為有序時的相似性。近幾十年來,協同論從對物理學相關領域的研究,逐漸發展成為應用廣泛的綜合性學科。協同思想廣泛應用在制造行業,用于優化大規模工程設計以及生產的過程優化和資源配備。隨著科技發展,制造行業的生產規模日益擴大,越來越多的資源和業務流程需要優化整合,傳統的人工記錄或協調已經無法適應生產需要,鑒于此,計算機輔助制造研究興起,各類管理信息系統、協同軟件(Collaboration Software)應運而生。協同軟件[1]是指那些以團隊協作為目標的協作軟件工具,主要包括群組協作管理,如:工作流管理、項目管理等;各種通信軟件,如E-Mail、即時通信、VoIP等。據Gartner統計分析,從2003年開始,全球范圍協同軟件已成為用戶應用軟件采購最大熱點,位居信息化應用軟件首位,到2005年全球協同軟件市場的營業額將達500億美元,到2006年協同軟件市場規模將趕超ERP。
從事科學研究工作的學術人員,對于學術交流、項目合作等信息的需求比較大,經常使用網絡平臺輔助教學科研工作。然而在互聯網上,存在的信息資源極為豐富、信息的結構也極為復雜,要提高用戶創新能力,重點是要提高協同效率。提高協同效率包括兩方面的內容:一是提高用戶操作的便捷度;二是為用戶提供有利于跨學科合作的資源信息。由于術業有專攻,學術人員可能對不同學科的知識沒有深入了解,如果想快速檢索其他學科的專業信息,尤其是與本人研究領域有交叉的知識,尚存在一定的難度。如何快速跨學科檢索,是學術社交網絡平臺需要解決的核心問題。
3 信息獲取及處理
互聯網上以下兩類信息常用于科研輔助活動:①著作、論文、項目摘要、專利等科研成果信息;②由學術人員發布的對于開展學術合作的需求信息。
學術社交網絡平臺數據來源可以通過采集—清洗—分類存儲的過程形成。從互聯網上采集數據,首先,通過程序進行清洗,然后,將數據分為成果信息與需求信息,分別進行存儲;再利用學術領域本體分析學術關系并生成學術關聯知識庫。
3.1 數據采集
數據有兩個來源:一是從互聯網上直接抓取,二是學術人員根據系統要求提供。協作所需要的學術人員基本信息、成果信息、協作需求信息等可以在系統使用的過程中產生并收集,而更多的學術信息需要通過抓取互聯網上的數據獲得。目前業界有一些成熟的搜索引擎框架,能夠實現這一功能,比較常用的是基于Java的開源搜索引擎,包括Apache Lucene、Nutch、MG4J等,其中,建立在Hadoop分布式系統上的Apache Nutch是一個較全面的軟件框架,它提供了開發人員運行自己的搜索引擎所需的全部工具,包括網頁全文搜索和Web爬蟲。在運行Nutch框架的基礎上,開發針對學術信息網頁的插件來擴展其功能,將互聯網上的學術信息網頁轉化為文獻對象,再進行存儲[2]。數據清洗主要是將抓取到的數據進行檢索和再判斷,刪除一些不必要的冗余或誤差,比如,數據抓取軟件可能會在不同的數據源采集到同一篇期刊論文信息,此時就需要利用查冗算法檢索匹配該論文的多項有關信息,如作者、單位、發表的刊物名稱等,如果找到多個結果,就保留一個,并記錄重復版本數,同時刪除其他結果。
3.2 語義化處理
為提高信息檢索的效率,需要對學術實體進行語義化處理。首先要對學科知識進行預處理,學科知識預處理主要是針對學科進行語義描述,可利用DBpedia中關于各學科的定義和屬性關系劃分學科知識點層次結構。DBpedia是從維基百科的詞條里擷取出的結構化資料,在實現學科知識的描述后,便于根據學科關鍵字進行檢索和匹配。同時,還要對成果信息和需求信息進行關系分析,如對論文、著作、項目摘要等所包含屬性的邏輯關系進行分析,以論文為例,論文的作者、合著者之間有合作關系,論文關鍵字能夠反映學科知識點之間的關系,作者歸屬單位、作者所在學科等重要關系也能夠從中體現。整理邏輯關系并用OWL本體文件方式進行存儲,可用于信息檢索和智能推薦。
4 推薦優化
4.1 推薦策略
電子商務中比較常用的智能推薦方法是協同過濾算法[3],該方法的原理是通過建立學術人員偏好數據庫,找到與指定用戶偏好相匹配的其他用戶,根據找到的這些用戶對某一信息的評價,作為指定用戶對此類信息的喜好程度。在學術社交網絡中,學術人員查詢信息、下載資源、評論等行為比較活躍,將學術人員產生的偏好數據搜集并進行實時更新,再根據相似學術人員的喜好進行推薦,便能夠達到比較好的推薦效果。
在運用協同過濾算法的基礎上,還可以根據學術人員的特點實現推薦功能。學術人員在注冊時通常都會提供所在高校、研究方向、研究興趣等信息,甚至包括學歷、職稱等信息,可以利用這些信息來計算學術人員的相似度,進而進行更精確的推薦。
4.2 推薦排序
推薦算法能夠給出若干推薦結果,而隨著平臺上活躍學術人員及共享資源的增多,產生的推薦結果數量也會增多,此時,有必要對推薦結果進行排序。要解決排序問題,首先要為每個推薦的結果賦值,可稱之為偏好值,該值能反映學術人員對于某論文、著作或項目信息以及對某領域專家的喜好程度,從而作為推薦結果排序的依據,可設定偏好值越大的結果越可能是學術人員想要的結果。
推薦結果是依據相似學術人員的喜好,所以在偏好值方面可以參考兩個數據:一是學術人員相似度,二是相似的學術人員對某類信息的偏好程度。某學術人員的特征可以依據注冊信息,結合網絡社交行為記錄,并根據這些信息建立學術人員特征文檔。學術人員特征文檔能夠反映相應學術人員的基本特征和行為活動,如此,學術人員的相似度問題就轉化為了學術人員特征文檔的相似度問題。文檔相似度的計算方法有很多種[4],比較經典的有基于文本向量空間模型(Text Vector Space Model, TVSM)[5],還有基于集合模型的相似度計算方法、基于層次結構的相似度計算方法等,也有綜合計算方法[6]。在按相似度進行相似學術人員排序后,再按各學術人員對于某信息的偏好程度進行二次排序,并記錄數值,以此作為推薦結果的順序。
5 應用實例
為提高學術人員個人信息的共享度,擴大被檢索范圍,學術社交網絡可為其設置個人空間。個人空間是對學術人員個人信息進行規范定義的模塊。同時,也為可充當他們的網上助手,融合了記事本、研究備忘錄、個人簡歷管理、成果展示平臺等功能,還可以用于添加及聯絡好友等。為了方便學術人員之間開展協同合作交流,學術社交網絡平臺還可以向學術人員用戶提供學術團隊空間,方便共享資源、即時通訊、及時掌握團隊研究進展等。個人空間界面效果如圖1所示.
6 結束語
“開放、合作、協同”日益成為創新的必然發展方向,我國推行協同創新計劃也正是基于以上背景。本學術社交網絡平臺正是基于此理念設計:一是通過界面整合相關應用,使各創新主體操作更便捷;二是通過優化數據,為各創新主體提供有利于跨學科合作的學術信息。這個平臺的功能發揮和進一步開發,可以使高校、科研院所、企業等科研用戶更加緊密團結,多模式、深層次地開展合作,在基礎研究、應用研究、開發研究之間形成完整鏈條。
主要參考文獻
[1]湯庸, 冀高峰, 朱君. 協同軟件技術及應用[M].北京:機械工業出版社,2007.
[2]李建國,毛承潔,劉曉,等. 學術信息服務平臺的研究與設計[J]. 華南師范大學學報:自然科學版,2012,44(3):51-54.
[3]Sarwar B, Karypis G, Konstan J,et al. Item-based Collaborative Filtering Recommendation Algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. ACM, 2001: 285-295.
[4]周博,岑榮偉,劉奕群,等. 一種基于文檔相似度的檢索結果重排序方法[J]. 中文信息學報,2010,24(3):19-23.
[5]賀超波,沈玉利,余建輝,等. 基于學術社區的科技論文推薦方法[J]. 華南師范大學學報: 自然科學版,2012,44(3):55-58.
[6]宋玲,馬軍,連莉,等.文檔相似度綜合計算研究[J]. 計算機工程與應用,2006,42(30):160-163.