苑輝
在互聯網、移動互聯盛行的當下,充斥了海量的數據信息,在這樣一個數據爆炸、信息過載的時代,要如何在浩如煙海的數據中尋覓真正有價值的、滿足需求匹配的信息,已成為各大搜索引擎技術公司亟須解決的問題。
搜索引擎技術經過了數十年的迭代更新已日趨成熟,作為一個以搜索引擎為核心業務的公司,可以是像Google、百度這樣的世界級頭部公司,同時也在不斷涌現出各類創新型企業。
雖然在搜索引擎的世界里,也基本遵循贏者通吃的規律,但是在精確細分的垂直領域,仍有一些專用搜索引擎在為客戶提供更專業、更精準的服務,這仍是一個充滿創新機會和市場潛力的專業領域,給了初創企業一個良好的生存環境和成長機遇。
在今年上海市科委等組織的2018“創業在上海”國際創新創業大賽暨第七屆中國中心創新創業大賽(上海賽區)比賽中,上海海納信達數據技術有限公司的參賽項目——具有自主知識產權的海納智能搜索引擎,就是一項專注于垂直搜索引擎領域的專業搜索引擎,在上海賽和國際賽中頗受好評。
專注知識領域,為科研服務
海納信達——這是一家年輕的初創公司,公司技術團隊核心成員專注搜索引擎領域已經十多年時間,同時擁有一批充滿創新精神的年輕技術人才,勇于直面挑戰、敢于創新嘗試。
公司致力于搜索引擎(Search Engine)的技術迭代更新,打破傳統搜索引擎的技術框架,自主研發了一套專業性更強的垂直搜索引擎。
傳統的搜索引擎指的是根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。我們常見的Google、百度等通用搜索引擎就如同互聯網第一次出現的門戶網站一樣,是要實現大量的信息整合導航,以極快的查詢,將所有網站上的信息整理在一個平臺上供用戶使用,可以說這種模式使得信息的價值第一次普遍的被眾多商家認可,迅速成為互聯網中最有價值的領域。
而垂直搜索引擎是應用于某一個行業、專業的搜索引擎,是搜索引擎的延伸和應用細分化。垂直搜索引擎為用戶提供的并不是上百甚至上千萬相關網頁,而是范圍極為縮小、極具針對性的具體信息。因此,很多特定行業的用戶更加青睞垂直搜索引擎。
人們日常使用的諸多檢索服務中,涵蓋了各類專業領域,比如查找喜歡的餐廳、查詢喜好的產品、搜索性價比高的機票或酒店等,種種此類都是搜索引擎的應用場景。
海納信達智能搜索引擎更專注于知識發現與知識服務,竭力為用戶提供精準的知識發現工具和優質的知識服務平臺,這亦是海納信達的經營理念。
海納信達選擇這一經營理念,首先是因為科研領域需要做大量的知識查詢、獲取和學習工作;更因為團隊里核心成員大多長期從事科研工作,深知在科研工作中,經常遭遇信息檢索的煩惱。
如今,各個學科領域已經演變成相互延伸、相互交叉的復雜系統,如果能夠通過一個專業搜索引擎高效地找到需要的知識,快速了解該領域的研發趨勢,明確各學科之間的關聯,無異于是找到巨人的肩膀。對科研管理者來說,這樣的專業搜索引擎方便實現創新成果的國際、國內對標;對企事業單位來說,可以大大減少調研的時間,提高科研對接效率,可以說這樣的搜索引擎是各個領域“創新工具箱”中不可或缺的工具。選擇這個領域創業,似乎是海納信達團隊的“天性”使然,是長期從事科研工作的職業驅使、興趣所在,也是因為切身需求而產生的研發動力,也是某種不可明狀的責任推動,即通過努力,為更多人實現知識的價值,讓更多人便捷、高效的獲得知識。
助力中國工程院,為創新賦能
海納信達自創業以來,自主開發的搜索引擎已經廣泛應用在圖書館、高等院校和大型科研機構,中國工程院的科技知識服務平臺就是其中最典型的一例。
他們研發的產品,是中國工程院為國內外工程科技領域提供知識發現和服務平臺(KnowledgeGO,簡稱“K-GO”)的核心引擎(見圖1)。中國工程院是我國工程技術界的最高榮譽性、咨詢性學術機構,是國家工程科技思想庫,目前正按照國家要求致力于建設新型高端智庫,以科學咨詢支撐科學決策,以科學決策引領科學發展。K-GO平臺的目標是建設一個國際先進、國內領先、具有廣泛影響力的工程科技領域信息匯聚中心、數據挖掘中心和知識服務中心。
中國工程院的知識服務平臺匯集了聯盟資源、網絡資源、合作資源、采購資源、自建資源等5大來源數據,數據內容涵蓋國內外期刊、學位、會議等文獻資源,中國專利、外國專利、智庫、標準、學術報告、科研成果等特色資源和24個領域的統計數據和科學數據等,數據總量已經超過46億條,打造了工程科技領域最大、最全、最及時的元數據海。
作為中國工程科技知識中心全力打造的搜索品牌,K-GO搜索引擎提供在檢索效率、數據整合清洗、特色數據庫展示等方面特色突出,完全體現了知識中心在科學數據、統計數據、智庫報告、科技文獻等方面的資源整合能力。
K-GO目前還密切關注工程科技領域的趨勢研究、關聯研究、領域交叉、關聯學者等熱點,并提供相似文獻、參考文獻、引證文獻、同作者文獻、年度引用量等文獻詳情信息,為科研工作者輕松方便的查找文獻,快速高效的撰寫論文和報告,洞察和把握研究趨勢和熱點領域,提供了便利的渠道和方式(見圖2)。
釋放知識價值,為認知計算而變
俗話說,錢花了才是你的,知識有用才有價值,檢索就是實現價值的第一步。人類知識的積累早已龐大到超越個體的認知范圍。事實上,即便不是在數字時代,檢索早已是門學問,數據時代,信息沉積更是數量級的增長,而且在很多專業領域,數據是沉積在不同的數據庫中,且是些“異構數據庫”。圖書館、高校往往要購買不同的數據庫,才能滿足需求,但是這不僅造成了檢索的困難、繁瑣,不同數據庫檢索后的信息,很難綜合分析。信息雖然爆炸,卻不能按照人們的意圖“運行”,實在是信息的浪費。
海納信達的搜索引擎,專為科研機構定制。例如他們打造的某專業國防數字圖書館,整合了圖書館各類復雜、異構數字資源,構建了統一的檢索系統及門戶網站:已整合數據資源15大類,90多個資源庫,元數據量達1.5億條以上;是軍網中最受歡迎、訪問量最大的數字圖書館網站:系統平均日點擊量15萬次/日,峰值同時在線人數超過500人,峰值數據流量超過300Mbps/秒。
事實上,這種針對異構數據源檢索的知識服務可以運用于各種專業領域。例如實時采集法規、政策、標準、專利等信息;實時采集國內外新聞、行業新聞、技術文章,助力行業分析,為行業研究提供專業知識服務。針對企業服務,可以實現競爭分析、傳播評估、輿情監測、客戶服務、危機公關。例如實時采集競爭對手及供應商的新聞、人事、產品等信息;實時采集公共信源的商業信息、招投標信息;實時采集本企業的品牌以及競爭對手的品牌信息,了解消費者的需求與反饋;實時采集國內外、地方新聞、政策法規、經濟、產業等信息。這些應用場景,正是當前行業競爭、企業競爭加劇產生的需求,也是各行業創新加速的必然需求。
目前,在海納信達深耕的科教、軍事領域,除了打通知識庫,海納信達還在傾力打造自然語言知識搜索。未來,平臺將支持知識圖譜和人工智能的應用,目標是通過智能閱讀、知識關聯和綜合推理,實現智能化的認知搜索。這意味著,我們可以通過一句日常的普通的語言,而不是關鍵字向系統提出問題,就能得到更加豐富、精準和個性化的結果。