任媛 李家興 陸相羽



摘 要: 為利用人臉識別快速了解學術會議參會人員、來訪學者的信息,以及他們與本校學者的聯系,構建相關領域知識圖譜尤為重要,本文首先介紹系統構建的流程、功能模塊,其次介紹了知識圖譜的技術路線,最后對該系統提出改進和展望。
關鍵詞: 知識圖譜;圖數據庫;人臉識別;學者信息
1.背景介紹
隨著學校辦學水平的提升,越來越多的專家學者蒞臨我校進行學術交流,為每位來訪學者建立數據庫,記錄其交流的內容和與本校老師合著的信息,對未來進一步的科研教學合作有著至關重要的意義。傳統的基于關鍵詞的搜索由于其固有的重名低效等缺點將不適用于復雜的來訪學者信息搜索系統,所以構建一套新的搜索系統是很有必要的,基于此本文提出了一種基于人臉識別的來訪學者信息知識圖譜構建方法。
2.系統構建流程
本系統利用圖數據庫對學者信息進行存儲,使用人臉識別技術代替人名關鍵詞進行檢索,系統在安卓平臺的智能手機上運行。用戶通過客戶端拍照,將目標照片導入人臉庫系統,然后目標照片在系統中完成識別和檢索等操作,將目標照片所對應的ID發送請求到服務器端,服務器端收到請求后,連接圖數據庫,返回實體屬性關系等信息。
3.知識圖譜
3.1 信息抽取
3.1.1信息來源
現有的知識圖譜主要從自頂向下和自底向上的兩種構建方式:
3.1.2 信息抽取
數據獲取后,還需要從這些數據中抽取出實體、屬性、關系等結構化信息建立圖數據庫。
1)實體抽取
早期是人工編寫抽取規則,輔助利用機器學習方法進行實體抽取,但這種方法耗費大量人力,可擴展性差,算法性能依賴于訓練樣本的規模,具有明顯的局限性。面向開放域的實體抽取和分類技術能夠較好地解決這一問題,即對于任意給定的實體,采用統計機器學習的方法,從目標數據集(通常是網頁等文本數據)中抽取出與之具有相似上下文特征的實體,從而實現實體的分類和聚類。
2)關系抽取
早期通過人工構造語法和語義規則,采用模式匹配的方法來識別實體間的關系。但這種方法工作量大,可擴展性差,因此采用面向開放域的關系抽取技術,直接利用語義中的關鍵詞匯對實體關系進行建模,不需要預先指定實體關系的分類,比如面向開放域的信息抽取方法框架(Open Information Extraction, OIE)。現在OIE系統存在的主要問題是抽取的準確率以及系統對隱含實體關系的識別能力。
3)屬性抽取
基于規則和啟發式算法的屬性抽取算法(百科類網站提供的半結構化數據是當前實體屬性抽取研究的主要數據來源),如本體知識庫(YAGO),其抽取準確率高達95%。
4)知識存儲
當下的許多數據庫采用關系型數據庫對其進行存儲,而在實際數據處理時所使用的數據卻是圖結構數據,Neo4j采用圖結構的存儲方式,在實際的數據處理過程中也是調用的圖結構原始數據。且具有性能高、存儲讀寫速度快、穩定性好等優點;在早期的文檔、技術博客等圖形數據庫中運用較多,所以本文采用Neo4j來對圖譜數據進行存儲。
4.人臉識別的實現
通過直接調用已有的人臉檢測/識別的免費開源API,如EYEKEY、虹軟ArcFace、SeetaFace等。
參考文獻
[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識圖譜構建技術綜述[J]. 計算機研究與發展,2016,53(03):582-600.
[2]肖明,邱小花,黃界,李國俊,馮召輝. 知識圖譜工具比較研究[J]. 圖書館雜志,2013,32(03):61-69.
[3]顧昭藝. 基于人臉識別的社交關系檢索系統的設計與實現[D].北京郵電大學,2013.