聞高
根據Gartner的數據,到2025年,80 %的數據和分析創新都將使用圖技術,比2021年的10 %將有大幅增長。Katana Graph是希望在這個蓬勃發展的市場中分得一杯羹的公司之一,它正在通過開發一個能夠利用分布式硬件的進步來壓縮大型圖形工作負載的圖數據庫平臺,為自己開辟一個位置。
Katana Graph由德克薩斯大學奧斯汀分校的2位計算機科學教授、首席技術官Chris Rossbach和首席執行官Keshav Pigali于2020年共同創立。Rossbach曾是VMware研究小組的成員,他的學術研究集中在虛擬化、加速器和并行架構等領域,而Pigali專門從事并行編程和分布式計算。
雖然這家位于奧斯汀的公司相當年輕,但Katana Graph的圖數據庫技術來源于其聯合創始人幾十年前的研究,該公司的首席業務官Farshid Sabet說:“公司的價值體現在數據較大時,當必須做非常深入的分析時,當通過節點并做更深的跳轉時,計算強度會呈指數增長。”
Katana Graph的分布式并行計算框架由3個部分組成,包括1個流式分區器、1個圖計算引擎和1個通信引擎。分區器負責將數據分配到集群的各個節點,而計算引擎負責協調和安排各節點的工作,通信引擎使各節點能夠有效地完成工作。
在加入Katana Graph之前,Sabet曾在Movidius和英特爾工作過,他說,該公司對如何更好地建立一個分布式圖形數據庫的問題有了新的認識。他表示這使得Katana Graph能夠以圖形競爭對手無法比擬的規模和速度工作。
“很多人在劃分圖形方面采取了一種簡單的方法。”Sabet說:“但隨著圖的規模越來越大,新的案例不斷出現,其中一些假設并不成立。”
Sabet介紹,公司的核心知識產權存在于框架的圖通信部分,這一層面的進步使Katana Graph能夠高速運行非常大的圖形工作負載。它們還使該平臺能夠以數據流風格同時運行不同的工作負載,類似于Databricks的運作方式。
Katana Graph提供了4種查詢圖中數據的方式,包括:上下文搜索(Graph Queries)、路徑查找(Graph Analytics)、中心性和社區檢測)、模式發現(Graph Mining)以及預測(Graph AI)。
開發人員可以在Katana Graph中使用Cypher對工作流程進行編程,Cypher是最初由Neo4j開發的圖編程語言,后來被開源。許多圖數據庫供應商支持Cypher,Katana Graph還支持Python和C++。
據Sabet介紹,Katana Graph可以利用不同類型的硬件,包括CPU、GPU、FPGA和ARM芯片。該軟件還可以支持英特爾的Optane內存和加速器。但Katana Graph的分布式性質使它與眾不同。
“我們在過去九年里做了很多工作……能夠利用分布式內存,甚至一些不同類型的內存。”Sabet說:“這些圖形環境中的大多數只在CPU上運行,在這個存儲器中,Nvidia有一些東西可以在一個GPU和一臺機器中運行。如果你想把這些結合在一起以實現可擴展性,那么唯一的方法是不僅要支持多種硬件,還要支持統一處理圖形的分布式硬件。”
Katana Graph的核心技術最初是在UT-Austin的高性能計算(HPC)基礎設施上開發和測試的。這些機器有大量的內存,這在十年前是非常昂貴的,但對于解決高端科學和技術問題是必要的。
隨著內存成本的下降,特別是在公有云環境中,它為用戶運行分析和人工智能工作負載提供了新的可能性,而這些工作負載在以前的商業領域成本高昂。這對Katana Graph有利,它已被證明可以擴展到256個節點和超過35億個節點和1 280億條邊的圖形(該公司說,它被設計為可以擴展到1萬億條邊)。
“圖形確實是計算密集型的,”Sabet說:“10年前、12年前的超級計算機,就是我們今天的服務器,這就是為什么公司在這方面做得非常好。”十幾年前,許多開發人員都在研究如何降低應用程序的CPU內存。Sabet說:“這在12年前是正確的決定,但是這些人(Rossbach和Pigali)并沒有這種限制。他們考慮的是我們需要什么才能解決這個問題。”
“Katana Graph的一個優勢是開發人員能夠將他們已經使用XG Boost和PyTorch等框架構建的機器學習和AI模型納入Katana Graph平臺。”Sabet說:“我們可以將所有這些結合起來,而不需要改變任何東西或重新修改算法。你使用那些現有的框架,現有的庫,并在機器學習之上添加,要確保開發人員對他們所擁有的環境感到滿意。”
圖形神經網絡,或稱GNN,結合了深度學習和圖數據庫的力量,是目前一個特別令人感興趣的領域。與訓練卷積或遞歸神經網絡來識別圖像或字串中的模式不同,GNN可以識別和利用構成圖數據元素的連接性模式。
GNN的準確性、性能和成本優勢目前正在獲得大量的追隨者。例如,生物醫學研究人員可以使用在Katana Graph中運行的GNN來識別新的蛋白質,這些蛋白質在圖數據庫中被表達為一個錯綜復雜的分子集合。“可以訓練它去尋找那個蛋白質組。”Sabet說。
據Sabet介紹,除了生物醫學研究人員之外,Katana Graph還吸引了金融服務領域的興趣。欺詐檢測是一個典型的圖數據庫用例,Katana Graph在這些領域中占有一定的份額。“有很多技術可用于欺詐檢測。但這個可以預測可能發生的欺詐行為,而且準確度更高。”他說:“他們想要機器學習算法的更新版本,如XGBoost和其他技術”。
Katana Graph的第3個重點領域是網絡安全。由于互聯網上有如此多的信號在飛舞,圖形分析帶來了一個強大的工具,可以幫助人們連接這些點,并讓不懷好意者保持警惕。Sabet說該公司的成立,部分得益于與DARPA的合作將這些信號整合在一起。
Katana Graph有一些付費客戶,并有一個不錯的渠道,可以獲得更多的客戶。該公司在2021年完成了2 850萬美元A輪融資,據Sabet說,這使公司在一年內從不到20名員工發展到近100名員工。“我們有來自不同領域的專家加入公司。”他說:“大多數員工都是工程方面的,但商業方面也一直在增長,我們已經能夠從競爭對手,如TigerGraph、Neo、谷歌和微軟那里聘請到非常有能力的人。”
據了解,該公司的軟件目前只在云端使用,公司計劃很快推出云端管理產品。