訪談:GridGain軟件通過集群服務器實現內存共享,使內存密集型應用能夠在單臺服務器內存不足的情況下正常運行。隨著AI推理所需的令牌(編碼數據項)數量持續增長,這一能力變得愈發重要。
該軟件在x86服務器集群中提供分布式內存空間,采用大規模并行架構。GridGain已捐贈給Apache基金會,成為開源的Apache Ignite分布式數據管理系統,將服務器內存用作組合存儲和處理的內存層,并由SSD/HDD層提供備份支持。數據以鍵值對形式存儲并分布在整個集群中。該軟件可在本地部署或在AWS、Azure和GCP公有云中運行。
GridGain聲稱其引擎可用于任何數據驅動的分析或事件處理項目,不僅限于AI應用。該公司表示,其軟件提供超低延遲的分布式多模型數據存儲和計算引擎,兩者結合或共同部署,使企業數據能夠實時供AI推理引擎使用。同時消除了數據平面和計算平面之間的數據移動,從而提高端到端數據處理效率。GridGain完全支持ANSI 2016 SQL標準,并提供鍵值、行、列、文檔、非結構化等多種數據處理能力。
我們采訪了首席技術官Lalit Ahuja,深入了解GridGain的AI能力。
問:數據以鍵值對形式存儲并分布在集群中。GridGain如何幫助AI大語言模型訓練?
Lalit Ahuja:GridGain是一個超低延遲數據處理平臺,結合歷史/上下文數據的可用性與復雜分析和AI工作負載的執行,實現實時推理。
GridGain尚未用于訓練大語言模型(至少我們知曉的范圍內沒有),但該平臺經常用于加速AI模型訓練,包括生成訓練測試數據或持續訓練,可以從傳入的交易和事件中實時提取特征或生成向量嵌入,并在GridGain內為模型訓練提供支持。
問:在過去12個月中,GridGain在AI大語言模型訓練和推理方面取得了哪些成就?
Lalit Ahuja:GridGain在大語言模型領域的最大價值主張是能夠為LLM提示和RAG應用引入實時性。通過動態生成向量嵌入,將其寫入內存向量存儲并供RAG應用使用,GridGain為應用程序實現了更準確、及時、相關的生成式AI交互。
例如,在交互式語音應答系統中,客戶的評論被實時處理以生成相關響應和有意義的交互,從而減少客戶要求與人工客服通話的時間。同樣,在企業事件管理通信中,基于處理事件或事故最新狀態作為LLM企業生成式AI應用的提示,實時起草可接受的消息。
問:GridGain專注于x86服務器內存還是GPU(HBM)內存?這兩種用例有何不同?
Lalit Ahuja:GridGain并不專門針對某種底層硬件/內存架構。該平臺可以與這兩種選項配合使用,由最終用戶決定哪種對他們更有價值。許多GridGain客戶沒有基于GPU的基礎設施,也不認為需要在此類基礎設施上投資,而其他客戶(特別是銀行業,更具體地說是資本市場子領域)在GPU上運行GridGain,以提高實時風險分析、投資組合管理和自動交易執行決策的執行性能。
問:GridGain是否與下游AI管道或存儲供應商集成,為其提供數據加載到內存中?
Lalit Ahuja:GridGain確實與許多上游和下游AI技術(包括管道或存儲供應商)集成,但它還為用戶提供獨特能力,可以實際處理事件和交易,用歷史上下文數據豐富它們,提取特征,生成向量,并在這些策劃數據上執行任何AI工作負載,所有這些都在交易或事件驅動決策的上下文中進行。GridGain將低延遲分布式內存數據存儲與計算引擎結合在同一資源池中的底層能力,最小化了跨網絡移動數據或任何形式的磁盤I/O(與讀寫基于磁盤的存儲相關)引入的延遲,使此類處理更高效且真正實時。
問:GridGain內存是否是具有數據攝取和驅逐以及攝取和驅逐緩存規則的緩存?它是如何工作的?
Lalit Ahuja:是的,但功能遠不止于此。GridGain是(或可以是)資源集群(服務器、虛擬機、節點、容器等,同時部署在本地、任何云或兩者結合),數據分布在集群的內存中。該集群可以在數據中心內或跨數據中心水平擴展。
集群可以配置為維護完整數據完整性,具有ACID合規性和零數據丟失,可選的持久磁盤存儲用于備份、快照和時間點恢復功能。在數據管理方面,是的,可以配置驅逐策略來自動管理內存中熱數據的生命周期,通過基于策略的驅逐到GridGain自己的管理磁盤存儲或任何第三方持久存儲。
在數據攝取方面,GridGain公開了許多基于標準的API(Java、C++、C#、SQL、REST、Python等),并與多種商業和開源流媒體和CDC(變更數據捕獲)技術集成,用于從各種來源(包括RDBMS、NoSQL數據庫、大型機、數據倉庫、數據湖)攝取數據,無論是本地還是基于云的。
問:集群服務器內存內容如何保持同步和組織?服務器內存之間是否有通信?
Lalit Ahuja:數據在集群內的各個內存資源之間分區,可選擇在集群中復制數據(RF2、RF3等)以實現冗余、高可用性和可配置的即時/嚴格或最終一致性。集群中的資源不斷相互通信;數據一致性和集群組織由GridGain內實現的強大行業標準共識協議管理。
問:GridGain與WEKA的增強內存網格有何關系?
Lalit Ahuja:GridGain的AI數據存儲與WEKA的增強內存網格之間存在一些重疊。話雖如此,WEKA類數據網格支持的用例與GridGain擅長的用例略有不同。WEKA的價值可能在于圍繞可重復使用AI令牌的規模經濟,而GridGain的差異化在于其從原始數據動態生成此類令牌并使其可用于實時AI/分析驅動用例的能力。
基于與任何后端數據存儲配合工作的核心設計/功能原則,我們已開始探索與WEKA網格集成,將其作為更多歷史分析用例的數據源,圍繞趨勢、模式、預測等。
問:GridGain是否適用于邊緣AI推理用例?
Lalit Ahuja:是的,因為GridGain可以在邊緣基礎設施上運行——我們在電信和物聯網相關邊緣計算應用中看到了用途。它可以對從本地傳感器、設備或事件流,或其他連接的GridGain集群傳遞或饋送到邊緣集群的相關數據運行本地化計算/分析——全球部署的GridGain集群可以有選擇地在彼此之間復制數據,并具有防止網絡分段的額外能力(如果這是一個問題的話)。
問:GridGain技術與MemVerge的技術有何關系?
Lalit Ahuja:GridGain與MemVerge的技術沒有直接關系,但我們不斷評估更好地優化處理能力的方法,并為客戶在底層資源管理方面提供經濟選擇。
問:CXL將如何影響GridGain?
Lalit Ahuja:CXL也是我們正在考慮的技術之一,以幫助優化底層資源的利用。在這種情況下,更多的是為了改善我們的數據復制和可用性能力。
注釋:RF-2是恢復力或冗余因子-2,意味著數據在系統中有一個冗余副本。RF-3意味著有兩個額外副本,以增強對數據丟失的安全性。