世界領先開放原始碼軟體解決方案供應商 Red Hat 於 Red Hat Summit 2025 正式宣布推出全新開源專案 llm-d,旨在回應未來生成式 AI(Gen AI)最關鍵的大規模推論需求。llm-d 運用突破性的生成式 AI 大規模推論技術,並採用原生 Kubernetes 架構、基於 vLLM 的分散式推論,以及智慧型 AI 感知網路路由,打造出強大的大型語言模型(LLM)推論雲端,以滿足最嚴苛的生產服務水準目標(service-level objectives,SLO)。 儘管模型訓練仍至關重要,但生成式 AI 的真正價值更仰賴有效率且可擴展的推論能力,這才是將 AI 模型轉化為可執行的洞察和使用者體驗的引擎。根據 Gartner 預測指出,隨著市場趨於成熟,2028 年超過 80% 的資料中心工作負載加速器將專門用於推論,而非訓練用途,此趨勢凸顯出生成式 AI 的未來取決於執行能力。然而,隨著推理模型日益複雜且龐大,對資源的需求不斷攀升,種種因素不僅限制了集中式推論的可行性,其衍生的高成本和嚴重的延遲更可能成為 AI 創新的瓶頸。 Red Hat 資深副總裁暨 AI 技術長 Brian Stevens 表示:「由眾多 AI 領導者支持的 llm-d 社群的啟動,象徵著我們正處於滿足可擴展生成式 AI 推論需求的關鍵時刻,亦為企業實現更廣泛的 AI 應用時必須克服的重大挑戰。透過運用 vLLM 的創新技術和 Kubernetes 經驗證的能力,llm-d 協助企業更順暢地在擴展的跨混合雲環境中實現分散式、可擴展且高效能的 AI 推論,能夠支援任何模型、任何加速器,在任何雲端環境中運行,協助實現 AI 無限潛力的願景。」 借助 llm-d 滿足對可擴展生成式 AI 推論的需求 為應對上述挑戰,Red Hat 攜手業界夥伴共同推出 llm-d。這項具前瞻性的專案不僅能強化 vLLM 的能力以突破單一伺服器的限制,同時也為 AI 推論釋放大規模生產的潛力。llm-d 運用 Kubernetes 經驗證且強大的調度能力,將進階推論功能無縫整合至企業既有的 IT 基礎架構中。IT 團隊得以於統一平台上滿足關鍵業務工作負載的多樣化服務需求,同時透過部署創新技術將效率極大化,並大幅降低高效能 AI 加速器帶來的總體擁有成本(TCO)。
llm-d 提供一系列強大的創新功能,亮點包括: vLLM 迅速成為開源領域實質上的標準推論伺服器:為新興模型提供 Day 0 模型支援,可用於多種加速器,包括 Google Cloud Tensor Processor Units(TPU)。 預填與解碼分離:將 AI 的輸入內容和權杖生成階段分離為獨立的運算作業,並將這些作業分散到多個伺服器上執行。 基於 LMCache 的鍵值(key-value,KV)快取卸載:將 KV 快取的記憶體負載從 GPU 記憶體中移轉到成本效益更高且資源更豐富的標準儲存裝置,例如 CPU 記憶體或網路儲存。 由 Kubernetes 驅動的叢集和控制器:可在工作負載需求波動時,更有效地調度運算與儲存資源,同時維持效能並降低延遲。 AI 感知網路路由:將傳入請求排程至最有可能擁有先前推論運算熱快取的伺服器和加速器。 高效能通訊應用程式介面:可在伺服器之間實現更為快速高效的資料傳輸,並支援 NVIDIA Inference Xfer Library(NIXL)。 llm-d 獲業界領導者支持 這項全新開源專案已獲得由頂尖生成式 AI 模型供應商、AI 加速器領航者以及一流 AI 雲端平台組成的強大聯盟鼎力支持。CoreWeave、Google Cloud、IBM Research 和 NVIDIA 為創始貢獻者,AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 則為合作夥伴,此陣容凸顯出業界為打造大規模 LLM 服務的未來所展現的深度協作。llm-d 社群亦獲得重要學術界創始支持者的響應,包括加州大學的 Sky Computing Lab(vLLM 的創始單位),以及芝加哥大學的 LMCache Lab(LMCache 的創始單位)。 Red Hat 秉持對開放協作的承諾,深知在生成式 AI 推論快速演進下,充滿活力且易於參與的社群為核心關鍵。Red Hat 將積極耕耘 llm-d 社群以推動其成長,為新成員營造包容的環境,並促進其持續發展。 Red Hat 的願景:任何模型、任何加速器、任何雲端。 AI 的未來應由無限機會所定義,而非受限於基礎架構孤島。Red Hat 對未來的展望是,企業能於任何雲端、任何加速器上部署任何模型,並在合理成本的前提下提供卓越且更一致的使用者體驗。為充分釋放生成式 AI 投資的真正潛力,企業需要通用的推論平台,這將成為現今及未來實現更無縫、高效能 AI 創新的標準。 正如 Red Hat 曾將 Linux 轉型為現代 IT 的基石,開創了開源企業的先河,如今 Red Hat 也將擘劃 AI 推論的未來。vLLM 擁有成為標準化生成式 AI 推論關鍵核心的潛力,Red Hat 不僅持續致力壯大 vLLM 社群,也同時推動大規模分散式推論的 llm-d,共同打造蓬勃發展的生態系。Red Hat 的願景非常明確,亦即無論 AI 模型、基層加速器或部署環境為何,vLLM 皆能成為新型態跨混合雲推論的開源標準權威。 - 新聞稿有效日期,至2025/07/05為止
聯絡人 :Jenny 聯絡電話:0277187777 電子郵件:TA1@apexpr.com.tw
上一篇:摩爾斯微電子與Gateworks以Wi-Fi HaLow技術革新工業
下一篇:創辦人盧政良堅持初心,用公益打造希望藍圖
|