AI 推論基礎設施 :vLLM 團隊融資 1.5 億,Inferact 會是 AI 的 Red Hat 嗎?

震撼矽谷的「巨嬰」誕生:1.5 億美元的種子輪

如果你對創投圈的數字有點概念,通常「種子輪(Seed Round)」意味著幾個充滿熱情的年輕人,拿著幾百萬美元(通常是 150 萬到 300 萬)在車庫裡試錯。

但在 AI 的瘋狂年代,規則被重寫了。AI 推論基礎設施 ,正在取代模型訓練,成為生成式 AI 時代真正的決勝戰場。

2026 年 1 月 22 日,矽谷頂級創投 a16z 丟出了一顆震撼彈:他們領投了一家名為 Inferact 的新創公司,首輪融資就高達 1.5 億美元(約 48 億台幣),估值直逼 8 億美元。

這哪裡是種子?這根本是一棵剛落地就已經參天的神木。

這家公司的背後,是一群你可能沒聽過名字,但你的 AI 應用肯定用過他們程式碼的人—— vLLM 開源專案的原始創作者們。這筆交易不僅僅是錢的問題,它標誌著 AI 產業正在從「軍備競賽(訓練模型)」進入到「後勤戰爭(推論部署)」。

這篇文章,我們不談艱澀的 CUDA 代碼,我們用 AlphaLab 的視角,帶你看懂為什麼這群 Berkeley 的博士生值這個價。


一、 為什麼是 vLLM?解決 AI 的「富貴病」

在深入 Inferact 之前,我們得先聊聊 vLLM。

想像一下,你開了一家米其林餐廳(AI 模型),廚師手藝極好(模型參數很大)。但餐廳的桌椅安排極度混亂,客人(數據)來了之後,明明有空位卻被雜物堆滿,導致翻桌率極低,客人排隊排到生氣。

在 2023 年之前,跑大型語言模型(LLM)就是這種狀況。GPU 的記憶體(VRAM)非常昂貴,但傳統的記憶體管理方式會造成大量的「碎片化浪費」——就像明明水瓶只裝了一半水,卻佔了一個完整的杯架。

vLLM 的出現,發明了一種叫 PagedAttention 的技術。

簡單來說,它就像電腦作業系統管理記憶體一樣,把這些數據切成小塊(Pages),哪裡有空位就塞哪裡,不再需要連續的空間。這一個改動,讓 GPU 的「翻桌率」(吞吐量 Throughput)瞬間提升了 2 到 4 倍,甚至在某些場景下高達 24 倍。

這個開源專案迅速成為業界標準。根據 GitHub 數據,它已經有 6.8 萬顆星,被 Meta、Google、Character.AI 等巨頭用於生產環境。

一句話總結:vLLM 讓原本要買 10 張 H100 顯卡才能做的事,現在可能 3 張就搞定。這就是它的價值。


二、 Inferact 的野心:打造 AI 推論基礎設施 的 Red Hat

社群媒體上對這則新聞的反應非常有趣。在 X(Twitter)上,有開發者打趣道:「$150M is the new $1.5M(現在的 1.5 億就跟以前的 150 萬一樣稀鬆平常)。」

但 a16z 的合夥人 Matt Bornstein 在對談影片中點出了一個關鍵邏輯:「未來的 AI 工作負載將是極度多樣化的。」

目前的現狀是:

  1. 模型多: Llama 3、DeepSeek、Mixtral,每週都有新模型。
  2. 硬體雜: 以前只有 NVIDIA,現在有 AMD MI300、Google TPU、AWS Trainium,甚至還有 Groq 這種專用晶片。

開發者快瘋了。你想換個便宜的硬體,結果發現程式碼要重寫;你想換個新模型,發現舊的引擎不支援。

Inferact 的成立,就是要解決這個「碎片化地獄」。

由 vLLM 的核心維護者 Simon Mo(CEO)和 Woosuk Kwon(CTO)領軍,Inferact 的目標很明確:做那個「中間人」。

  • 對下: 他們搞定所有硬體的適配(CUDA, ROCm, TPU…)。
  • 對上: 他們提供統一的接口給所有模型。
  • 對內: 他們承諾繼續維護 vLLM 開源版(這點很重要,安撫了社群的焦慮)。
  • 對外: 他們賣企業級服務(Enterprise Inference Engine),保證穩定、安全、極致優化。

這就是經典的 Red Hat 模式(靠免費的 Linux 建立生態,靠企業服務賺錢),或者是現在的 Databricks 模式


三、 AlphaLab 深度解析:三個你看不到的投資邏輯

為什麼 a16z、紅杉(Sequoia)、Lightspeed 這些神仙打架的頂級 VC 都要擠進這一輪?

1. 推論成本 > 訓練成本(The Inference Flip)

過去幾年,大家的錢都燒在「訓練(Training)」模型上。但隨著模型訓練好並上線,真正的燒錢大坑變成了「推論(Inference)」,也就是用戶每次問 ChatGPT 問題時所消耗的算力。 特別是現在流行 Agent(代理人)Reasoning Models(如 o1),AI 在回答你一個問題前,可能自己在後台已經思考(推論)了幾百次。推論市場的規模,預計在 2030 年會達到 3000 億美元。誰掌握了推論的效率,誰就掌握了 AI 的水龍頭。

2. 解除 NVIDIA 的「軟體鎖」

NVIDIA 之所以強,不只是硬體,還有 CUDA 生態。但 Inferact 這種高效的軟體層如果做大,它能讓開發者更容易地遷移到 AMD 或其他 ASIC 晶片上,而不損失太多性能。這對於想要擺脫 NVIDIA 壟斷的雲端大廠來說,是戰略級的工具。

3. 開源是唯一的護城河

在 Infra(基礎設施)領域,閉源軟體越來越難存活。TensorRT-LLM(NVIDIA 自家出的)雖然強,但它是為了賣卡。只有 vLLM 這種中立、開源、社群驅動的專案,才能像變形蟲一樣適應所有新出現的奇怪模型架構(如 MoE)。投資 Inferact,其實是買下了這個龐大開發者社群的「控制權」與「商業轉化權」。


四、 社群聲音與潛在風險

當然,推特上也不是一片叫好。

  • 社群擔憂: 「拿了這麼多錢,開源版本會不會變成『閹割版』?」這是所有開源商業化公司都會面臨的靈魂拷問。雖然團隊承諾 vLLM 會保持 Apache 2.0 協議,但未來的重心分配仍需觀察。
  • 技術競爭: 競爭對手 SGLang(另一個超強的推論引擎,已被許多大廠採用)背後也有強大的學術與資本支持。這場戰爭還沒結束。

AlphaLab 觀點:下一步是什麼?

對於台灣的開發者或企業來說,這則新聞釋放了幾個訊號:

  1. 本地部署的黃金時代: 有了 Inferact 的資金挹注,vLLM 對各種硬體的支援會更快。這意味著企業在自家機房(On-prem)跑大模型的門檻會更低。
  2. 關注 AMD/Intel 顯卡: 隨著 vLLM 對非 NVIDIA 硬體的支援優化,採購非 H100 卡的 CP 值可能會在今年大幅提升。
  3. Inference as a Service: 未來我們可能不再需要自己架設伺服器,而是像使用 Serverless 資料庫一樣,連結 Inferact 的服務,隨插即用。

結論: 1.5 億美元不僅是對一個團隊的認可,更是矽谷在告訴全世界:「模型大戰或許還在打,但賣鏟子(基礎設施)的人已經準備好收割了。」

從長期來看,AI 推論基礎設施的價值,很可能超過單一模型本身。Inferact 能否成為 AI 時代的基礎設施霸主?這場好戲才剛開始。


相關文章:

AI 光通訊 概念股:2026 光學超級週期,誰會是下一個 NVIDIA?

a16z


(本文數據截至 2026 年 1 月 23 日,基於公開市場資訊與技術文件分析)

Comments

發表迴響

探索更多來自 阿爾發實驗室 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading