震撼矽谷的「巨嬰」誕生:1.5 億美元的種子輪
如果你對創投圈的數字有點概念,通常「種子輪(Seed Round)」意味著幾個充滿熱情的年輕人,拿著幾百萬美元(通常是 150 萬到 300 萬)在車庫裡試錯。
但在 AI 的瘋狂年代,規則被重寫了。AI 推論基礎設施 ,正在取代模型訓練,成為生成式 AI 時代真正的決勝戰場。
2026 年 1 月 22 日,矽谷頂級創投 a16z 丟出了一顆震撼彈:他們領投了一家名為 Inferact 的新創公司,首輪融資就高達 1.5 億美元(約 48 億台幣),估值直逼 8 億美元。
這哪裡是種子?這根本是一棵剛落地就已經參天的神木。
這家公司的背後,是一群你可能沒聽過名字,但你的 AI 應用肯定用過他們程式碼的人—— vLLM 開源專案的原始創作者們。這筆交易不僅僅是錢的問題,它標誌著 AI 產業正在從「軍備競賽(訓練模型)」進入到「後勤戰爭(推論部署)」。
這篇文章,我們不談艱澀的 CUDA 代碼,我們用 AlphaLab 的視角,帶你看懂為什麼這群 Berkeley 的博士生值這個價。
一、 為什麼是 vLLM?解決 AI 的「富貴病」
在深入 Inferact 之前,我們得先聊聊 vLLM。
想像一下,你開了一家米其林餐廳(AI 模型),廚師手藝極好(模型參數很大)。但餐廳的桌椅安排極度混亂,客人(數據)來了之後,明明有空位卻被雜物堆滿,導致翻桌率極低,客人排隊排到生氣。
在 2023 年之前,跑大型語言模型(LLM)就是這種狀況。GPU 的記憶體(VRAM)非常昂貴,但傳統的記憶體管理方式會造成大量的「碎片化浪費」——就像明明水瓶只裝了一半水,卻佔了一個完整的杯架。
vLLM 的出現,發明了一種叫 PagedAttention 的技術。
簡單來說,它就像電腦作業系統管理記憶體一樣,把這些數據切成小塊(Pages),哪裡有空位就塞哪裡,不再需要連續的空間。這一個改動,讓 GPU 的「翻桌率」(吞吐量 Throughput)瞬間提升了 2 到 4 倍,甚至在某些場景下高達 24 倍。
這個開源專案迅速成為業界標準。根據 GitHub 數據,它已經有 6.8 萬顆星,被 Meta、Google、Character.AI 等巨頭用於生產環境。
一句話總結:vLLM 讓原本要買 10 張 H100 顯卡才能做的事,現在可能 3 張就搞定。這就是它的價值。
二、 Inferact 的野心:打造 AI 推論基礎設施 的 Red Hat
社群媒體上對這則新聞的反應非常有趣。在 X(Twitter)上,有開發者打趣道:「$150M is the new $1.5M(現在的 1.5 億就跟以前的 150 萬一樣稀鬆平常)。」
但 a16z 的合夥人 Matt Bornstein 在對談影片中點出了一個關鍵邏輯:「未來的 AI 工作負載將是極度多樣化的。」
目前的現狀是:
- 模型多: Llama 3、DeepSeek、Mixtral,每週都有新模型。
- 硬體雜: 以前只有 NVIDIA,現在有 AMD MI300、Google TPU、AWS Trainium,甚至還有 Groq 這種專用晶片。
開發者快瘋了。你想換個便宜的硬體,結果發現程式碼要重寫;你想換個新模型,發現舊的引擎不支援。
Inferact 的成立,就是要解決這個「碎片化地獄」。
由 vLLM 的核心維護者 Simon Mo(CEO)和 Woosuk Kwon(CTO)領軍,Inferact 的目標很明確:做那個「中間人」。
- 對下: 他們搞定所有硬體的適配(CUDA, ROCm, TPU…)。
- 對上: 他們提供統一的接口給所有模型。
- 對內: 他們承諾繼續維護 vLLM 開源版(這點很重要,安撫了社群的焦慮)。
- 對外: 他們賣企業級服務(Enterprise Inference Engine),保證穩定、安全、極致優化。
這就是經典的 Red Hat 模式(靠免費的 Linux 建立生態,靠企業服務賺錢),或者是現在的 Databricks 模式。
三、 AlphaLab 深度解析:三個你看不到的投資邏輯
為什麼 a16z、紅杉(Sequoia)、Lightspeed 這些神仙打架的頂級 VC 都要擠進這一輪?
1. 推論成本 > 訓練成本(The Inference Flip)
過去幾年,大家的錢都燒在「訓練(Training)」模型上。但隨著模型訓練好並上線,真正的燒錢大坑變成了「推論(Inference)」,也就是用戶每次問 ChatGPT 問題時所消耗的算力。 特別是現在流行 Agent(代理人) 和 Reasoning Models(如 o1),AI 在回答你一個問題前,可能自己在後台已經思考(推論)了幾百次。推論市場的規模,預計在 2030 年會達到 3000 億美元。誰掌握了推論的效率,誰就掌握了 AI 的水龍頭。
2. 解除 NVIDIA 的「軟體鎖」
NVIDIA 之所以強,不只是硬體,還有 CUDA 生態。但 Inferact 這種高效的軟體層如果做大,它能讓開發者更容易地遷移到 AMD 或其他 ASIC 晶片上,而不損失太多性能。這對於想要擺脫 NVIDIA 壟斷的雲端大廠來說,是戰略級的工具。
3. 開源是唯一的護城河
在 Infra(基礎設施)領域,閉源軟體越來越難存活。TensorRT-LLM(NVIDIA 自家出的)雖然強,但它是為了賣卡。只有 vLLM 這種中立、開源、社群驅動的專案,才能像變形蟲一樣適應所有新出現的奇怪模型架構(如 MoE)。投資 Inferact,其實是買下了這個龐大開發者社群的「控制權」與「商業轉化權」。
四、 社群聲音與潛在風險
當然,推特上也不是一片叫好。
- 社群擔憂: 「拿了這麼多錢,開源版本會不會變成『閹割版』?」這是所有開源商業化公司都會面臨的靈魂拷問。雖然團隊承諾 vLLM 會保持 Apache 2.0 協議,但未來的重心分配仍需觀察。
- 技術競爭: 競爭對手 SGLang(另一個超強的推論引擎,已被許多大廠採用)背後也有強大的學術與資本支持。這場戰爭還沒結束。
AlphaLab 觀點:下一步是什麼?
對於台灣的開發者或企業來說,這則新聞釋放了幾個訊號:
- 本地部署的黃金時代: 有了 Inferact 的資金挹注,vLLM 對各種硬體的支援會更快。這意味著企業在自家機房(On-prem)跑大模型的門檻會更低。
- 關注 AMD/Intel 顯卡: 隨著 vLLM 對非 NVIDIA 硬體的支援優化,採購非 H100 卡的 CP 值可能會在今年大幅提升。
- Inference as a Service: 未來我們可能不再需要自己架設伺服器,而是像使用 Serverless 資料庫一樣,連結 Inferact 的服務,隨插即用。
結論: 1.5 億美元不僅是對一個團隊的認可,更是矽谷在告訴全世界:「模型大戰或許還在打,但賣鏟子(基礎設施)的人已經準備好收割了。」
從長期來看,AI 推論基礎設施的價值,很可能超過單一模型本身。Inferact 能否成為 AI 時代的基礎設施霸主?這場好戲才剛開始。
相關文章:
AI 光通訊 概念股:2026 光學超級週期,誰會是下一個 NVIDIA?
(本文數據截至 2026 年 1 月 23 日,基於公開市場資訊與技術文件分析)


發表迴響