Google發表了一項名為「TurboQuant」的軟體演算法突破,記憶體晶片類股應聲重挫。示意圖,AI生成
Google發表了一項名為「TurboQuant」的軟體演算法突破,記憶體晶片類股應聲重挫。
這合理嗎?我認為:完全合理。
但前提是,我們必須理解,市場上同時存在兩種看似矛盾、卻各自成立的「理性」:一種是短線資金的「交易理性」,另一種是產業發展的「結構理性」。這次的修正,正是前者壓倒後者。
發生了什麼?一個軟體魔法
首先,讓我們快速回顧一下事件的核心。
大型語言模型(LLM)在處理長文時,需要一個巨大的「短期記憶區」,稱為KV快取(KV Cache)。隨著模型上下文長度的爆炸性增長,這塊區域成為了AI伺服器中最吞噬昂貴高速記憶體(HBM/DRAM)的元兇。
Google的TurboQuant,就是一個聰明絕頂的數學魔法。它透過一種無需重新訓練模型的演算法,在不損失任何精度的前提下,將這塊記憶體的佔用壓縮了至少6倍,同時還能讓部分計算速度提升高達8倍。
這是一個純軟體、純演算法的勝利,它讓現有的硬體能以更聰明的方式工作。
為什麼NVIDIA之前的動作沒嚇到人?
眼尖的讀者可能會問:Nvidia過去幾個月不是也推出了類似的KV壓縮技術(如DMS或KVTC),甚至號稱能壓縮20倍嗎?為什麼那時市場沒反應?
關鍵在於「通用性」與「心理預期」。Nvidia的技術通常綁定在自家生態系(TensorRT-LLM),大家覺得那是「應該的」。但Google這次拋出的是一個不分硬體、不需重新訓練的數學解法。
但更重要的是,時機決定了敘事。當市場正處於高位、投機情緒達到頂點、戰爭危機不明朗、大家都在尋找獲利了結的理由時,Google這個「更簡單、更通用」的方案,就成了壓垮短期信心的那根稻草。
短線交易的理性 vs. 長線投資的遠見
既然同樣的任務,現在只需要過去六分之一的記憶體,那對記憶體晶片的需求不就崩盤了嗎?
這個結論,是典型的「第一層思維」。
但是,對於短線資金來說,基於這個結論進行拋售,是完全合理的交易行為。
在2025年至2026年初的AI狂潮中,記憶體股已經累積了巨大的漲幅,其中充斥著大量的動能交易者、對沖基金和追逐頭條的短線投機資本。
對他們而言,TurboQuant的出現,構成了一個完美的「賣出新聞」(Sell the News)觸發器。
「Google斬斷AI最大瓶頸」這樣的標題,即便長期來看可能被證偽,但在當下製造了巨大的不確定性。
短線資金的生存法則是「先開槍,後問話」。
試想一下,最近有多少人在談論記憶體?「HBM」這個詞已經從一個晦澀的產業術語,變成了連你的祖父母都可能聽過的熱門話題。
人人都知道「AI很耗記憶體」、「記憶體很貴」。但其中又有多少人真正理解軟體優化與硬體需求之間的複雜互動?寥寥無幾。
因此,當「Google軟體突破大幅降低記憶體需求」這樣的頭條新聞出現時,市場的反應其實十分合理。它觸發了一波來自散戶與熱錢的「恐慌性賣壓」,他們根據新聞標題交易,而非深入分析。他們不會等待細節,只會選擇拋售。
歷史的鏡子:DeepSeek的MLA奇蹟
如果你覺得6倍壓縮很驚人,那我們回頭看看2025年初發生的事情。
當時DeepSeek發布了V3與R1模型,引入了一項名為MLA(Multi-head Latent Attention)的底層架構突破。這不是像TurboQuant這樣的後製補丁,而是從訓練階段就改變了模型結構。
MLA的壓縮率有多誇張?
- 傳統架構(MHA): 在128k上下文下,可能需要數百GB的KV快取。
- DeepSeek MLA: 將KV快取體積直接砍掉了93%。
- 結果: 它的記憶體佔用比傳統架構減少了20到60倍。
當時(2025年1月),市場也出現了同樣的恐慌,「如果模型效率提升60倍,我們還需要這麼多HBM嗎?」
但之後的結果是,DeepSeek的成功讓全球意識到,長上下文、高吞吐量的推理原來可以這麼便宜、這麼好用。於是,全球企業開始瘋狂部署更長的對話、更複雜的AI代理人(Agents)。HBM的總需求不但沒有下降,反而因為應用場景的爆發而進一步激增。
又是傑文斯悖論(Jevons Paradox)
「傑文斯悖論」最近「老是常出現」,但也要再介紹一下:
當一項技術的效率顯著提升,導致其使用成本大幅下降時,它的總消耗量不但不會減少,反而會因為應用的普及而大幅增加。
在過去,因為長上下文的記憶體成本太高,我們只能運行128k tokens的模型,或者限制對話的輪次。
但現在有了TurboQuant這樣的技術,運行百萬級token模型的成本大幅降低。
企業會怎麼做?他們會說「太好了,我們可以省錢裁撤伺服器」嗎?不,他們會說:「太棒了!我們終於可以讓AI處理整本書、一整季的財報、或是開發需要超長記憶的複雜AI代理人了!」
軟體效率的提升,從來不是為了讓硬體「休息」,而是為了解放硬體性能的枷鎖,去挑戰過去無法想像的任務。成本的下降會催生出海量的、更複雜的AI應用,最終反而會驅動對更多、更強大硬體的需求。
一場全行業的軍備競賽
我們亦必須意識到,Google的TurboQuant並非一個孤立事件。它是一場席捲整個AI行業的、針對記憶體瓶頸的「軍備競賽」的縮影。
當前,推理成本(Inference Cost),特別是記憶體牆,已經取代了其他因素,成為限制AI模型規模化應用的頭號瓶頸。
因此,我們看到Google和Nvidia相繼推出自家的技術,嘗試打破這道記憶體牆。
是「重新定位」不是被「顛覆」
我不認為記憶體產業正在被顛覆;相反地,它正變得比以往更加核心。但核心並不代表股價會一路向上。
目前的動盪,是市場在經歷一場痛苦但健康的「去槓桿」與「重新定價」。當那些追逐熱點的籌碼因為恐懼而離場,市場的噪音才會消失,將過度膨脹的預期,修正回紮實的基本面。
如果你身處其中,必須理解:當大眾不再瘋狂討論記憶體時,這場長線遊戲才真正回歸健康。
本文由臉書粉專「
Fomo研究院」授權提供