股癌 EP518 筆記 2024/12/28

2024-12-28 findsther

探討 DeepSeek V3 模型的低成本高效能對 AI 產業的影響。該模型使用降規版 H800 GPU,僅花費約 557 萬美元,即可達到近似頂級模型的效能,引起全球專家關注。此舉可能促使科技巨頭重新評估投入與供需策略,也引發投資人對市場情緒與回報的反思。儘管歐美企業基於安全考量,不太可能將核心訓練轉移至中國,但「便宜可用」的作法仍可能動搖既有投資與發展模式。

#個人整理一定會有不完整或理解錯誤,請以Podcast的內容為主。

股癌 EP518 筆記 2024/12/28

A. DeepSeek V3 的市場定位與初期反響

  1. 主持人觀察到
    主持人留意到,中國 DeepSeek 在 2024 年聖誕節期間發表 V3 模型。牆內輿論大力宣傳其「超英趕美」,但更值得注意的是,牆外許多 AI 專家在技術討論中也給出正面評價。

  2. 原因說明
    DeepSeek V3 之所以引起關注,主要在於它在硬體與禁令受限的環境下,仍能訓練出接近西方高階模型水準的成果。許多同業開始技術拆解,想知道中國開發者究竟用了哪些方法,克服了 H800 降規帶來的效能限制。

  3. 主持人分析
    主持人認為,這個模型雖然不一定能在所有指標上全面領先,但其「相對低成本、高可用度」的特點足以對市場產生長遠衝擊。尤其在 AI 模型不斷互相較勁、資本投入龐大的背景下,DeepSeek V3 的出現為未來競爭格局增添了變數。


B. 技術分析與成本優勢

  1. 主持人觀察到
    DeepSeek V3 使用了約 2000 多顆 H800 GPU,總成本約 557 萬美元;訓練時間與資料處理手段則在官方技術報告中有簡要提及,但未完全公開。

  2. 原因說明
    H800 是美國對中國禁售高階晶片後的「降規版本」。Interconnect 頻寬從 900G/s 降至 400G/s,理論上大幅降低了多 GPU 集群的線性延展性。然而,HBM 記憶體容量與頻寬大多保留,讓推論效能依然具備競爭力。

  3. 主持人分析
    主持人提到,相較之下,Llama 3.1 使用 16000 顆 H100,整體硬體成本數倍乃至數十倍於 DeepSeek V3。若再對比 GPT-4 或其他專有模型投入的數億至上百億美元,更可見 DeepSeek V3「以小博大」的震撼力。
    即便模型研發可能參考前人的架構與資料,但在硬體、資源都不完備的情況下,仍能調整演算法與訓練策略,足以證明中國在 AI 執行層面的實力。


C. 對產業的衝擊與影響

  1. 主持人觀察到
    西方科技巨頭如 OpenAI、Anthropic,以及 Oracle 創辦人 Larry Ellison 均預期未來 AI 競賽需投入數百億乃至上千億美元。DeepSeek V3 成本僅千萬美元級,形成鮮明對比。

  2. 原因說明
    這種低成本模式可能使公司董事會、大股東開始質疑:為何要持續砸下龐大資本來追求「最先進」?若能用較降規的硬體在短時間內就做到八九成的效果,是否應該重新審視 CAPEX 投入?

  3. 主持人分析
    若越來越多中國廠商加入低成本開發行列,全球伺服器和 GPU 需求可能出現供過於求的風險。一旦市場對 AI 股的熱度不再,供需結構失衡,將嚴重衝擊高階硬體及相關產業的獲利。
    主持人進一步表示,歐美企業基於資料安全與地緣政治考量,不太可能直接委託中國完成核心訓練,但在評估競品和投資回報時,還是難免被「中國模式」拉扯。


D. 主持人的投資策略調整與建議

  1. 主持人觀察到
    在過去一年,AI 需求強勁,市場普遍看好 GPU 與雲端伺服器供應鏈,但如今因 DeepSeek 之類的低成本解法出現,市場情緒出現微妙變化。

  2. 原因說明
    一旦 AI 熱潮趨緩,資本市場情緒將趨於理性,甚至出現恐慌拋售。加上供應鏈若轉向供過於求,股價與獲利皆可能面臨修正。

  3. 主持人分析
    主持人提到,自己已進入「警戒狀態」,會更積極觀察通路與原廠的庫存趨勢,並關注任何可能的供需失衡。
    雖然歐美公司仍主導核心技術,但中國超低成本的示範足以引起各方檢討投資報酬率,特別是當市場不再盲目追捧 AI 時,此種壓力會急速放大。

  4. 主持人可能怎麼做
    主持人透露自己將設置停利點、減碼過熱標的,並隨時根據供需與股價走勢調整佈局。他也建議投資人不要小看中國「抄後超車」的能量,並舉台灣部分晶片大廠的歷史為例,說明初期的山寨到後來真正與美國對手平起平坐的可能性。


#個人想法

星期五晚的美股,會是因為這個原因之一才跌?應該不會只是單單一個原因才對。看下星期一的變化。

如果真如DeepSeek所提出的只需低成本,就能做到差不多的效能,那會不會其它大巨頭會先延緩訂單?或是減單?因為方式已經有了,只是需要時間測試跟訓練。我猜想會不會顯卡在處理遊戲時,會不會也有類似的方式可以做到低規高用的可能?但是這樣做是否有利益就不知道了。
可能只要再有一家也提出了這類的低成本版本,股市應該會有大風吹了吧。

但之前有提到中國可能有用一些方式拿到沒有降規的GPU版本,會不會其實是用這些訓練,但是不能說出來而已?我亂猜的。

如果真如這樣快又省,政府會不會出手?要求協助其他大小企業?加快超過美國?

如果此訓練出來的模型反應超過GPT跟其他的,會不會使用在需要即時反應如機器人、車用上,會有更快的表現?

不過目前看了幾位Youtuber測試,結果很不一,就編寫程式方面有的測試的出來有的測試不出來。

可能要先把有關AI的槓桿的先減少,硬體的也先減少或賣出吧。軟體股還真不知要不要留著?不知會不會被影響?


QA內容

A. 台美股市投資策略比較研究

  1. 聽眾: 分享台股33%、美股115%的績效差異數據後,發現這並非源自於市場整體表現的差異,而是來自於投資策略和市場特性的不同。
  2. 原因說明: 台灣股市的特性需要較為靈活的操作策略,不適合採用長期持有的投資方式。相對而言,美股市場中存在較多適合長期持有的投資標的,這使得投資策略的選擇有所不同。
  3. 主持人分析: 投資績效的比較需要考慮多個面向:
    • 需要考慮槓桿因素,有槓桿和無槓桿的績效不能直接比較
    • 資金調度需要考慮跨國稅務影響
    • 不同市場特性需要採用不同的操作策略
  1. 主持人建議:
    • 如果在美股操作較為順手,可以考慮增加美股配置
    • 但需要審慎評估資金調回的稅務成本
    • 建議根據個人操作習慣和風險承受度來決定配置比例

B. 茂達電投資價值分析

  1. 主持人: 茂達電目前市場估值偏低,但具有多元的業務發展方向,包括:
    • Pimic (電源管理IC)
    • Nintendo新產品供應鏈
    • Server Fan市場
    • 記憶體相關產品
    • CKD Chip(DDR5第一子代時鍾驅動器芯片)等領域
  1. 原因說明: 儘管基本面良好,但股價表現未能反映公司價值,可能受到市場情緒和短期因素影響。
  2. 主持人分析:
    • 公司基本面穩健,在產業中具有良好口碑
    • 多元化的業務布局提供成長動能
    • 目前股價具有投資價值
  1. 主持人操作策略:
    • 目前已進行停損觀望
    • 等待更好的市場氛圍再進場
    • 避免使用固定分點以減少追蹤交易的影響

C. 台指期與ETF投資工具選擇分析

  1. 主持人: 市場已從逆價差轉為正價差環境,這影響了投資工具的選擇策略。
  2. 原因說明: 在不同的價差環境下,期貨和ETF各有其優劣勢:
    • 逆價差環境:期貨轉倉可獲取額外收益
    • 正價差環境:期貨轉倉需要支付額外成本
  1. 主持人分析: 正價差環境下,ETF可能是更具成本效益的選擇,類似於美股市場NQ或標普期貨的情況。
  2. 主持人建議:
    • 建議根據市場環境靈活選擇工具
    • 目前傾向使用ETF持有大盤部位
    • 減少期貨轉倉操作頻率