爭議點一: DeepSeek 使用「蒸餾技術」侵權OpenAI嗎?
OpenAI聲稱已看到中國公司利用「distillation」蒸餾技術從OpenAI 模型的 API 提取知識來打造自己的模型。(新聞來源)
蒸餾(Distillation)是 AI 訓練中的常見方法,透過學習大型模型的輸出,降低成本並打造更高效的模型。這是否構成侵權,現在成是AI 界的熱議話題。
OpenAI 認為 DeepSeek 的做法 違反了服務條款,因為:
1. DeepSeek 疑似利用 OpenAI 模型的 API 進行蒸餾,提取知識來打造自己的模型
2. OpenAI 的條款明確禁止 使用 OpenAI 服務來開發競爭性產品
目前 OpenAI 尚未提供具體證據證明 DeepSeek 確實「抄襲」了 OpenAI模型。
爭議點二:是否違反美國出口限制?
科普來自於香港科技類博主@Choco Kiu,目前為止有三個可能:(已從粵語轉換為更方便品蔥上各位理解的語式,原文地址)
第一個是由Scale AI的創辦人Alexandr Wang提出,指控DeepSeek擁有50,000被禁入口中國的H100芯片。這個說法得到Elon Musk留言認同,Anthropic CEO Dario Amodei也認為雖然偷運有困難,但並非沒有可能。如果屬實,DeepSeek那邊幾百億美元的成本就不是真實數字,所以個人認為可能性不大。
第二個說法是DeepSeek的確淨是用他們手頭上的2048張NVIDIA H800訓練出V3同R1。V3份論文中,DeepSeek講述過他們的優化方法,原則上只要實踐一次就知真假。根據其說法,H800作為H100的閹割版,唯一的差異就在於H100嘅頻寬有900GB/s,而H800只有160GB/s。因為訓練模型需要大量GPU平行運算,因此GPU之間高速傳送運算數據的能力是訓練效能的關鍵。
而面對這個困局,DeepSeek自行改裝GPU裡面稱為Streaming Multiprocessors(SMs)的運算元件,總數132粒SM裡面他們將20粒由運算用改成了做傳輸。這種改裝是比CUDA更低的PTX (Parallel Thread Execution)層級執行,需要極高技術實力。DeepSeek再將GPU之間傳輸的數據切割做150GB chunks,用持續性方式傳送,變相破解了H800頻寬的限制。
第三個說法就是DeepSeek用了華為最新的910C芯片,算力可以同NVIDIA H100平齊。
AI裡面GPU最主要分做兩個需求:Pre-training(訓練模型)的算力需求以及Inference(使用模型,例如你在DeepSeek這個app裡問問題)的算力需求。我的分析是,既然他們這篇論文寫到這麼詳細,這麼自豪地向全世界揭示大費周章改良這樣那樣的成果,DeepSeek-R1的訓練過程應該真是只用了2048張H800s。但是這兩日全球App Store榜首的情況下,DeepSeek如果還(免費地)應付到急升的運算需求就稍為奇怪了,所以他們停了新用戶註冊都正常。
暂无评论内容