分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
DeepSeek周一低調(diào)發(fā)布了6850億參數(shù)的AI開源模型DeepSeek-V3的更新版本V3-0324,加強了模型的編程能力,在Hugging Face上線并取得MIT許可證,可免費用于商業(yè)用途。該模型可以在消費級硬件上運行,例如配備M3 Ultra芯片的蘋果Mac Studio,打破了大模型必須依賴數(shù)據(jù)中心的傳統(tǒng)思路;同時采用“專家”模塊,僅在特定任務中激活部分參數(shù),顯著降低算力需求;并引入多頭潛在注意力(MLA)和多標記預測(MTP)技術(shù),輸出速度提升80%。有AI研究者在社交平臺X上發(fā)布評測指出,V3-0324模型在所有基準測試中都取得巨大進步,可能已超越Claude 3.5 Sonnet,成為最強大的非推理模型。