8月21日,DeepSeek官方公眾號公布,其最新大語言模型DeepSeek-V3.1正式發布。此時距離DeepSeek-V3-0324推出已過去5個月時間。
據DeepSeek介紹,新升級版本的變化主要體現在三個方面:混合推理架構、更高的思考效率、更強的Agent(智能體)能力。如果僅從命名來看,DeepSeek-V3.1更像是前一代DeepSeek-V3模型的小版本迭代。
DeepSeek-V3.1實現了一個模型同時支持思考模式與非思考模式。它就像一個擁有兩種工作模式的超級大腦,當面對簡單問題時,能以非思考模式快速給出答案。而在處理復雜問題時,可切換到思考模式,給出更具深度和邏輯的解答。用戶可通過官方App或網頁端的“深度思考”按鈕切換這兩種模式。
官方數據顯示,與DeepSeek-R1-0528相比,DeepSeek-V3.1在思考模式下效率大幅提升,能在更短時間內給出答案,且經過思維鏈壓縮訓練,token(大模型文本處理的最小單位)消耗量可減少20%至50%,各項任務的平均表現與R1-0528持平。R1-0528是DeepSeek于今年5月發布的旗艦推理模型DeepSeek R1的升級版本。

同時,V3.1在非思考模式下的輸出長度也得到了有效控制,相比于DeepSeek-V3-0324,能夠在輸出長度明顯減少的情況下保持相同的模型性能。
通過Post-Training(后訓練,大語言模型訓練流程中的關鍵階段)優化,新模型在工具使用與編程、搜索等智能體任務中的表現大幅提升。在代碼修復和命令行終端任務測試中,DeepSeek-V3.1相較以往模型進步明顯。
社區第三方測試數據顯示,在Aider多語言編程基準測試中,V3.1取得了71.6%的高分,超越了Anthropic的Claude 4 Opus等多個知名模型,且完成一次編程任務的成本僅為1.01美元,成本效益優勢顯著。
隨著V3.1發布,DeepSeek也同步調整了API接口調用價格,并取消夜間優惠。自北京時間2025年9月6日凌晨起,輸入價格方面,緩存命中時為0.5元/百萬tokens,緩存未命中時則漲至4元/百萬tokens(此前V3為2元/百萬tokens);輸出價格調整為12元/百萬tokens(此前V3為8元/百萬tokens)。
值得注意的是,DeepSeek還在評論區中提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度。另外,V3.1對分詞器及chat template進行了較大調整,與DeepSeek-V3存在明顯差異。DeepSeek官微在置頂留言里表示,UE8M0 FP8是針對即將發布的下一代國產芯片設計。
此前有第三方數據顯示,DeepSeek用戶使用率和官網流量回落。據第一財經報道,360集團創始人周鴻祎對此表示,DeepSeek官網流量下降是因為DeepSeek沒有花心思,但現在很多第三方云服務上都有DeepSeek的服務,用了DeepSeek的大模型流量一直很高。在中國,許多公司包括360智能體的基座模型等都使用DeepSeek來改,相當于很多公司的“武器裝備”都是DeepSeek提供的。

域名頻道為客戶提供服務器代維服務,為客戶節約服務器維護成本,費用不到專職人員的十分之一。
服務器托管與單獨構建機房和租用專線上網相比、其整體運營成本有較大降低。
網站空間可隨意增減空間大小,空間升級可以按照對應的產品號升級到相對應的空間類型。隨時隨地能達到用戶的使用要求。
您有自己的獨立服務器,需要托管到國內機房,我們為你提供了上海電信五星級骨干機房,具體請查看http://www.tom51.com/server/ai-server.asp
域名頻道IDC知識庫