MiniMax開源推理模型M1:支持最高百萬上下文輸入,訓練成本爲R1的十分之一

MiniMax發佈新款開源大模型,稱其性價比優於DeepSeek。

6月17日,國內大模型獨角獸MiniMax發佈世界上第一個開源的大規模混合架構的推理模型MiniMax-M1,這也是“MiniMaxWeek”系列發佈活動的首個對外發布。

據MiniMax介紹,M1在面向生產力的複雜場景中能力是開源模型中的最好一檔,超過國內的閉源模型,接近海外的最領先模型,同時又有業內最高的性價比。

MiniMax披露,M1的優勢是支持目前業內最高的100萬上下文的輸入,和閉源模型裡面的Google Gemini 2.5 Pro一樣,是DeepSeek R1的8倍,以及業內最長的8萬Token推理輸出。

此次MiniMax M1的最大優勢之一體現在成本上。根據M1大模型分析自身的技術優勢顯示,MiniMax M1採用低成本訓練,僅用512塊 H800 GPU三週時間,成本53.47萬美元(約385萬人民幣),僅爲同類模型訓練成本的 1/10。

MiniMax稱,得益於以閃電注意力機制爲主的混合架構,從而在計算長的上下文輸入以及深度推理的時候顯著高效。根據推算,在生成長度爲10萬tokens的場景下,MiniMax-M1的計算量(FLOPs)爲DeepSeek R1的25%,在長文本處理任務中具備顯著優勢。

據介紹,MiniMax M1的核心優勢在於超長上下文處理能力和極低的算力消耗,同時在複雜任務(如工具調用、長文本理解)中表現接近甚至超越 DeepSeek R1。其訓練成本僅爲R1的1/10,且提供更靈活的API定價策略,尤其適合需要處理百萬級token的場景(如法律文檔分析、代碼庫理解)。DeepSeek R1則在傳統數學推理和編程基準測試中略佔優勢,但受限於上下文長度和計算效率,在長文本任務中明顯落後M1。

價格方面,M1在MiniMax APP和Web上支持不限量免費使用。在API方面,第一檔0-32k的輸入長度時,輸入0.8元/百萬token, 輸出8元/百萬token;第二檔32k-128k的輸入長度時,輸入1.2元/百萬token, 輸出16元/百萬token;第三檔128k-1M輸入長度時,輸入2.4元/百萬token, 輸出24元/百萬token。

值得注意的是,DeepSeek已成爲大模型廠商對標的“風向標”。此前字節跳動旗下火山引擎最新發布豆包大模型1.6,首創按“輸入長度”區間定價,深度思考、多模態能力與基礎語言模型統一價格,稱其綜合成本只有DeepSeek R1三分之一,每生成一條5秒的1080P視頻只需3.67元,爲行業最低。

不過,被視爲集體競爭對手的DeepSeek R1也在持續升級中。5月29日,據DeepSeek公告,DeepSeek R1模型已完成小版本升級,當前版本爲DeepSeek-R1-0528。用戶通過官方網站、APP或小程序進入對話界面後,開啓“深度思考”功能即可體驗最新版本。API也已同步更新,調用方式不變。

新版DeepSeek R1針對“幻覺”問題進行了優化。與舊版相比,更新後的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低45-50%左右,能夠有效地提供更爲準確、可靠的結果。

從社交媒體的反饋來看,網友最爲關注的是此次DeepSeek R1更新後的思考時間變長。據測評顯示,此次DeepSeek單任務處理時長可達30-60分鐘。