MiniMax劉華:構建多模態開源生態,研發不再圍繞稠密架構

《科創板日報》2月23日訊(記者 陳美)2月21-23日,爲期三天的2025全球開發者先鋒大會在上海舉行。會上,MiniMax副總裁劉華帶來了一場關於多模態大模型發展的深度分享。

劉華指出,自2017年Transformer架構問世以來,其對大語言模型的誕生起到了直接的推動作用。然而,在歷經七八年的發展之後,Transformer 架構遭遇了瓶頸。即,Transformer 處理任務時,其任務長度與算力消耗程度呈現平方關係。“舉例來說,若當前處理 100 個 token 的任務時,算力消耗爲一個恆定值,那麼當處理任務變爲 10000 個 token 時,任務量增長了 100 倍,而此時算力消耗則需增加到原來的 100 的平方倍,即一萬倍。”

因此,要實現讓大模型在降低算力消耗的情況下處理超長文本,需要研發新的模型底層架構。

在此背景下,劉華表示,MiniMax對行業也有幾個認知:

首先,大模型仍然處於快速的發展階段。特別是2024年2月,OpenAI推出的Sora、GPT4o等展現了視頻、語音模型的新能力,大模型在編程等領域潛力巨大,未來兩到三年類似GPT3.5到GPT4的技術突破仍高度可期。在這樣的發展態勢下,底層模型的迭代對產品上限起決定性作用,如Deepseek因新一代模型實現APP用戶量激增,Talkie憑藉自研模型超越Character AI,充分凸顯了模型的關鍵價值。

其次,新一代語音模型將具備情緒表達能力。2024 年年中,OpenAI 推出的 GPT4o 實現即時對話,支持打斷並開啓新對話,還能讓語音模型展現人類喜怒哀樂等情緒。

第三,推理階段也出現Sscaling law。隨着 DeepSeek 的開源,市場對 “強化學習” 更爲熟悉,這促使訓練階段的Sscaling law延伸至推理階段。與此同時,Transformer 基礎底層架構的革新,以及諸多合成數據技術、多模態模型技術不斷涌現。這一系列進展預示着,未來兩到三年大模型將迎來飛速發展,技術上限遠未看到。

總體而言,劉華認爲,未來MiniMax將打造多種模態的開源生態,大模型研發也將依賴於高度組織化、精細化的研發團隊。“在方向上,稠密模型已經被唾棄,而是在稀疏架構上研究。接下來,MiniMax會在線性注意力機制或者是非Transformer架構上發力。”