MiniMax 視頻生成模型首秀!閆俊傑:大模型的研發核心是“快”
上面是 MiniMax 最新推出的視頻模型 video-01 生成的效果。“這只是我們的第一版,很快還會有更新的版本。” MiniMax 創始人閆俊傑說道。
在 MiniMax 內部,多模態已經是一件非常確定的事情了。
“在人類社會,大模型的核心意義是做更好的信息處理,而大部分的信息體現在多模態內容裡,而非文字上,文字很多時候只是其中精華的一小部分。”閆俊傑解釋道。
“爲了有非常高的用戶覆蓋度和使用深度,唯一的辦法就是能夠輸出動態的內容,而非只輸出單純的文字內容,這是一個非常核心的判斷。”用戶的滲透率和使用深度是閆俊傑這次創業非常關注的事情。在他看來,這兩點是達成“Intelligence with Everyone”的核心,也是 MiniMax 的差異化能力。
用戶方面,MiniMax 已經有了不錯的成績。據統計,MiniMax 每日與全球用戶進行超 30 億次交互,處理超 3 萬億文本 token、2000 萬張圖片和 7 萬小時語音,大模型日處理交互量排名國內 AI 公司首位。
但在視頻生成賽道,MiniMax 的發佈算不上早。閆俊傑對此的解釋是,“我們在解決一個更難的技術問題:如何能夠原生地訓練算力比較高的東西。”
具體來說,首先,訓練視頻生成能力時也需要先把視頻變成一些 token,視頻變成的 token 非常長,越長複雜度就越高,MiniMax 團隊要做的就是在算法上把複雜度降低、壓縮率變得更高。
其次,視頻還很大,比如 5 秒的視頻有幾兆,而 5 秒看到的文字可能不到 1K,這是千倍的存儲差距。因此,之前基於文本模型的基礎設施,對視頻模型來說是不適用的,這意味着要對基礎設施進行升級。
“一兩週新的東西出來,並達到我們更加滿意的狀態後,可能會考慮商業化。”閆俊傑表示。
“能帶來數倍提升的技術才
值得投入研發”
視頻生成模型的研發更讓閆俊傑堅定了一件事:無論是視頻、文本還是聲音,核心都不是讓一個算法帶來 5%、10% 的提升,重要的是找到提升數倍的方式,如果能夠提升數倍就一定要做出來,如果只提升 5% 就不太值得做。
“從讀書、工作,到現在創業,我對技術的理解慢慢變得非常簡單,就是第一性原理。技術,特別是有很大研發投入的技術,追求的不應該是 10% 的提升,如果一個技術的提升只有 10%,那這個技術就不應該做,原因是你不做也會有人做或有人開源出來,其實根本不需要自己研發。”閆俊傑對 InfoQ 表示。
“對創業來說,一塊錢掰成幾份來花是非常難的。像我們這樣的創業公司,真正應該花錢做的研發是那種能夠帶來幾倍變化的技術,這種東西很多時候如果我們自己不做,外面也沒有,但對滿足用戶的需求又很重要,只能自己來做,這樣的纔是核心的東西。”閆俊傑說道。
那麼,MiniMax 做大模型的核心是什麼?
閆俊傑的答案是:快 = 好。
在率先判斷出 MoE 技術路線後,MiniMax 又推出基於 MoE+ Linear Attention 的新一代模型技術。通過此新型線性模型架構,MiniMax 大模型能在單位時間內更加高效地訓練海量數據,極大地提升了模型的實用性和響應速度。
MiniMax 與GPT-4o 同一代模型能力進行對比發現,新一代模型處理 10 萬 token 時效率可提升 2-3 倍,並且隨着長度越長,提升越明顯。相比於通用 Transformer 架構,在 128K 的序列長度下,新架構成本減少 90% 以上。
“不管是做 MoE、Linear attention 還是其他的,本質上是讓同樣的效果模型變得更快,快才意味着同樣的算力可以做得更好,這是我們最底層的研發思路。”閆俊傑說道。
“從實際應用上,就像我們肯定不希望星野的 NPC 只能記住最近 8000 字的內容,這對用戶的體驗損傷比較大,如果能 Scale 到 8 萬字、80 萬字、800 萬肯定能做出更不一樣的產品。” MiniMax 技術總監韓景濤補充道。
“產品不賺錢是技術不夠好”
目前,MiniMax 在國內 C 端的主打產品是星野和海螺 AI。
“當一個產品沒人用或者不賺錢的時候,肯定不能怪用戶,大部分時候只能怪自己的技術做得不夠好,或者產品做得不夠好。”閆俊傑說道。
因此,在閆俊傑看來,像基於 GPT-4 的 GPT Store 跑不通的根本原因,不是因爲 Agent 的框架寫得不夠好,是因爲模型本身不夠好。“當前的模型沒有很長的記憶、理解不了特別複雜的指令就會這樣。”
現在所有的模型錯誤率都是 20% 的量級,閆俊傑認爲,真正發生變革的是有一個模型可以把錯誤率降低到個位數,這會讓很多複雜的任務從“不可以”變得“可以”。
“當技術做得不好的時候,所有東西都是問題,當技術做好了,似乎所有問題都被掩蓋了。技術是一家科技公司的最核心的要素,我覺得我花了兩年才意識到這件事。”閆俊傑說道。
在閆俊傑看來,做技術是一件非常奢侈的事,這件事甚至只有創業的時候纔會理解,因爲做技術,可能會失敗、投入也很大。當一個東西很奢侈時,很多時候就會想要不要走點捷徑,比如不做技術,先把產品提升好等。
“實踐經驗證明,走捷徑的時候會被打臉。”閆俊傑笑道。
目前,MiniMax 的商業化基本上分成兩種模式:一是面向企業的開放平臺,現在已經有兩千多家的客戶,包括互聯網公司、傳統企業等;二是在自有產品裡設立廣告機制進行變現。
“現階段,最重要的還不是商業化,是真正地對技術到達廣泛可用的程度。”閆俊傑表示。
對於國內市場,MiniMax 希望打造偏工具類的產品,比如會給海螺 AI 不斷打磨出新的功能,直到產生了很強的用戶粘性。“粘性構造起來後,我們纔會考慮 ROI 和 Retention。這個飛輪轉起來了,我們纔會進行投放。”MiniMax 國際業務總經理盛靜遠表示。
盛靜遠認爲,這個 ROI 會有轉起來的一天,但不是今天的產品形態。“作爲一個普通消費者,今天的產品形態沒有任何的忠誠度可言。它一收費我就可以換到另外一個產品,這個模式是不成立的。”
但海外市場不太一樣。海外企業更願意付費,因此把技術做得細膩很重要。“對我們來講現在技術完全到位了,更多是公司的精力和資源,以及怎麼變現的問題。海外市場有一套自己的打法,會相對地比較 straightforward,變現也更快。”
實際上,MiniMax 海外產品 Talkie 名氣可能比國內產品更高。在全球知名風投機構 a16z 最新發布的《Top100 消費級生成式 AI 應用》移動應用榜單中,Talkie 位列 22 位。
盛靜遠總結道,任何偉大的 2 C 產品都是基於人性的深入思考,另外則要考慮 AI 在高容錯率的情況下可以做什麼,並變成大衆喜聞樂見的產品。
結束語
大模型領域的競爭依然在繼續。閆俊傑表現得比較淡然,“這就是一個發展的客觀規律,作爲一家創業公司,如果我們在競爭中打不贏,那我們就應該被淘汰,其實也沒有其他的選擇。”
在與大廠的競爭中,閆俊傑認爲,要贏就要更快地看清非常底層的東西,“大公司開始跟你競爭時,就會意識到有些東西是沒用的,因爲那些東西大廠能做得比你強千百倍。我們能做的就是無限放大能讓我們變強的事情:一是提升技術;二是跟用戶共創,這兩點非常關鍵的判斷是需要長期積累的。”
而對於國內的大模型價格戰,閆俊傑認爲確實非常大地提高了模型的調用量,本來認爲大模型很貴的公司,包括很多傳統的企業開始願意使用大模型,因爲成本低對出錯的容忍度也會高一些。“正是激烈的競爭,推動了大家必須得把模型做好。一定階段之後,大家會發現自己的模型在海外也有競爭力,比如東南亞等,至少目前已經在非英語國家的語種上跟 GPT 不相上下。”
“我們看到樂觀的一面,國內大模型的使用量確實在顯著地增長,並且中國的模型在海外確實越來越具有競爭力,我覺得這是兩個積極的變化。”閆俊傑說道。
內容推薦
2024年8月18-19日,AICon 全球人工智能開發與應用大會·上海站成功舉辦,匯聚超過60位大模型行業先鋒,全方位剖析大模型訓練與推理機制、多模態融合、智能體Agent前沿進展、檢索增強(RAG)生成策略、端側模型優化與應用等熱點內容。經過嘉賓授權,「AI前線」爲你獨家整理了一份演講PPT合集,不容錯過。關注「AI前線」,回覆關鍵詞「PPT」免費獲取。
報告推薦
大模型「大腦」足夠聰明到支撐 AI Agent 落地了嗎?其他模塊能力現狀如何?理想中的智能體和現階段有哪些差距?AI Agent 產品形態有何不同?數據分析、營銷、教育、金融、文娛遊戲等 AI Agent 應用現狀如何?有哪些典型案例了嗎?AI Agent 未來還將如何發展?
以上問題的回答盡在《中國AI Agent應用研究報告 2024》。
今日薦文
你也「在看」嗎?