大模型邁向“多模態”時代,“情緒化”成關鍵趨勢 | 直擊2025GDC
《科創板日報》2月21日訊(記者 陳美)開年,隨着上海首個科技盛會 ——“2025 全球開發者先鋒大會(GDC)” 的舉辦,一場關於技術是創新基石、應用是實現落地的關鍵、發展需具備可持續性的思維碰撞在大會中激烈展開。
會上,AI產業鏈語料企業庫帕思CEO黃海清在接受《科創板日報》記者採訪時表示,“隨着DeepSeek的崛起,基礎大模型公司們將重新資源分配,語料行業也需要在這場變革中自我更新,把成本降下來。”
作爲專注於人工智能語料數據服務的公司,黃海清向《科創板日報》記者介紹,庫帕思已經爲階躍星辰、商湯、MiniMax,以及上海人工智能實驗室等提供高質量的語料數據。
黃海清認爲,隨着行業的發展,現在是Data for AI,但未來則是AI for Data。“在 AI 產業鏈中,算力、算法、算料是關鍵的三要素。在算力方面,需朝着具備 10 萬卡集羣規模的方向演進;在算法方面,以 DeepSeek 爲代表的基礎大模型公司已實現彎道超車,未來是否會再次被超越,值得期待;在算料方面,國內人工智能應用場景豐富,能夠帶動高質量算料的進步與發展。”
對於語料產業發展的趨勢,黃海清認爲,未來行業語料的標註和清洗,應該有AI的身影。“即通過AI技術實現語料標註的自動化與知識化,讓行業從勞動力密集型變爲知識和技術型,最終減輕數據獲取成本高昂的問題。”
“同時,高質量的語料數據也應該具有鮮活度、真實性、大樣本、完整性、多樣性、高知識密度的特點。目前,大模型在情緒理解和知識深度上的語料能力仍有不足,需通過高質量語料和算法優化改進。” 黃海清說道,鑑於當前大模型發展現狀,未來多模態大模型(如結合視覺、語音)必將成爲行業趨勢,進一步推動 AI 貼近人類的需求。
在此背景下,《科創板日報》記者注意到,上海本地的頭部大模型公司——階躍星辰開源了兩款階躍 Step 系列多模態大模型——Step-Video-T2V 視頻生成模型和 Step-Audio 語音模型。
階躍星辰副總裁李璟表示,“多模態一直階躍星辰最重要的標籤。而之所以擁抱開源,是因爲相信技術社區的力量,希望吸引更多‘智慧’,優化、改進大模型。同時,構建強大的生態。”
根據企業官方技術報告中的評測結果,階躍 Step-Video-T2V 的參數量和模型性能目前在全球開源視頻生成領域都處於領先水平。而階躍 Step-Audio方面,據介紹,這是業內首款產品級的開源語音交互模型,目前已在躍問 App 內開放用戶體驗。
李璟表示,階躍 Step-Audio最大的特點,是能夠根據不同的場景需求生成情緒、方言、語種、歌聲和個性化風格的表達,能和用戶自然地進行高質量對話。“比如,當用戶面臨各種人生問題,它都可以像好朋友一樣提供貼心陪伴並出主意,體現出‘熟知人情世故’等、情商高特點。”李璟談到。
庫帕思CEO黃海清也認爲,語料數據的情緒化,是大模型發展的重要一步。“沒有‘情緒’就意味着沒有人類共性和人情味,大模型仍是冷冰冰的機器;有‘情緒’的大模型,則代表了‘有趣’的靈魂,可以讓AI成爲人類更好的Agent。”