Meta發力AI Agent,Llama 4將實現直接語音對話

Meta正發力AI Agent,尤其是在端側AI和語音交互方面。公司計劃將在未來幾周內推出的Llama 4中引入更強大的語音功能。

據英國《金融時報》報7日報道,Meta首席產品官Chris Cox在摩根士丹利技術、媒體和電信會議上透露,Llama 4將是一個“全能模型”,語音功能將是原生的。

這意味着,Llama 4將能夠直接處理語音信息,無需先將語音轉換爲文本,再將文本輸入大型語言模型(LLM)進行處理,最後將輸出的文本轉換回語音。

Cox認爲,這種原生語音功能對於人機交互界面而言意義重大,用戶可以直接與AI對話,詢問任何問題。

扎克伯格已多次強調,2025年將是Meta AI產品的“決定性之年”。爲了實現AI技術的商業化,Meta正在考慮多種方案。

據報道援引知情人士透露,Meta一直特別注重使用戶與其語音模型之間的對話更接近於雙向自然對話,允許用戶打斷,而不是更僵化的問答形式。

此外,Meta正在探索爲AI助手Meta AI推出高級訂閱服務,提供諸如預訂服務和視頻創作等功能Meta還在考慮在其AI助手的搜索結果中引入付費廣告或贊助內容。

扎克伯格今年還透露了構建一個具備中級工程師能力的AI工程代理計劃,這一項目被認爲擁有“非常大的市場潛力”。

Meta的AI業務主管Clara Shih 6日在接受CNBC採訪時表示,全球有2億家小企業已經在使用Meta服務和平臺。她預計AI將改變每一項工作和每一項業務,包括使用WhatsApp、Instagram和Facebook與客戶建立聯繫的數億家小企業。

分析認爲,Meta的AI語音計劃不僅凸顯了Meta在AI領域的雄心,也預示着未來AI交互方式將更加註重自然對話,而非傳統的文本主導模式。

競爭格局:OpenAI、xAI與Meta的語音之戰

在AI行業的競爭愈發激烈的背景下,Meta正在努力迴應來自競爭對手的挑戰。OpenAI去年發佈的語音模式,專注於賦予其AI不同的人格特徵,而由馬斯克創辦的xAI的Grok 3最近也推出了語音功能。

這些競爭促使Meta在新模型的安全性和使用限制方面進行深入討論。一方面,Meta需要確保AI模型的輸出符合道德規範,避免產生有害或不當內容。另一方面,Meta也希望降低模型的“高尚”程度,使其能夠更自由地回答用戶的問題。

此前,Meta因其第三版Llama模型受到外界批評,認爲其過於“高尚”,拒絕回答一些無辜的問題。

除了語音能力的提升,Meta在AR/VR和智能眼鏡領域的投資同樣不容小覷。Meta最近推出的Ray-Bans智能眼鏡通過語音命令與AI助手互動,還加速籌備輕量級頭戴設備的開發,目標是替代智能手機,成爲用戶的主流計算設備。