☰

成本最高降90% 百度發佈端到端語音語言大模型

3月31日消息，百度發佈業界首個基於全新互相關注意力(Cross-Attention)的端到端語音語言大模型，實現超低時延與超低成本，在電話語音頻道的語音問答場景中，調用成本較行業均值下降約50%-90%。

據悉，接入全新的端到端語音語言大模型後，文小言不僅能支持更擬真的語聊效果，而且支持重慶、廣西、河南、廣東、山東等特色方言。

據介紹，語音大模型具備極低的訓練和使用成本，極快的推理響應速度，語音交互時，可將用戶等待時長從行業常見的3-5秒降低至1秒左右。

今日，百度還宣佈文小言更新，更新後的文小言支持“多模型融合調度”，通過整合百度自研的文心X1、文心4.5等模型，並接入DeepSeek-R1等第三方優質模型，實現了多模型間的智能協同。用戶可以選擇“自動模式”，一鍵調用最優模型組合，也可根據需求靈活選擇單一模型完成特定任務，大幅提升響應速度與任務處理能力。

同時，文小言還加強了圖片問答功能，用戶拍攝或上傳圖片，以文字或語音提問即可直接獲取深度解析。(定西)

本文來自本站科技報道，更多資訊和深度內容，關注我們。

成本最高降90% 百度發佈端到端語音語言大模型

相關資訊