豆包·同聲傳譯模型2.0來了:3s延遲,實時聲音復刻

(原標題:豆包·同聲傳譯模型2.0來了:3s延遲,實時聲音復刻)

7月24日,火山引擎正式發佈豆包·同聲傳譯模型 Seed LiveInterpret 2.0,現已全量上線火山方舟平臺。只需開口說話,你的“同款”聲音就能同時開口說外語;演講過程中,雙語字幕與你的聲音同步生成。

豆包·同聲傳譯模型2.0是首個延遲&準確率接近人類水平的產品級中英語音同傳系統,在中英同傳翻譯質量達到業界 SOTA 的同時,實現了極低的語音延遲水平和“0樣本聲音復刻”。這意味着,國際會議、跨境談判等場景的實時交互體驗將得以大幅提升,跨語言交流再也不怕生硬!

豆包·同聲傳譯模型2.0像一位思維超敏捷的“同傳專家”,基於端到端理解和生成框架,面向中英文,可實時接收多人語音輸入,並在“聽”的過程中同步理解、復刻聲音,並輸出語音和譯文,以極低延遲實現高質量語音翻譯,真正實現了“邊聽邊說”。相比傳統機器同傳系統,豆包·同聲傳譯模型2.0具備以下優勢:

極低的語音延遲,溝通無斷點:採用全雙工語音理解生成框架,翻譯延遲可低至2-3秒,較傳統機器同傳系統降低超60%,實現了真正的“邊聽邊說”翻譯。

0樣本聲音復刻,音色無縫跨越:無需提前錄製,一邊說話一邊採樣,即可實現“0樣本”聲音復刻,讓同一個人同音色開口說外語,給現場的聽衆更還原更沉浸的體驗。

智能平衡節奏,對話超自然:可根據語音清晰度、流暢度、複雜程度,調整輸出節奏,並適配不同語言特性。面對超長信息,依然能保證傳譯語音節奏的自然流暢。

近期,豆包·同聲傳譯模型已在多個權威國際會議中應用。在2025中關村論壇年會上,爲多場重量級會議提供頂流 AI 同傳服務,助力中外學者無縫暢聊,獲央視點贊!在2025全球數字經濟大會上,同樣實現了外籍嘉賓發言的同步音色復刻翻譯,參會者無需戴耳機,看屏幕字幕就能輕鬆 get 內容,實現“低延遲、高準確、聽得懂”。

除了大型國際會議,豆包·同聲傳譯模型還可以在更多生活場景發揮價值。例如,TikTok 主播用母語直播時,實時將內容翻譯成外語並復刻主播聲音,讓外國觀衆聽懂並信任,加速生意達成;在出境旅遊方面將作爲“隨行翻譯”,通過豆包實時翻譯導遊所講內容,讓語音溝通不再阻礙探索世界的腳步;幫助記者快速準確獲取外文資訊與採訪內容,輔助寫稿,提升新聞時效性與準確性。

目前,豆包·同聲傳譯模型 Seed LiveInterpret 2.0已在火山方舟開放使用,並即將在8月上線 Ola Friend 耳機,爲用戶帶來更加靈活的使用方式和體驗。

更多詳細信息和功能將在7月30日的火山引擎 FORCE Link AI 創新巡展·廈門站公佈,敬請期待!