☰

豆包·同聲傳譯模型2.0來了：3s延遲，實時聲音復刻

（原標題：豆包·同聲傳譯模型2.0來了：3s延遲，實時聲音復刻）

7月24日，火山引擎正式發佈豆包·同聲傳譯模型 Seed LiveInterpret 2.0，現已全量上線火山方舟平臺。只需開口說話，你的“同款”聲音就能同時開口說外語；演講過程中，雙語字幕與你的聲音同步生成。

豆包·同聲傳譯模型2.0是首個延遲&準確率接近人類水平的產品級中英語音同傳系統，在中英同傳翻譯質量達到業界 SOTA 的同時，實現了極低的語音延遲水平和“0樣本聲音復刻”。這意味着，國際會議、跨境談判等場景的實時交互體驗將得以大幅提升，跨語言交流再也不怕生硬！

豆包·同聲傳譯模型2.0像一位思維超敏捷的“同傳專家”，基於端到端理解和生成框架，面向中英文，可實時接收多人語音輸入，並在“聽”的過程中同步理解、復刻聲音，並輸出語音和譯文，以極低延遲實現高質量語音翻譯，真正實現了“邊聽邊說”。相比傳統機器同傳系統，豆包·同聲傳譯模型2.0具備以下優勢：

極低的語音延遲，溝通無斷點：採用全雙工語音理解生成框架，翻譯延遲可低至2-3秒，較傳統機器同傳系統降低超60%，實現了真正的“邊聽邊說”翻譯。

0樣本聲音復刻，音色無縫跨越：無需提前錄製，一邊說話一邊採樣，即可實現“0樣本”聲音復刻，讓同一個人同音色開口說外語，給現場的聽衆更還原更沉浸的體驗。

智能平衡節奏，對話超自然：可根據語音清晰度、流暢度、複雜程度，調整輸出節奏，並適配不同語言特性。面對超長信息，依然能保證傳譯語音節奏的自然流暢。

近期，豆包·同聲傳譯模型已在多個權威國際會議中應用。在2025中關村論壇年會上，爲多場重量級會議提供頂流 AI 同傳服務，助力中外學者無縫暢聊，獲央視點贊！在2025全球數字經濟大會上，同樣實現了外籍嘉賓發言的同步音色復刻翻譯，參會者無需戴耳機，看屏幕字幕就能輕鬆 get 內容，實現“低延遲、高準確、聽得懂”。

除了大型國際會議，豆包·同聲傳譯模型還可以在更多生活場景發揮價值。例如，TikTok 主播用母語直播時，實時將內容翻譯成外語並復刻主播聲音，讓外國觀衆聽懂並信任，加速生意達成；在出境旅遊方面將作爲“隨行翻譯”，通過豆包實時翻譯導遊所講內容，讓語音溝通不再阻礙探索世界的腳步；幫助記者快速準確獲取外文資訊與採訪內容，輔助寫稿，提升新聞時效性與準確性。

目前，豆包·同聲傳譯模型 Seed LiveInterpret 2.0已在火山方舟開放使用，並即將在8月上線 Ola Friend 耳機，爲用戶帶來更加靈活的使用方式和體驗。

更多詳細信息和功能將在7月30日的火山引擎 FORCE Link AI 創新巡展·廈門站公佈，敬請期待！

豆包·同聲傳譯模型2.0來了：3s延遲，實時聲音復刻

相關資訊