☰

亞馬遜推出Nova Sonic基礎模型更理解人類對話意義

亞馬遜（Amazon）宣佈推出一款全新的基礎模型Amazon Nova Sonic，將語音理解與語音生成統一於單一的模型中，使AI應用程式中的語音對話更貼近真人交流。圖／路透社

亞馬遜（Amazon）宣佈推出一款全新的基礎模型Amazon Nova Sonic，將語音理解與語音生成統一於單一的模型中，使AI應用程式中的語音對話更貼近真人交流。該模型透過Amazon Bedrock上的新API提供，可簡化語音應用開發流程，例如客戶服務通話自動化及涵蓋旅遊、教育、醫療、娛樂等領域的跨產業AI代理（AI agents）。

亞馬遜積極發展對話式AI應用技術，包括個人AI助手Alexa，到開發Amazon Web Services（AWS）的各類服務，如Lex、Polly和Connect等。語音AI要理解人類對話的微妙差異與複雜性，文字與聲音語境同樣重要，聲音意義甚至更爲關鍵。

傳統語音應用開發需要複雜地協調多個模型，例如將語音轉爲文字的語音識別模型、理解並生成迴應的大型語言模型（LLM）、將文字再轉爲音訊的文本轉語音模型。

Nova Sonic採用全新方法，改變過去使用多個不同模型的方式，改爲將理解與生成功能統一於單一模型中。這種整合使模型能根據語氣、風格等聲音情境以及口語輸入調整生成的語音迴應，進而實現更自然的對話。Nova Sonic甚至能理解人類對話的細微變化，包括說話者的自然停頓與猶豫，能在恰當時機做出迴應，並能從容應對對話中的插話情況。在企業客戶AI案例中，AI旅遊代理可以最新航班資訊協助使用者訂購機票；或是企業AI助手可以存取報告並以自然對話傳遞準確資訊，還主動提出相關後續問題。

亞馬遜推出Nova Sonic基礎模型 更理解人類對話意義

相關資訊

亞馬遜推出Nova Sonic基礎模型更理解人類對話意義