亞馬遜推出Nova Sonic基礎模型 更理解人類對話意義
亞馬遜(Amazon)宣佈推出一款全新的基礎模型Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使AI應用程式中的語音對話更貼近真人交流。圖/路透社
亞馬遜(Amazon)宣佈推出一款全新的基礎模型Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使AI應用程式中的語音對話更貼近真人交流。該模型透過Amazon Bedrock上的新API提供,可簡化語音應用開發流程,例如客戶服務通話自動化及涵蓋旅遊、教育、醫療、娛樂等領域的跨產業AI代理(AI agents)。
亞馬遜積極發展對話式AI應用技術,包括個人AI助手Alexa,到開發Amazon Web Services(AWS)的各類服務,如Lex、Polly和Connect等。語音AI要理解人類對話的微妙差異與複雜性,文字與聲音語境同樣重要,聲音意義甚至更爲關鍵。
傳統語音應用開發需要複雜地協調多個模型,例如將語音轉爲文字的語音識別模型、理解並生成迴應的大型語言模型(LLM)、將文字再轉爲音訊的文本轉語音模型。
Nova Sonic採用全新方法,改變過去使用多個不同模型的方式,改爲將理解與生成功能統一於單一模型中。這種整合使模型能根據語氣、風格等聲音情境以及口語輸入調整生成的語音迴應,進而實現更自然的對話。Nova Sonic甚至能理解人類對話的細微變化,包括說話者的自然停頓與猶豫,能在恰當時機做出迴應,並能從容應對對話中的插話情況。在企業客戶AI案例中,AI旅遊代理可以最新航班資訊協助使用者訂購機票;或是企業AI助手可以存取報告並以自然對話傳遞準確資訊,還主動提出相關後續問題。