前DeepMind大佬創業,做出喜怒哀樂以假亂真的AI語音大模型

智東西編譯 徐豫編輯 雲鵬

智東西2月27日消息,美國情感智能技術AI創企Hume AI昨天發佈了新款文生語音大模型Octave,該大模型可依據用戶輸入的提示詞或劇本,生成有人設特點、有語調起伏、有情感色彩的AI語音,並允許用戶通過文本指令二次調整和創作。該公司由DeepMind前研究員Alan Cowen於2021年創立,最近一輪融資後估值爲2.19億美元。

Hume AI聯合創始人兼CEO Alan Cowen在接受VentureBeat視頻電話採訪時說道:“我們推出了首個AI文生語音大模型,該模型能夠理解上下文中的詞彙,並預測出適當的情緒、節奏、韻律和重音,從而使AI語音聽起來比以往更人性化。”

//oss.zhidx.com/uploads/2025/02/67c028c136881_67c028c132c50_67c028c132c29_Hume-2.mp4

▲Octave可以根據簡單提示詞變換AI語音的語氣和語調(圖源:Hume AI官網)

換而言之,相比於過往一板一眼念文本的AI味語音,Octave旨在讓AI語音更有人情味。按照Cowen的描述,這些AI語音不僅帶有憤怒、悲傷或快樂等情緒,還可以把多種情感交織融合在一起,例如“夾雜着幽默或惱怒的輕度沮喪”。在Cowen看來,該模型較爲適合需要預先製作的有聲讀物、播客、視頻畫外音和視頻遊戲角色配音。

//oss.zhidx.com/uploads/2025/02/67c028b70167e_67c028b6f1ae1_67c028b6f1abc_Hume.mp4

▲Octave可以表達開心、憤怒、焦慮等多種情感(圖源:Hume AI官網)

該公司在社交媒體平臺X上也連發多帖說明Octave的具體功能和訓練過程。據Hume AI方面透露,用於訓練Octave的語言數據是傳統文生語音大模型的1000倍,這也是Octave能夠像人類演員一樣理解劇本,並使用更逼真的情感、語義、節奏、詞語、重音等要素的原因。其訓練數據中包含了數百萬小時的公開長篇語音數據和Hume AI獨家採集的聲音、視頻數據。

除了文生語音大模型,Hume AI還在利用Octave訓練AI系統,以更好地預判用戶的AI語音生成需求。

在一項人類評審盲測的對比實驗中,Octave的輸出在音質、自然度以及語音生成與預期描述匹配度等方面均優於 ElevenLabs,這意味着其AI語音生成過程的可控性和AI語音生成質量均高於行業水準。

▲Octave所生成的AI語音在自然度、提示詞匹配度、音頻質量方面超過了ElevenLabs(圖源:Hume AI官網)

在推出Octave前,Hume AI已推出了兩代自研的同理心語音界面(EVI),該公司聲稱EVI是第一個具有情商的對話式AI。

當前首發版本的Octave主要支持的語言是英語,其次是西班牙語,後續可能還會上線更多語種。此外,該模型在Hume AI開發者平臺上的使用強度有一定限制,現支持的音頻格式有MP3、WAV和PCM。

一、4大AI語音生成功能,能代入情節和人設

Octave文生語音大模型不僅支持生成帶有人設和人類情感色彩AI語音,還將推出語音克隆功能。

Cowen稱,該模型除了能理解單個句子內的情感,還能進一步捕捉上下文之間的情感聯繫,從而更具表達力和細節度。Octave除了能夠理解情節轉折、情感暗示、角色特徵,還學會了如何將它們結合起來,因此它不僅可以“溫柔地朗讀情書”,也能“充滿活力地播報體育賽事”。

1、語音生成:具有情境感知能力且人性化

Octave能夠預測語音的調性、節奏和音色,並判斷初何時應低語密謀、何時應放聲高喊、何時應平靜地解釋事實。

換句話說,Octave能夠解析劇本或提示詞中的情節轉折、情感暗示和角色特徵,並將其轉化爲自然帶感情的語音,聽起來就像演員在朗讀劇本一樣。

//oss.zhidx.com/uploads/2025/02/67c028cd14e7f_67c028cd0ea6f_67c028cd0ea3e_Hume-4.mp4

▲Octave可以根據上下文內容轉變AI朗讀的語氣和語調(圖源:Hume AI官網)

2、語音設計:可深入理解提示詞和劇本含義

基於提示詞或劇本,Octave能夠生成各種設定的AI語音。這是由於它會自動解析一段文字內容的含義和風格,包括人稱代詞、簡稱、用詞等等,從而生成一段與角色相符的連貫語音內容。

此外,在語音設計功能中,你還可以通過更具體的角色描述來引導Octave,例如結合特定口音、人設特徵、職業角色等。相關描述類似於“耐心且富有同理心、用ASMR方式說話的諮詢師”、“戲劇化的中世紀騎士”、“中年好萊塢電影預告片解說員”。

//oss.zhidx.com/uploads/2025/02/67c028d08eb67_67c028d08a9d8_67c028d08a9aa_Hume-5.mp4

▲Octave可以理解較爲複雜的人設或角色(圖源:Hume AI官網)

同時,你也可以選擇跳過語音設計功能,直接在Playground上即時生成語音。只點擊頁面上的“生成”按鍵,而不勾選“語音設計”功能,Octave就會僅依據劇本生成語音,並且可以將其另存爲一段新語音。

不過出於安全考慮,涉及較爲逼真的孩童語音和特定人物的模仿語音,其AI語音生成將受限。

3、表演指令:用生成的AI語音二次創作

參照人類演員,Octave也能接受並理解指令。

在表演指令功能中,其可以基於現有語音類型,進一步用指定的情感或說話風格來朗讀新劇本。

//oss.zhidx.com/uploads/2025/02/67c028c98fdb5_67c028c98bc65_67c028c98bc39_Hume-3.mp4

▲Octave支持用戶二次調整句子的語氣和語調(圖源:Hume AI官網)

4、語音克隆:即將上線

Hume AI AI稱,只需一段5秒的音頻,Octave就能快速克隆出其語音。而Octave開發團隊正爲這一語音克隆功能尋求安全保障,因此該功能將於接下來幾周內稍晚推出。

未來幾周內,該公司還有計劃改進Octave的核心功能,持續優化富有表現力的語音生成、不同情感和風格的提示、新語音生成以及多位說話者間流暢對話等方面。

二、40多種預設語音,開發者現可上手使用

Octave現已在platform.hume.ai平臺和Hume AI的API上線。

目前,在線平臺上,創作者和開發者可使用Octave以下4項功能:

而在開發者平臺上,Octave可通過Python和TypeScript SDK訪問,這些SDK會處理身份驗證,並提供類型化接口,以確保集成的可靠性。其命令行界面支持快速原型設計、測試以及直接從終端批量處理。這些開發者工具簡化了用Octave生成語音素材的過程,縮短了新語音應用的上市時間。

▲Octave操作界面(圖源:Hume AI官網)

目前,Hume AI的API允許開發人員每分鐘對Octave模型發出最多50次請求,文本長度上限爲5000個字符,描述上限爲1000個字符。每個請求最多可生成5個輸出,支持的音頻格式包括MP3、WAV和PCM。

三、對比ElevenLabs,Octave更符合人類喜好

Hume AI AI對Octave開展了內部評估,將該大模型與業內領先的AI文生語音大模型ElevenLabs進行對比。

這項基準測試包含120個多樣化語音描述的樣本,用於模擬用戶在文生語音大模型中會提出的各種語音風格。這些樣本既覆蓋了細膩、敘事化的描述,例如“溫暖、父親般的聲音,具有豐富的低音,略帶沙啞且語調令人安心,如同一位經驗豐富的說書人”,也有簡潔、簡短的提示詞,例如“充滿活力、年輕、略帶嘶啞”。

Hume AI團隊用Gemini爲每個描述生成了一段合理對話,然後分別讓Octave和ElevenLabs的AI語音生成工具Voice Design各生成了3個語音樣本,再讓180位人類評審盲測對比上述兩款文生語音大模型基於相同提示詞生成的語音樣本,併爲音質、自然度以及提示詞匹配度投票。

測試結果顯示,Octave在這三項人類偏好指標上均略勝一籌,音質方面被71.6%的人類評審選擇,自然度方面被51.7%的人類評審選擇,而提示詞匹配度方面有57.7%的人類評審認爲其更契合預期。

▲在Hume AI內部測試中,其AI文生語音大模型Octave能力優於ElevenLabs(圖源:Hume AI官網)

四、免費版聲音定製不設限,專業版提供超8h使用額度

Hume AI目前採用訂閱制的收費方式,主要分爲免費、Creator、Creator Pro和Enterprise4大類收費項目。

而規模化、商業和企業級接入使用收費標準則有所不同。

AI語音仍是目前主要的人機交互方式。

Hume AI新的文生語音大模型Octave及其情感智能語音技術,有望解決長期以來AI語音應答機械、語調生硬、音色千篇一律的痛點,使得人機語音交互更接近於人與人之間溝通。

同時,Octave也可以爲影視、視聽、新媒體、數字人等多個行業產出定製化配音,加速AI語音的商業化落地。

來源:Hume AI X賬號、Hume AI官方博客、VentureBeat