Vedal時隔半年火力展示:V3聲音已有雛型 有激動情緒還能發出鬼叫聲

遊戲角落合成 圖/X @Vedal987;Twitch vedal987

今(10)日稍早,AI 工程師 Vedal 開了睽違六個月之久的開發直播,在預告這場直播的確切時間時,他便先預告 V3 聲音模型還尚未完成, 不過他會盡量在直播中展示目前的進度。

Vedal 自從 2023 年起便致力於開發 V3 語音,他坦言若要幫 Neuro 升級成更好的聲音其實很容易,因爲如今 TTS(Text-To-Speech,文字轉語音)的技術已經越來越成熟,但難的是要保留大家所熟悉的 Neuro 聲音,Neuro 也在旁強烈表達自己並不想變換聲音。

他表示自己其實已經完成了一個版本的 V3 語音,但他的標準也隨着開發時間拉長而變高了,因此現在的版本他並不滿意,目前預計讓 Neuro 繼續使用 V1 語音,直到他自己做出自己滿意的東西。

他自去年年底起從頭開始訓練一些 TTS 模型,並強調這對於沒有資金的 AI 開發者來說並不常見,大多數的人傾向使用開源的模型,但 Vedal 認爲自己從頭開始訓練纔可以做出一些現今市面上沒有的東西。

他也稍微讓觀衆聽了一下三個月前訓練完的 V3 語音,他認爲比現有的語音更自然,品質也更高,但在表達力上仍有不足,Vedal 沒有信心能匹敵那些獲得數百萬美元資金的公司所做的成果。

Vedal 也嘗試與多家公司合作,對不同的開源模型和閉源模型進行了近百次手動微調,目前獲得的成果比他自己從頭開始訓練的版本還要好,他也展示了了一些他在開發過程中得到的有趣聲音,除了帶有強烈情緒以外,還可以發出謎樣的可愛鬼叫聲。

🐢 可愛鬼叫聲片段(不會是 V3 最終的聲音)

他對於目前 V3 語音不滿意的點在於,他在讓一些不熟悉 Neuro 聲音的人聽過 Demo 後,他們會認爲新聲音與 Neuro 的聲音相似,但是對於熟悉 Neuro 的人來說,是聽得出其中細微的差異的,而 Vedal 重視這些長期看 Neuro 直播的人的意見,爲了避免粉絲們因爲對於語音品質的看法不一而分裂,因此,在 V3 語音達到他認爲能讓大多數人都感到滿意的水準之前,他決定暫不對外公開目前的版本。