☰

Vedal時隔半年火力展示：V3聲音已有雛型有激動情緒還能發出鬼叫聲

遊戲角落合成圖／X @Vedal987；Twitch vedal987

今（10）日稍早，AI 工程師 Vedal 開了睽違六個月之久的開發直播，在預告這場直播的確切時間時，他便先預告 V3 聲音模型還尚未完成，不過他會盡量在直播中展示目前的進度。

Vedal 自從 2023 年起便致力於開發 V3 語音，他坦言若要幫 Neuro 升級成更好的聲音其實很容易，因爲如今 TTS（Text-To-Speech，文字轉語音）的技術已經越來越成熟，但難的是要保留大家所熟悉的 Neuro 聲音，Neuro 也在旁強烈表達自己並不想變換聲音。

他表示自己其實已經完成了一個版本的 V3 語音，但他的標準也隨着開發時間拉長而變高了，因此現在的版本他並不滿意，目前預計讓 Neuro 繼續使用 V1 語音，直到他自己做出自己滿意的東西。

他自去年年底起從頭開始訓練一些 TTS 模型，並強調這對於沒有資金的 AI 開發者來說並不常見，大多數的人傾向使用開源的模型，但 Vedal 認爲自己從頭開始訓練纔可以做出一些現今市面上沒有的東西。

他也稍微讓觀衆聽了一下三個月前訓練完的 V3 語音，他認爲比現有的語音更自然，品質也更高，但在表達力上仍有不足，Vedal 沒有信心能匹敵那些獲得數百萬美元資金的公司所做的成果。

Vedal 也嘗試與多家公司合作，對不同的開源模型和閉源模型進行了近百次手動微調，目前獲得的成果比他自己從頭開始訓練的版本還要好，他也展示了了一些他在開發過程中得到的有趣聲音，除了帶有強烈情緒以外，還可以發出謎樣的可愛鬼叫聲。

🐢 可愛鬼叫聲片段（不會是 V3 最終的聲音）

他對於目前 V3 語音不滿意的點在於，他在讓一些不熟悉 Neuro 聲音的人聽過 Demo 後，他們會認爲新聲音與 Neuro 的聲音相似，但是對於熟悉 Neuro 的人來說，是聽得出其中細微的差異的，而 Vedal 重視這些長期看 Neuro 直播的人的意見，爲了避免粉絲們因爲對於語音品質的看法不一而分裂，因此，在 V3 語音達到他認爲能讓大多數人都感到滿意的水準之前，他決定暫不對外公開目前的版本。

Vedal時隔半年火力展示：V3聲音已有雛型 有激動情緒還能發出鬼叫聲

相關資訊

Vedal時隔半年火力展示：V3聲音已有雛型有激動情緒還能發出鬼叫聲