【全文版】紅杉資本最新訪談Eleven Labs創始人: 音頻AI的專注與創新 | 1.7萬字全文+視頻

文: Web3天空之城| 未經許可不得轉載

【城主說】這次紅杉資本最新訪談裡,合夥人Rowan和AI音頻公司Eleven Labs的聯合創始人Mati Staniszewski深入探討了Eleven Labs的創業歷程、核心技術與未來願景。他分享了公司如何通過專注於音頻領域,在大型基礎模型的競爭中開闢出獨特的市場地位。訪談內容涵蓋了語音AI與文本AI在技術上的本質差異、產品增長的關鍵時刻、語音代理的崛起,以及AI在打破語言障礙和重塑人機交互方面的巨大潛力。

核心觀點

• 專注是護城河 :在大型多模態模型環伺的環境下,Eleven Labs通過深度聚焦音頻領域,在研究和產品上建立了超越通用模型的競爭優勢。

• 語音AI的獨特性 :高質量語音AI的構建在數據獲取、模型架構和上下文理解(如情感、語調)方面,與文本AI存在顯著差異,需要獨特的工程和研究方法。

• 語音交互的未來 :語音將成爲人機交互的核心界面,其應用將深刻變革教育、跨文化交流和個人助理等領域,最終實現技術退居幕後,讓交互更加自然。

• 質量、延遲與可靠性是關鍵 :企業客戶在採用語音AI技術時,最關心的是表達力強的質量、支持實時對話的低延遲以及大規模部署下的系統可靠性。

Rowan: 今天我們採訪了Eleven Labs的Mati Staniszewski,關於他們如何在AI音頻領域開闢出一個站得住腳的位置,即使大型基礎模型實驗室正在將語音作爲其多模態推進的一部分。我們深入探討了構建語音AI與文本之間的技術差異。結果表明,它們在數據和架構方面存在着驚人的差異。馬蒂向我們介紹了Eleven Labs如何通過專注於音頻領域來保持競爭力,包括他們必須克服的一些具體工程障礙,以及企業客戶真正關心的、超越基準測試的內容。我們還探討了語音作爲一種界面的未來、構建能夠處理真實對話的AI代理所面臨的挑戰,以及AI打破語言障礙的潛力。馬蒂分享了他對在歐洲創業的看法,以及他認爲我們可能會比預期更早實現人類水平的語音交互的原因。我們希望您喜歡這期節目。馬蒂,歡迎來到節目。

Mati: 謝謝邀請。

Rowan: 好的,第一個問題。幾年前,當Eleven Labs真正開始嶄露頭角時,有一種觀點認爲你們會被基礎模型碾壓。但你仍然在這裡,而且做得還不錯。發生了什麼?你們是如何避開多模態、大型基礎模型實驗室,併爲自己開闢出這個非常有趣的地位的?

Mati: 過去的幾年令人興奮,而且這絕對是事實。我們仍然需要保持警惕,以便能夠繼續贏得基礎模型之戰。但我認爲通常而且絕對正確的建議是保持專注,在我們的案例中,保持專注於音頻,無論是作爲一家公司,當然還有研究和產品,但我們最終保持專注於音頻,這真的很有幫助。但可能最大的問題,也是弱者的問題是,這些年來,我們已經能夠構建一些最好的研究模型,並在競爭中勝過大型實驗室。在這裡,要感謝 Michael Finder,我認爲他是個天才,還有 Piotr,他既能夠在該領域進行一些最初的創新,又能組建我們今天在公司擁有的搖滾明星團隊,他們不斷推動音頻領域的可能性。

當我們開始時,在音頻方面幾乎沒有進行任何研究。大多數人專注於 LLM(大型語言模型)。你們中的一些人專注於圖像,更容易看到結果,對於從事研究的人來說,在這些領域工作通常更令人興奮。所以對音頻的關注就少了很多。並且前幾年發生的創新,擴散模型、Transformer模型,並沒有真正有效地應用於該領域。我們已經能夠將其引入,在最初的幾年裡,文本轉語音模型首次能夠理解文本的上下文,並以如此更好的音調和情感來傳遞音頻體驗。所以這就是真正區分我們工作與其他工作的起點,也是真正的研究創新。

但緊隨其後的是圍繞它構建所有產品,以便能夠真正使用該研究。我們已經見過太多次了,不僅僅是模型重要,如何向用戶傳遞這種體驗也很重要。在我們的案例中,無論是敘述和創作有聲讀物,無論是配音,無論是將電影翻譯成其他語言,無論是添加文本轉語音和智能代理,還是構建完整的對話體驗,這一層都在不斷幫助我們戰勝基礎模型和超大規模企業。

Rowan: 好的。這裡有很多內容,我們將回頭深入探討其中的很多方面。但是你提到了你的聯合創始人Peter。我相信你們是在波蘭的高中認識的。是這樣嗎?你們能大概講一下你們兩個人是如何相識的,然後也許再講一下這個公司是如何成立的嗎?

Mati: 我可能處於有史以來最幸運的境地。我們15年前在高中認識。我們在波蘭華沙開始了一個IB課程,上了所有相同的課程。所以幾乎所有科目都一樣。我們在一些數學課上很快就一拍即合。我們都熱愛數學。所以我們開始坐在一起,花很多時間在一起,這也逐漸發展到課外時間也在一起。多年以來,我們一起生活、一起學習、一起工作、一起旅行,幾乎一起做了所有的事情。現在15年過去了,我們仍然是最好的朋友。時間站在我們這邊,這很有幫助。

Rowan: 一起創建公司是否鞏固了你們的關係?

Mati: 肯定有起起落落,但我認爲確實鞏固了。我認爲是的。它經受住了考驗。絕對經受住了考驗。就像是,當公司開始騰飛時,很難知道這種高強度工作會持續多久。最初,感覺就像,好吧,這就是未來四周的事情。我們只需要努力,相信彼此會在不同的方面做得很好,然後繼續努力。然後又過了四個星期,又過了四個星期。然後我們意識到,實際上,這將在未來10年內發生。根本沒有真正的時間做其他任何事情。我們當時只想,就跑11圈,什麼都不要管。

然後隨着時間的推移,我認爲這是自然發生的,但現在回想起來,它確實有所幫助。我們現在仍然努力保持密切聯繫,瞭解我們個人生活中發生的事情,我們在世界上的位置,並花一些時間在一起,仍然談論工作,但在工作環境之外。我認爲這對我們非常有益,現在我已經認識Piotr這麼久了,我看到他在這些年中 личностно 不斷髮展,但我仍然與此保持密切聯繫。

Rowan: 重要的是要確保你的聯合創始人、你的高管和你的團隊能夠將他們最好的狀態帶到工作中,而不僅僅是完全忽略個人方面發生的一切。完全正確。

Mati: 然後回答你的第二個問題,《11圈》的部分靈感來源,可以說是一個更長的故事。所以有兩個部分。首先,那些年他在谷歌,我是一個志願者,我們會一起做黑客週末項目。所以嘗試爲了樂趣探索新技術,從構建推薦算法到我們試圖構建這樣一個模型,你會被呈現幾個不同的東西,如果你選擇其中一個,那麼你接下來看到的一組東西會更接近,並優化得更接近你之前的選擇。部署了,玩得很開心。然後我們用加密貨幣做了同樣的事情,我們試圖瞭解加密貨幣中的風險,併爲加密貨幣構建風險分析器。非常難。它並沒有完全奏效,但這是在最早的加密貨幣熱潮中嘗試提供相關分析的一個很好的嘗試。

然後我們創建了一個音頻項目。所以我們創建了一個項目,分析我們說話的方式,並給你如何改進的建議。那是2021年初。那是第一次開放,這就是音頻領域中可能實現的功能。這是最先進的技術,這些是進行語者分離、理解語音的模型,這就是語音生成的樣子。

然後在2021年末,靈感來自於,更像是來自波蘭的頓悟時刻,從你來的地方,在這種情況下,Peter正要和他的女朋友一起看電影,她不會說英語,所以他們用波蘭語播放了。這讓我們回想起我們從小就熟悉的東西,在波蘭,你觀看的每部電影,用波蘭語觀看的每部外國電影,都有所有的配音。所以無論是男聲還是女聲,都仍然由一個單一的角色敘述,就像單調的敘述一樣。這是一種糟糕的體驗,而且今天仍然存在。我們當時就覺得,哇,我們認爲這將會改變。這將會改變。我們認爲技術以及一些創新將使我們能夠以原始交付方式、以原始的、令人難以置信的聲音來享受這些內容,讓我們實現它並改變它。當然,然後自那時起擴展它。這不僅僅是配音,要意識到同樣的問題存在於大多數無法以音頻形式訪問的內容中,而不僅僅是英語。動態交互將如何演變,當然,音頻將如何傳遞語言障礙。

Rowan: 有沒有哪一篇特別的論文或能力讓你覺得,現在是改變的時候了?

Mati: 嗯,“Attention is All You Need”絕對是其中之一,它在可能實現的目標方面非常清晰明瞭。但也許爲了從不同的角度來回答,我認爲有趣的部分不如論文本身。有一個令人難以置信的開源倉庫。所以那是稍晚的時候,當我們開始發現,比如,這是否有可能實現?實際上有一個Tortoise TTS,它是一個模型,一個在當時創建的開源模型。它提供了複製聲音和生成語音的驚人結果。它不是很穩定,但它有點讓人瞥見,哇,這太不可思議了。那時我們已經在公司裡待了一段時間了,大概是第一年,也就是2022年。但那是另一個要素,就像,好吧,這是可能的,那裡有一些很棒的想法。然後,當然,我們把大部分時間都花在了思考,我們還能創新什麼,從頭開始,將Transformer擴散模型引入音頻領域。這產生了一種更高層次的人類音質,在那裡你真的可以感覺到這是人類的聲音。

技術護城河:語音AI的獨特挑戰

Rowan: 是的,讓我們談談你們實際上是如何構建你們所構建的產品的。在文本中有效的哪些方面可以直接移植到音頻中?哪些是完全不同的,不同的技能組合,不同的技術?我很好奇這兩者有多相似,以及真正區別在哪裡。

Mati: 是的,首先,你知道,模型中存在那三個組成部分。有計算能力,有數據,還有模型架構。模型架構有一些想法,但非常不同。然後,數據也非常不同,無論是在可訪問性方面,還是在需要這些數據來訓練模型方面。在計算方面,模型更小,所以你不需要那麼多計算能力,這使得我們,考慮到許多創新需要在模型端或數據端發生,你仍然可以勝過基礎模型,而不僅僅是通常的...計算劣勢。完全正確。

但我認爲,數據是第一個不同的部分,在文本中,你可以可靠地獲取現有的文本,並且它會起作用。在音頻中,首先,高質量的音頻,實際上能讓你得到需要的結果的音頻,要少得多。然後,第二點是,它通常不附帶轉錄,或者不附帶高度準確的口語文本。而這正是該領域所缺乏的,你需要花費大量的時間。還有一個第三個組成部分,它將在當前這一代模型中體現出來,不僅包括說了什麼,也就是音頻的文本記錄,還包括是怎麼說的?你使用了什麼情緒?是誰說的?還有哪些非語言要素被表達出來?這種東西幾乎不存在,尤其是在高質量的層面。這就是你需要花費大量時間的地方。這也是我們在早期花費大量時間的地方,即能夠有效地創建更多的語音轉文本模型和管道,並配備額外的手動標註員來完成這項工作。這與文本非常不同,在文本中,你只需要花費更多的週期。

然後在模型層面,你實際上在第一代文本轉語音模型中跨出了一步,即理解語境並將其帶入情感之中。但當然,你需要預測下一個聲音,而不是預測下一個文本標記。這兩者都取決於先驗,但也可能取決於之後發生的事情。舉個簡單的例子,比如,多麼美好的一天。假設這是一本書中的一段文字。那麼你可能會想,好吧,這是一種積極的情緒。我應該以積極的方式閱讀它。但是如果你有“多麼美好的一天”,我諷刺地說,那麼它突然改變了整個意義,你需要在音頻傳遞中調整它,把妙語放在不同的位置。因此,這種情境理解絕對是不同的,那是一件棘手的事情。

另一種非常不同的模型是,你有文本到語音的元素,但你也有聲音元素。因此,我們花費大量時間研究的另一個創新是,如何以更高精度的方式創建和呈現聲音,使其更接近原始聲音?我們找到了這種解碼和編碼的方法,這與之前的方式略有不同。我們沒有硬編碼或預測任何特定的特徵。所以我們沒有試圖優化,比如聲音是男性的還是女性的?或者聲音的年齡是多少?相反,我們有效地讓模型決定應該有哪些特徵。然後我找到了一種方法將其引入到語音中。所以現在,當然,當你有文本轉語音模型時,它將把文本的上下文作爲一個輸入,第二個輸入是聲音。根據聲音的傳遞方式,如果它更平靜或更動態,兩者會融合在一起,然後給出最終輸出,這當然與文本模型是非常不同的工作類型。

Rowan: 令人驚歎。你需要僱傭什麼樣的人才來構建這個?我認爲這與大多數人工智能公司的技能組合不同。

Mati: 這在一段時間內有所改變,但我認爲第一個區別,這可能不是技能方面的差異,而是方法上的差異,我們一開始就是完全遠程的。我們想聘用最優秀的的研究人員,無論他們在哪裡。我們知道他們在哪裡。大概有50到100位在音頻領域很優秀的人,至少根據開源工作或他們發佈的論文或他們工作過的公司來看是這樣。讓我們能夠敬佩。因此,漏斗頂端非常有限,因爲從事研究的人員要少得多。所以我們決定吸引他們,讓他們加入公司,無論他們在哪裡。這在某種程度上真的很有幫助。

第二件事是,考慮到我們想讓很多人對工作感到興奮,而且我們也認爲這是進行大量研究的最佳方式,我們試圖讓研究人員非常接近部署,能夠真正看到他們的工作成果。因此,從能夠研究某事物到將其展示給所有人的週期非常短。你可以立即獲得關於它運作情況的反饋。

然後我們有某種獨立於研究的部分。我們有研究工程師,他們較少關注整個新型模型架構的創新,而是採用現有模型,改進它們,改變它們,並大規模部署它們。而且在這裡,你經常會看到其他公司稱我們的研究工程師爲研究員,因爲考慮到這項工作在那些公司中同樣複雜。但這確實幫助我們創造新的創新,帶來創新,擴展創新,並部署創新。

然後,我們圍繞研究創建的層面可能非常不同,因爲我們現在實際上擁有一組語音教練、數據標註員,他們由語音教練培訓,學習如何理解音頻數據,如何標註數據,如何標註他們的情緒。然後他們的工作會被語音教練重新審覈,以判斷好壞,因爲大多數傳統公司並沒有以相同的方式真正支持音頻標註。

但我認爲最大的區別在於,你需要對音頻工作的某個部分感到興奮,才能真正創造並全身心地投入到我們想要的水平。而且我們是一家小公司,尤其是在當時。你應該願意擁抱那種獨立性,那種高度的所有權,即你實際上是在自己研究一個特定的研究主題。當然,這裡面有一些互動,一些來自他人的指導,但大量的繁重工作是個人的,並且需要創造性的工作,這需要不同的心態。我認爲我們已經能夠做到,現在我們有一個大約15人的研究和研究工程師團隊,幾乎都是,他們都非常出色。

產品演進與市場破局

Mati: 在過去幾年中,產品質量或產品適用性方面的一些主要的階躍函數變化是什麼?

Rowan: 我記得大概在早期,我認爲是2023年初左右,你們開始爆發式增長,或者可能是2023年末,我記不清了。似乎其中一些是在哈利波特Balenciaga視頻在網上瘋傳之後,那個視頻使用的是11 Labs的聲音。似乎你在消費者領域經歷了這樣的時刻,某些東西在網上瘋傳,並且可以追溯到你。但除此之外,從產品的角度來看,開啓新市場或激發更多開發者熱情的主要轉折點是什麼?

Mati: 你知道,你提到的可能是我們正在努力做的關鍵事情之一。並且持續地,即使是現在,我們仍然認爲這是真正實現推廣的關鍵事情之一,即進行產消者的部署,並在我們創造新技術時,真正將其帶給所有人,向世界展示這是可能的,然後從上到下地補充,將其帶給我們合作的特定公司。這樣做的原因有兩個方面。其中一方面是,這些人羣更渴望、也更快速地採納和創造我們的技術。另一方面,通常當我們創造大量產品和研究成果時,對於可能產生的用例,我們當然有一些預測,但會有更多我們意想不到的用例,就像你給的例子一樣,我們不會想到人們可能會創造和嘗試做這些事情。這絕對是我們持續關注的事情,即使現在,當我們創建新的模型時,我們也會嘗試將其帶給整個用戶羣體,向他們學習並增加這一點。這有點像波浪式發展,我們發佈一個新模型,將其廣泛推廣,然後是產消者的採納,之後是企業採用,這需要額外的產品和額外的可靠性。然後再次,我們有一個新的步驟發佈和一個新的功能,這種循環不斷重複。所以我們努力真正擁抱它。

回顧歷史,第一次是在我們推出beta模型時,你說的沒錯,就像我們在2023年初,2022年末公開發布它時一樣,我們正在與一部分用戶在beta版中迭代。在那一小部分用戶中,我們有很多圖書作者。我們在產品中有一個很小的文本框,你可以在其中輸入文本並獲得語音輸出。實際上它相當於推特的長度。我們曾遇到一位圖書作者,他將整本書複製粘貼到這個框裡,然後下載。當時,這佔據了平臺上大部分萬代的內容。他成功上傳了。他們以爲那是人類。他開始在該平臺上獲得好評,然後帶着他的一羣朋友和其他圖書作者回來找到我們,說,嘿,我們真的很需要這個。這太不可思議了。這引發了他的第一次小型病毒式傳播時刻,圖書作者們非常非常熱衷。

然後在同一時期,我們又遇到了一個類似的時刻,當時出現了一個可以笑的首批模型。我們發佈了一篇博文,稱這是第一個可以笑的人工智能。人們紛紛表示贊同,說,哇,這太不可思議了。這真的奏效了。我們獲得了許多早期用戶。然後當然,還有你提到的主題,即大量的創作者。而且我認爲大約在這個時候出現了一個全新的趨勢,它轉向了無臉頻道。實際上,創作者不在畫面中。然後你有旁白,所有這些創作者都在講述正在發生的事情。這開始像野火一樣蔓延。然後是最初的6個月,當然,我們爲許多這些用例提供了旁白、演講和聲音。看到這些真是太好了。

然後在2023年末、2024年初,我們發佈了其他語言的版本。那是首批你可以真正用其他最著名的歐洲語言以及我們的配音產品來創作敘事的時刻之一。所以這回到了最初的願景。我們最終創造了一種方法,讓你擁有音頻並將其轉換爲另一種語言,同時聽起來仍然一樣。這引發了另一次小規模的病毒式傳播時刻,人們紛紛創作視頻。其中既有意料之中的傳統內容,也有意想不到的內容,比如有人試圖爲唱歌視頻配音,我們不知道該模型是否能奏效。它確實有點不太行,但它給你帶來了像是醉酒唱歌的結果。所以,它也因爲那個結果而多次走紅,這很有趣。

然後在2025年,在早期,現在我們經常看到這種情況,每個人都在創建代理。我們開始爲許多這些代理添加語音。對於很多人來說,擁有整個流程編排,語音轉文本,LLM響應,文本轉語音,使其無縫銜接,變得非常容易。我們現在有了一些用例,開始獲得大量的關注和採用。最近,我們與 Epic Games 合作,在《堡壘之夜》中重現了達斯·維達的聲音,玩家們...太多人使用並嘗試在《堡壘之夜》中獲得達斯·維達的對話,其規模非常龐大。當然,大多數用戶都試圖進行精彩的對話,並將他用作遊戲中的夥伴。有些人試圖測試他是否會說一些他不應該說的話。所以你也會看到所有這些嘗試。但幸運的是,該產品表現良好,並且實際上保持了相對的性能和安全性,能夠真正地控制住他。

我想到了一些配音用例。其中一個爆紅的案例是,我們與 Lex Friedman 合作,他對總理納倫德拉·莫迪進行了採訪。我們轉換了 Lex 用英語和納倫德拉·莫迪用印地語進行的對話。我們將對話轉換成英語,這樣我們就能同時聽到他們兩個人的講話。同樣地,我們又將他們兩個人的講話轉換成印地語。所以你聽到了萊克斯說印地語。這在印度也迅速走紅,人們都在觀看這兩個版本。在美國,人們在觀看英語版本。這是把它與開頭聯繫起來的一個好方法。但我認爲,特別是當你考慮未來時,代理以及看到它們以新的方式出現將會非常頻繁。比如,早期開發者構建從Stripe集成到能夠處理退款的一切,再到輔助使用案例,直至真正的企業,可能都會迎來幾次爆發時刻。

語音代理的崛起:重塑人機交互

Rowan: 是的。多談談你現在在語音代理方面看到的情況。看起來這已經迅速成爲一種非常流行的互動模式。什麼在起作用?什麼不起作用?你的客戶真正在哪些方面取得了成功?你的客戶在哪些方面遇到了困難?

Mati: 在我回答之前,或許可以反問你一個問題。在所有與你們合作的公司中,你是否看到越來越多的公司在構建智能代理?

Rowan: 是的,我們絕對看到了。而且我認爲大多數人都有一個長期的願景,那就是一種由11 Labs語音驅動的代理式化身,一個你可以與之互動的人類般的智能代理。而且我認爲大多數人從更簡單的模式開始,並逐步發展。所以我們看到很多技術領域的代理在整個企業堆棧中擴散。我想象也有很多消費者應用,但我們傾向於看到很多企業應用。

Mati: 確實很相似,我們看到的情況是,無論是新成立的初創公司,還是其他公司,每個人都在構建代理。在企業方面也是如此,它對內部流程非常有幫助。退一步說,我們從一開始就認爲並相信,語音將從根本上成爲與技術交互的界面。它將是最重要的界面之一,可能也是我們人類出現以來就知道的交互方式。這是人類最初的互動方式。而且它所承載的信息遠比文本多。它承載着情感、語調、不完美。我們可以互相理解。我們可以根據情感線索,以非常不同的方式做出迴應。這就是我們開始的地方,我們認爲語音將成爲那個界面。不僅構建文本到語音的元素,而且還要觀察我們的客戶嘗試使用文本到語音並完成整個對話應用程序。我們能否爲他們提供一個解決方案,幫助他們擺脫這種困境?

我們從傳統領域已經看到,以幾個領域爲例,比如在醫療保健領域,我們已經看到人們嘗試自動化他們無法完成的一些工作。以護士爲例,像Hippocratic這樣的公司將自動化護士需要給病人打電話以提醒他們服藥。詢問他們的感受。獲取這些信息反饋,這樣醫生就可以更有效率地處理這些信息。語音變得至關重要,因爲很多情況下,用其他方式無法聯繫到這些人。而語音通話是最容易做到的。

然後,非常傳統的,可能進展最快的就是客戶支持。很多公司,無論是呼叫中心還是傳統的客戶支持,都在嘗試在公司內部構建語音功能,無論是像德國電信這樣的公司,還是新的公司。每個人都在試圖找到一種方法來提供更好的體驗,而現在語音是可行的。

然後,對我來說可能最令人興奮的事情之一是教育,你能在以一種新的方式通過語音傳遞進行學習嗎?我至少曾經是個國際象棋棋手,像個業餘棋手。我們與chess.com合作,你可以在那裡……我不知道你是不是chess.com的用戶。

Rowan: 我是,但我棋藝很爛。

Mati: 好的,好的。那麼也許……這是一個很好的提示。其中一件事是我們正在努力有效地構建一種敘述,引導你完成遊戲,這樣你就可以學習如何更好地玩。而且有一種版本,希望你能夠與一些標誌性的國際象棋棋手合作,你可以從馬格努斯·卡爾森、加里·卡斯帕羅夫或光·中村那裡獲得指導,引導你完成比賽,並在比賽中變得更好,這將是驚人的。我認爲這將是我們看到的常見情況之一,每個人都會有他們想要的科目的私人導師,他們可以產生共鳴的聲音,並且可以更接近。

這說的是企業方面。但在消費者方面,我們也看到了增強內容交付方式的全新方法。就像《時代》雜誌的工作一樣,你可以閱讀文章,你可以聽文章,但你也可以與文章對話。因此,它在“年度人物”發佈期間有效地發揮了作用,你可以問他們是如何成爲“年度人物”的,告訴我更多關於其他“年度人物”的信息,並在這裡深入研究一下。

然後,我們公司時不時地會嘗試構建一個人們可以互動並看到可能性的藝術的代理。最近,我們與我最喜歡的物理學家之一的家人合作,爲理查德·費曼創建了一個代理,你實際上可以...

Rowan: 他也是我最喜歡的。

Mati: 好的,太好了。他以一種令人驚歎的方式傳遞知識,既有教育意義,又簡單幽默。而且他說話的方式也很棒,寫作的方式也很棒。真是太棒了。我認爲這會改變未來,也許將來,你會聽到他的經典講座,或者讀到他的書,聽到他的聲音,然後深入瞭解他的一些背景,從而更好地理解他。《別鬧了,費曼先生》,深入閱讀這本書。

Rowan: 我很想聽聽他用自己的聲音朗讀這本書。那會很棒。是的,100%。

Mati: 對於某些企業應用,或者也可能是消費者應用,似乎有很多情況下,界面不是……界面可能是促成因素,但不是瓶頸。

Rowan: 瓶頸在於底層業務邏輯或底層上下文,這些是與你的客戶或任何用戶進行正確對話所必需的。你多久會遇到這種情況?你認爲目前哪些瓶頸正在被消除,哪些瓶頸可能仍然有點棘手?

Mati: 我們與許多公司密切合作的好處是,我們會派遣工程師直接與他們合作,這通常會讓我們深入瞭解一些常見的瓶頸。而且,當我們開始時,除非你考慮一個對話式人工智能棧,否則你需要語音轉文本的元素來理解你說的話,你需要語言模型的部分來生成迴應,然後是文本轉語音來把它敘述回去。然後你需要整個輪流模型,才能以良好的方式傳遞這種體驗。實際上,這只是賦能者。但是,就像你說的,爲了能夠傳遞正確的迴應,你需要知識庫、業務庫或關於你希望如何實際生成該回應以及在特定上下文中什麼相關的信息,然後你需要函數和集成來觸發正確的行動集。

在我們的例子中,我們圍繞產品構建了該棧,因此與我們合作的公司可以相對容易地引入該知識庫,如果他們想啓用 RAG 檢索增強生成,可以訪問它,如果他們需要,可以隨時進行,當然,還可以圍繞它構建函數。而且,一些非常常見的主題肯定會顯現出來,那就是你越深入企業,集成就會變得越重要,無論是像Twilio或SIP中繼這樣簡單的東西來撥打電話,還是連接到他們選擇的CRM系統,或者與那些已經部署這些公司的過去或現在的供應商(如Genesys)合作。這絕對是一個常見的主題,即如何擁有一整套可靠運行的集成,並且企業可以輕鬆地連接到他們的邏輯,這可能需要花費最多的時間。在我們的例子中,當然,這種情況正在增加,而且我們合作的每一家新公司都已經受益於許多已經構建的集成。因此,集成本身可能是最常見的一個。

知識庫不是一個大問題,但這取決於公司。如果我們與一家公司合作……我們已經看到了公司內部知識組織狀況的各種情況。如果一家公司已經花費大量精力進行數字化,並創建某種形式的證據來源,說明該信息的位置和方式,那麼相對容易讓他們加入。然後,當我們走向一個更復雜的例子時,我不知道我是否可以提及任何人,但這可能會變得非常棘手。然後我們和他們一起工作,比如,好吧,這是我們作爲第一步需要做的事情。正在開發的一些用於標準化該過程的協議,比如MCP,絕對是有幫助的,這也是我們正在引入的東西。因爲如果服務能夠提供一個簡單的啓動方式,你就不想把時間花在所有的集成上。

競合關係與客戶價值

Rowan: 嗯,你提到了Anthropic。你接入的東西之一就是基礎模型本身。我認爲這裡存在一種競合動態,有時你是在和他們的語音功能競爭。有時你和他們合作,爲客戶提供解決方案。你是如何管理這種關係的?這如何運作……我猜有很多創始人也在聽,他們也處於類似的位置,他們與基礎模型合作,但也與基礎模型競爭。我只是好奇。

Mati: 你是如何管理這種關係的?我認爲我們已經意識到的最主要的事情是,它們中的大多數是對話式人工智能這類工作的補充。我們正試圖保持對使用哪一個提供商的不可知論。但我認爲最主要的事情是真實發生的,特別是去年,當我想起它的時候,我們不試圖只依賴於一個。我們正試圖將它們中的許多個整合在一起。這也適用於兩者。一種情況是,如果它們發展成更激烈的競爭,以至於它們可能無法向我們提供服務,或者它們的服務變得過於模糊,或者當然,我們沒有將任何數據反饋給它們,但未來這會不會成爲一個擔憂?所以是那一部分。但第二個方面是,當你開發像對話式人工智能這樣的產品時,它允許你部署你的語音人工智能代理,我們所有的客戶都會對使用大型語言模型有不同的偏好。但通常,甚至更頻繁地,你希望有這種級聯機制,即如果一個大型語言模型在給定的時間不工作,那就通過並擁有第二層或第三層支持來很好地執行。我們已經看到這種方法非常成功地運作。所以在很大程度上,把他們當作夥伴。很高興能與他們中的許多人成爲夥伴。希望這種情況能繼續下去。如果我們存在競爭,那也將是一場良性競爭。

Rowan: 我想問您,在產品方面,您的客戶最關心什麼?過去一年左右,出現了一種說法,即那些一直吹捧基準測試的人有點不得要領。除了基準測試之外,客戶真正關心的還有很多事情。您的客戶真正關心的是什麼?

Mati: 他們在基準測試方面說的非常正確,尤其是在音頻方面。但我們的客戶關心三件事。質量,包括它在英語和其他語言中的表達能力。這可能纔是最重要的。如果沒有質量,其他一切都無關緊要。當然,質量的閾值將取決於用例。旁白、代理空間中的交付和配音的閾值是不同的。第二個是延遲。如果延遲不夠好,你將無法交付一個對話式代理。但有趣的地方在於你擁有的質量與延遲的基準之間的結合。然後第三個,在那種規模下尤其有用的是可靠性。比如,我能否進行大規模部署,就像Epic Games的例子一樣,數百萬玩家與之互動,系統能夠支撐住,仍然具有高性能,並且運行良好。並且我們一次又一次地看到,能夠擴展並可靠地交付該基礎設施至關重要。

未來展望:通往人類水平的語音交互

Rowan: 我可以問你,你認爲我們距離高度或完全可靠、人類或超人類質量、有效零延遲的語音交互還有多遠?也許相關的問題是,隨着我們越來越接近並不可避免地超越這個閾值,您面臨的工程挑戰的本質會發生怎樣的變化?

Mati: 理想的情況是,我們很樂意證明今年有可能實現。

Rowan: 今年?

Mati: 你可以通過與代理對話來通過圖リング測試,你會說,這就像與另一個人交談一樣。我認爲這是一個非常雄心勃勃的目標,但我認爲這是可能的。是的。我認爲這是可能的。如果不是今年,那麼希望在2026年初。但我認爲我們可以做到。我認爲我們可以做到。您可能也有不同的用戶羣體,有些人會非常敏感,對他們來說,通過圖靈測試會更加困難。但我對於大多數人來說,我希望我們今年能夠達到那個水平。

我認爲最大的問題,也正是時間表稍微更依賴於它的地方,是它會是我們今天的模型,也就是級聯模型,其中包含語音轉文本、LAM文本轉語音嗎?所以那是可以執行的三個獨立部分。

Rowan: 是的。

Mati: 還是您擁有唯一的模型,您可以將它們一起訓練,真正實現雙工模式,從而使交付效果更好。這實際上就是我們正在努力評估的內容。我們兩者都在做。我們現在所使用的,那麼生產環境中的那個是級聯模型。很快,我們將要部署的是一個真正的雙工模型。我認爲你將會看到的主要一點是可靠性與表現力之間的權衡。我認爲在延遲方面,我們可以在兩方面都做得相當好。但類似地,延遲方面可能也存在一些權衡,真正的雙工模型總是會更快,會更具表現力,但可靠性稍差。而級聯模型肯定更可靠,可以非常具有表現力,但可能在情境響應方面稍遜一籌。因此這將是一個巨大的工程挑戰。而且我認爲沒有公司能夠很好地做到這一點,比如將我們燈具的模態與音頻很好地融合。所以我希望我們能成爲第一家,這是內部的宏偉目標。但我們可能已經看到了睜眼式工作,以及在那裡加倍投入的元宇宙工作。我認爲它還沒有通過圖靈測試。所以希望我們能成爲第一個。

Rowan: 太棒了。然後你早些時候提到,你認爲,而且你一直認爲,語音是許多技術的一種新的默認交互模式。你能更詳細地描述一下這個情景嗎?假設我們到了5年或10年後。你如何想象人們與技術相處的方式,人們與技術互動的方式會因爲你的模型變得如此出色而發生改變?

Mati: 我認爲首先會出現一個美好的部分,即技術將退居幕後。這樣你就可以真正專注於學習、人際互動,然後你就可以通過語音而不是屏幕來訪問它。我認爲第一部分將會是教育。我認爲將會有一個徹底的改變,我們所有人都會擁有引導的聲音,無論我們是在學習數學並瀏覽筆記,還是在嘗試學習一門新語言並與母語人士互動,以指導你如何發音。而且我認爲這將是未來五到十年內的第一個主題,即你將默認擁有代理,語音代理來幫助你學習。

第二件事,這將有趣地影響世界各地的文化交流。

我認爲你將能夠去另一個國家並與另一個人互動,同時仍然保留你自己的聲音、你自己的情感、語調,並且對方可以理解你。

屆時將出現一個有趣的問題,即這項技術將如何交付。是耳機嗎?是腦機接口(Neuralink)嗎?還是另一種技術?但它會發生。我想我們有希望可以實現它。如果你讀過《銀河系漫遊指南》,那裡有泡泡魚的概念。我認爲泡泡魚將會出現,而且技術會讓它成爲可能。所以這將是第二個巨大的主題。

我認爲總的來說,我們談到了個人導師的例子,但我認爲還會有一系列其他的助手和代理,我們每個人都可以擁有,並且可以派遣它們代表我們執行任務。爲了執行很多這些任務,你需要聲音,無論是預定餐廳,還是參加一個特定的會議來做筆記並以你需要的風格進行總結,你都希望能夠執行該行動,或者無論是致電客戶支持,並得到客戶支持代理的迴應。因此,這將成爲一個有趣的代理對代理互動主題,以及它是如何被驗證的。你如何知道它是真實的還是虛假的?但當然,語音將在所有這三個方面發揮重要作用。我認爲教育,以及我們學習事物的方式,將非常依賴於它。通用翻譯器將以語音爲先,然後圍繞生活的通用服務將由語音驅動,這一點至關重要。

Rowan: 非常酷。你提到了身份驗證。我正要問你關於那個的問題。總是出現的一種擔憂是身份冒用。你能談談到目前爲止你們是如何處理這個問題的嗎?也許談談它到目前爲止的演變過程,以及你認爲它未來會走向何方?

Mati: 是的。我們已經開始,這對我們來說從一開始就很重要,那就是對於在11 Labs生成的所有內容,你可以追溯到生成該內容的特定帳戶。因此,你們擁有一個相當強大的機制,可以將音頻輸出與帳戶關聯起來,並且可以採取行動。所以這種出處追溯極其重要。我認爲這在未來會變得越來越重要,因爲你需要能夠理解哪些是人工智能生成的內容,哪些不是,或者它甚至會更進一步,你不僅要驗證人工智能,還要驗證人類。這樣你就會有設備上的認證,例如,這是Mati在呼叫另一個人。

第二件事是更廣泛的審覈,比如這個電話是否試圖進行欺詐和詐騙,或者這個聲音是否未經認證,這是我們公司正在做的事情。隨着時間的推移,我們在多大程度上以及如何做到這一點也在不斷演變。因此,在語音和文本層面進行審覈。

然後,第三件事,擴展我們在溯源組件上開始的工作,是如何訓練模型並與其他公司合作,不僅爲11 Labs訓練,還包括開源技術(這在該領域很普遍)和其他商業模型。當然,隨着開源的發展,你是否真的能抓住它,總會是一場貓捉老鼠的遊戲。但我們與許多其他公司或學術機構(如伯克利大學)合作,以實際交付這些模型並能夠檢測到它們。並且那種指導,尤其是現在,隨着我們在部署新技術方面佔據越來越領先的地位,比如對話式人工智能,很快就會有新的模型,我們嘗試花費更多的時間來理解我們可以引入哪些安全機制,使其對良好行爲者儘可能有用,並最大限度地減少不良行爲者。所以這就是通常的權衡。

立足歐洲,放眼全球

Rowan: 我們可以談談歐洲一分鐘嗎?來吧。好的。所以你們是一家遠程公司,但總部設在倫敦。總部設在歐洲有什麼優勢?總部設在歐洲有什麼劣勢?

Mati: 這是個好問題。我認爲對我們來說的優勢是人才,能夠吸引到一些最優秀的人才。而且人們經常說歐洲人缺乏幹勁。我們完全沒有這種感覺。我們覺得這些人非常有熱情。我認爲我們擁有一支非常出色的團隊。我們儘量用小團隊來運作,但每個人都在不斷努力,對我們能做的事情感到非常興奮。而且我很高興能與一些最努力工作的人以及如此高素質的人一起工作。因此,人才對於我們來說是一個非常積極的驚喜,體現在團隊的構建方式上。尤其現在,當我們繼續招聘員工時,無論是來自更廣泛的歐洲、中東歐的人,他們的素質都非常高。

第二件事,我認爲這是真的,存在一種更廣泛的觀點,認爲歐洲落後了。而且可能在很多方面都是真的,比如人工智能創新由美國引領,亞洲國家緊隨其後,歐洲落後了。但民衆有改變這一切的動力。而且我認爲,與我們公司剛成立時相比,過去幾年裡,這種動力已經有所轉變,當時還比較謹慎。現在我們感受到了這種熱情,並且希望走在最前沿。而且我認爲,從人們那裡獲得這種能量和動力要容易得多。所以這可能是一個優勢,我們可以更快地行動。各公司實際上越來越渴望採用(我們的產品),這在歐洲幫助了我們公司,實際上是作爲一個全球性公司,但由於在歐洲有很多人,這也有助於我們與這些公司合作。

也許還有另一種特性,以及最後一種特性,那就是歐洲特有的,但也是全球特有的。所以當我們創辦公司時,我們並沒有真正考慮任何特定的區域。比如我們是一家波蘭公司、英國公司或美國公司。公司。但有一點是真實的,我們希望它成爲一個全球性的解決方案。不僅從部署的角度來看,也從我們試圖實現的核心來看,比如,我們如何引入音頻並使其在所有不同的語言中都能訪問?所以它貫穿了公司的脊樑,從一開始,從公司的核心。這無疑對我們有所幫助,現在我們在所有不同的地區都有很多人,他們說當地語言,他們可以與客戶合作。我認爲,這可能得益於我們當時在歐洲,因爲我們能夠把人們帶出來,併爲當地的體驗進行優化。

另一方面,更困難的肯定是在美國。那裡有一個令人難以置信的社區,你既有有幹勁的人,也有經歷過幾次這種旅程的人。你可以更容易地向這些人學習。而且有很多人創建了公司,退出了公司,以不同於歐洲大多數公司的規模領導了一個職能部門。所以,僅僅通過和這些人在一起,並且能夠提出問題,你幾乎就可以理所當然地向他們學習。我認爲那更加困難,尤其是在早期,能夠提出那些問題,甚至不是提出問題,而是知道該問什麼問題。當然,我們很幸運能與傑出的投資者合作。這些年來幫助我們解決了這些問題。但我認爲在歐洲這更難。

然後第二點可能與此相反,雖然我確信現在歐洲有熱情,但我認爲過去幾年裡缺乏這種熱情。我認爲美國令人興奮地採取了引領方式,尤其是在過去一年裡,並創造了讓其蓬勃發展的生態系統。我認爲歐洲仍在摸索中。無論是你採取的監管措施,我認爲這些措施無助於我們加速發展,人們正在努力解決這個問題。熱情是有的,但我認爲這正在減緩它的發展。但第一個絕對是更大的優勢。

快問快答

Rowan: 我們要不要來一輪快問快答?

Mati: 開始吧。

Rowan: 好的。你個人最喜歡的AI應用是什麼?不能是11 Labs或11 Reader。

Mati: 這真的會隨着時間而改變。但Perplexity我認爲過去是,現在也是我最喜歡的之一。

Rowan: 真的嗎?對你來說,Perplexity給你提供了什麼ChatGPT或谷歌沒有提供的東西?

Mati: 是的。ChatGPT也很棒。ChatGPT也很棒。我認爲很長一段時間以來,關鍵在於能夠深入挖掘並理解信息的來源。就在這一點上,我稍微猶豫了一下,用“曾經是”還是“現在是”,因爲我認爲ChatGPT現在在這方面已經有了更多的能力。所以我傾向於在很多情況下同時使用兩者。長時間以來,一個非人工智能的應用,但我認爲他們正試圖構建人工智能應用,我最喜歡的應用會是谷歌地圖。我覺得它很不可思議。它是如此強大的應用。讓我共享我的屏幕。我還有什麼其他的應用?

Rowan: 假設你正在做這件事,我會去谷歌地圖瀏覽一下。我會去谷歌地圖,探索一些我以前從未去過的地方。

Mati: 它是百分之100。我的意思是,它作爲ARIA的搜索功能也很棒。很好。作爲一個小衆應用,我喜歡FYI,這是一個Will.i.am的創業公司,它就像一個組合,嗯,它最初是一個通信應用,但現在更像是一個廣播應用。好奇心就在那裡。Cloud也很棒。我使用Cloud做的事情與任何更深層次的編碼元素或原型設計都非常不同。我一直使用雲服務,並且很喜歡它。實際上,不,我確實有一個更實際的近期答案,那就是Lovable。

Rowan: 你在ElevenLabs裡使用它嗎,還是你只是個人使用?

Mati: 啊,不,那倒是真的。我的生活就是ElevenLabs。事實是對於所有這些應用,是的。就像所有這些我部分使用的,很大程度上也是爲了ElevenLabs。但是是的,Lovable我是爲了ElevenLabs而使用的。還有像時不時地探索新事物,我也會使用Lovable,它最終與ElevenLabs相關聯,但它非常適合原型設計,併爲客戶快速展示演示。它很棒。非常酷。那麼,我想,這與11個實驗室有關。好的。

Rowan: 你最喜歡哪一個?我最喜歡的?你知道,這很有趣。昨天我們開了一個團隊會議,每個人都用ChatGPT查看了他們在過去30天裡提交了多少查詢。我在過去30天裡做了大約300個。我當時想,哦,是的,這還不錯。相當不錯的用戶。安德魯也差不多,在過去30天裡完成了約300個。我們團隊裡的一些年輕人,數量超過了一千個。所以不僅我自己是ChatGPT的重度日活用戶,而且我以爲自己是高級用戶,但顯然和一些其他人相比還差得很遠。我知道這是一個非常籠統的答案,但你在一個應用程序中能做的事情之多令人難以置信。你也使用雲嗎?我用一點雲,但用得不多。我每天都用的另一個應用程序,我很反潮流地,是Quip,那是佈雷特·泰勒多年前的公司,後來賣給了Salesforce。

Mati: 我很確定我現在是唯一的日活用戶了,但我只是希望Salesforce不要關閉它,因爲我的整個生活都在Quip裡。

Rowan: 我們使用Palantir。我喜歡Quip。Quip 不錯。真的很不錯。是的。不,他們掌握了基本要點。就像他們掌握了基本要點。沒有陷入花裡胡哨的東西,只是掌握了基本要點。很棒的體驗。好的。在人工智能領域,你最欽佩誰?

Mati: 這些問題很難,不是快速提問,但我認爲我真的很喜歡戴密斯·哈薩比斯。

Rowan: 請詳細說明。

Mati: 我認爲他總是直奔主題。他可以非常深入地談論研究,但他自己多年來也創造了許多令人難以置信的作品,並且當然領導着大量的研究工作。但我有點喜歡他一直在做的研究以及現在領導研究的這種結合。無論是AlphaFold,我認爲這確實是一個新的...我想大家都同意這一點,但對世界來說,這確實是一個前沿領域。儘管大多數人專注於人工智能工作的一部分,但他正在嘗試將其引入生物學領域。我的意思是,達里奧·阿瑪代伊當然也在嘗試這樣做。所以這將演變成什麼,真是令人難以置信。但他在早期創造遊戲,是一位令人難以置信的國際象棋棋手,一直在尋找人工智能在所有這些遊戲中獲勝的方法。他在領導研究部署方面的多才多藝,可能也是他本人就是最好的研究人員之一,保持極其謙遜,而且非常誠實,在知識上誠實。我覺得如果您和德米斯,或者德米斯爵士交談,您會得到一個誠實的答案。他太棒了。

Rowan: 非常酷。好了,最後一個問題。對人工智能未來的熱門看法。你認爲自己過於強烈地相信,但又覺得被低估了,或者可能是逆向思維的觀點。

Mati: 我覺得這可能在某種程度上是一個你期望得到的答案。但我確實認爲整個跨語言方面仍然完全被低估了。如果你能去任何地方說那種語言,人們也能真正地和你自己交談,無論是最初的內容傳遞,還是未來的交流傳遞,我認爲這將改變我們看待世界的方式。我認爲最大的障礙之一在於那些你無法真正理解對方的對話。當然,這涉及到文本層面,能夠很好地翻譯出來,還有語音傳遞。而且我覺得這一點完全被低估了。

Rowan: 你認爲能夠實現這一點的設備已經存在了嗎?不,我不這麼認爲。不會是手機,也不會是眼鏡,可能是一些其他的形態。

Mati: 我認爲它將會有許多形式。我認爲人們會戴眼鏡。我認爲耳機將是最早的形式之一,也將是最簡單的。眼鏡肯定也會存在。但我不認爲每個人都會戴這種眼鏡。那麼,是否會有某種非侵入式神經連接,人們在旅行時可以使用?那將會是一個真正起作用的,有趣的身體附件。

Rowan: 你認爲這種用例是被低估了還是被過度宣傳了?我可能會將其歸入環境計算的概念,即你可以專注於人類,而技術則融入背景。它被動地吸收你周圍發生的事情,利用這種情境來幫助你變得更聰明,幫助你做事,幫助翻譯,無論情況如何。是的,我認爲這絕對符合我對世界發展方向的心理模型。但我確實想知道,實現這一點的形態會是什麼?我認爲這很...哪些是實現技術,能夠讓業務邏輯以及諸如此類的東西開始成爲焦點?

Mati: 它的外形尺寸還有待確定。

Rowan: 但我完全同意。

Mati: 是的,也許這就是它沒有被充分炒作的原因,因爲你無法...是的,人們無法想象它。太棒了。

Rowan: 馬蒂,非常感謝。

Mati: 帕特,非常感謝邀請我。這是一次很棒的對話。非常榮幸。