對話式AI即將爆發!將在手機助手、陪伴機器人、學習機等場景率先落地

《科創板日報》3月8日訊(記者 李明明)在生成式AI的浪潮下,行業普遍認爲多模態大模型是實現AGI的必經之路,知名投資機構a16z最新關於Voice AI的報告也顯示,隨着大模型的不斷進步,語音將成爲一種關鍵的切入點,即對話式AI。

隨着對話式人工智能技術的日益成熟,其應用場景也呈現出爆炸式增長。聊天機器人作爲對話式AI的重要應用之一,被廣泛用於客戶服務、教育、醫療、娛樂等多個領域。

那麼,對話式AI的爆發年會先出現在哪個領域和場景?

近日,在聲網對話式AI引擎發佈會上,阿里雲智能集團通義千問高級產品架構師辛曉劍、Minimax解決方案高級總監馮雯、騰訊雲AI產品架構師總監曹超,聲網AIRTE產品線負責人姚光華參與了討論。

多位與會嘉賓認爲,對話式AI可能率先在桌面助手、手機助手、智能硬件、陪伴機器人等場景爆發。

騰訊雲AI產品架構師總監曹超表示,對話式AI特有的優勢在於能夠有感情、有溫度地傳遞聲音和交互的方式,而且隨着模型的升級,可以帶來更多情感的傳遞。

“應用場景來看,對話式AI不適合視覺場景,所以現在更多的是語音和聽覺交互場景。比如有些老人視力會有一些不便,用微信也都是長按說話,放到耳邊貼得很近去聽去看。這些人羣同樣需要一些工具解決自己的溝通和解決問題的訴求,對話式AI也給這些人羣打開了新的機會和可能性。目前對話式AI的硬件視角很多也是基於手機。”

阿里雲智能集團通義千問高級產品架構師辛曉劍補充道,“教育領域的學習機也是一個比較好的場景,目前全國的學習機出貨量大概是每年6000萬臺,且由於大模型的加持,客單價有了非常明顯的提升,此前學習機客單價爲三四千塊錢,現在網上品質稍好的學習機均價已經達到八千以上,這就是對話式AI加持帶來的溢價空間。”

‌據瞭解,目前市場上的對話式AI產品主要包括‌亞馬遜Alexa+、‌湯姆貓AI情感陪伴機器人、‌蘋果Siri、‌Manus等。

近日,聲網發佈了全球首個對話式AI引擎,憑藉650ms 超低延時響應、優雅打斷、全模型適配等五大能力,對話式AI引擎可支持任意文本大模型快速升級爲“能說會道”的對話式多模態大模型。

聲網AI RTE產品線負責人姚光華表示,"經過一段時間與客戶的打磨及實際使用場景調研,經統計,用戶與AI 每產生1次對話中,平均會有約3輪問答,計算下來平均對話時長約爲21.1s,單次成本僅需3分錢。如果每月對話次數15次,那麼月成本不到5毛錢,年成本也只需5元。"

據介紹,通過聲網對話式AI引擎,開發者可以快速部署智能助手、虛擬陪伴、口語陪練、智能客服、智能硬件等對話式AI場景。例如智能助手場景可以通過自然語言交互,幫助人們進行日程管理、信息查詢和任務執行。

談及大模型從文本走向多模態交互的關鍵方面,嘉賓們認爲,多模態模型架構和訓練範式變化不大,提升主要依賴數據質量和數量。實現多模態交互的關鍵在於將不同模態信息轉化到同一語境,目前ASR(自動語音識別,是一種將人類語音轉換爲書面文本的技術)技術的發展有助於實現這一點。但要讓交互體驗更好,還需提升模型推理速度,解決如多角色長短期記憶、區分角色等工程化問題,同時也要應對不同模態交互中的複雜情況,如語音語義差異、視頻處理等。

此外,嘉賓們普遍認爲,DeepSeek爆火是好事,它實現了AI技術的破圈,吸引更多人關注AI。其開源對技術發展意義重大,推動了技術交流與創新,讓更多人蔘與到AI探索中。在技術方面,Deep Seek給行業帶來新思考,如在模型訓練上,減少對大量數據的依賴,通過強化學習實現升級迭代,帶來模型自我進化,降低算力需求,使AI普惠更具可能。此外,它還驗證了模型API的商業模式,推動了應用開發範式的進步。

Minimax解決方案高級總監馮雯表示,DeepSeek出圈,對於AI行業的所有從業者都是一個很好的現象;相比之前,現在AI已經潛移默化地進入了更大的用戶羣體。“開源確實會極大地助力技術出圈,因爲DeepSeek開源,最近我們發佈的技術報告,都在積極地把最新的成果對外展示。”