☰

對話式AI即將爆發！將在手機助手、陪伴機器人、學習機等場景率先落地

《科創板日報》3月8日訊（記者李明明）在生成式AI的浪潮下，行業普遍認爲多模態大模型是實現AGI的必經之路，知名投資機構a16z最新關於Voice AI的報告也顯示，隨着大模型的不斷進步，語音將成爲一種關鍵的切入點，即對話式AI。

隨着對話式人工智能技術的日益成熟，其應用場景也呈現出爆炸式增長。聊天機器人作爲對話式AI的重要應用之一，被廣泛用於客戶服務、教育、醫療、娛樂等多個領域。

那麼，對話式AI的爆發年會先出現在哪個領域和場景？

近日，在聲網對話式AI引擎發佈會上，阿里雲智能集團通義千問高級產品架構師辛曉劍、Minimax解決方案高級總監馮雯、騰訊雲AI產品架構師總監曹超，聲網AIRTE產品線負責人姚光華參與了討論。

多位與會嘉賓認爲，對話式AI可能率先在桌面助手、手機助手、智能硬件、陪伴機器人等場景爆發。

騰訊雲AI產品架構師總監曹超表示，對話式AI特有的優勢在於能夠有感情、有溫度地傳遞聲音和交互的方式，而且隨着模型的升級，可以帶來更多情感的傳遞。

“應用場景來看，對話式AI不適合視覺場景，所以現在更多的是語音和聽覺交互場景。比如有些老人視力會有一些不便，用微信也都是長按說話，放到耳邊貼得很近去聽去看。這些人羣同樣需要一些工具解決自己的溝通和解決問題的訴求，對話式AI也給這些人羣打開了新的機會和可能性。目前對話式AI的硬件視角很多也是基於手機。”

阿里雲智能集團通義千問高級產品架構師辛曉劍補充道，“教育領域的學習機也是一個比較好的場景，目前全國的學習機出貨量大概是每年6000萬臺，且由於大模型的加持，客單價有了非常明顯的提升，此前學習機客單價爲三四千塊錢，現在網上品質稍好的學習機均價已經達到八千以上，這就是對話式AI加持帶來的溢價空間。”

‌據瞭解，目前市場上的對話式AI產品主要包括‌亞馬遜Alexa+、‌湯姆貓AI情感陪伴機器人、‌蘋果Siri、‌Manus等。

近日，聲網發佈了全球首個對話式AI引擎，憑藉650ms 超低延時響應、優雅打斷、全模型適配等五大能力，對話式AI引擎可支持任意文本大模型快速升級爲“能說會道”的對話式多模態大模型。

聲網AI RTE產品線負責人姚光華表示，"經過一段時間與客戶的打磨及實際使用場景調研，經統計，用戶與AI 每產生1次對話中，平均會有約3輪問答，計算下來平均對話時長約爲21.1s，單次成本僅需3分錢。如果每月對話次數15次，那麼月成本不到5毛錢，年成本也只需5元。"

據介紹，通過聲網對話式AI引擎，開發者可以快速部署智能助手、虛擬陪伴、口語陪練、智能客服、智能硬件等對話式AI場景。例如智能助手場景可以通過自然語言交互，幫助人們進行日程管理、信息查詢和任務執行。

談及大模型從文本走向多模態交互的關鍵方面，嘉賓們認爲，多模態模型架構和訓練範式變化不大，提升主要依賴數據質量和數量。實現多模態交互的關鍵在於將不同模態信息轉化到同一語境，目前ASR（自動語音識別，是一種將人類語音轉換爲書面文本的技術）技術的發展有助於實現這一點。但要讓交互體驗更好，還需提升模型推理速度，解決如多角色長短期記憶、區分角色等工程化問題，同時也要應對不同模態交互中的複雜情況，如語音語義差異、視頻處理等。

此外，嘉賓們普遍認爲，DeepSeek爆火是好事，它實現了AI技術的破圈，吸引更多人關注AI。其開源對技術發展意義重大，推動了技術交流與創新，讓更多人蔘與到AI探索中。在技術方面，Deep Seek給行業帶來新思考，如在模型訓練上，減少對大量數據的依賴，通過強化學習實現升級迭代，帶來模型自我進化，降低算力需求，使AI普惠更具可能。此外，它還驗證了模型API的商業模式，推動了應用開發範式的進步。

Minimax解決方案高級總監馮雯表示，DeepSeek出圈，對於AI行業的所有從業者都是一個很好的現象；相比之前，現在AI已經潛移默化地進入了更大的用戶羣體。“開源確實會極大地助力技術出圈，因爲DeepSeek開源，最近我們發佈的技術報告，都在積極地把最新的成果對外展示。”

對話式AI即將爆發！將在手機助手、陪伴機器人、學習機等場景率先落地

相關資訊