Manus會開啓Agent元年嗎?和大廠離職的兩位AI創業者聊了聊

出品 | 本站科技態度欄目

作者 | 袁寧

編輯 | 丁廣勝

像一顆巨石投入湖水,Manus發佈濺起的水花雖已逐漸退去,但激起的漣漪還在不斷擴散。

Manus會開啓Agent元年嗎?怎麼理解Agent及其壁壘?當前是不是Agent的發展機會點?不同玩家如何迎接Agent的浪潮?當前Agent能代替實習生嗎……

3月8日,本站科技邀請了兩位大廠離職,在 AI 創業一線的嘉賓——李博傑和彭康偉,分享他們的判斷與思考。

李博傑,華爲“天才少年”出身,曾任華爲計算機網絡與協議實驗室副首席專家,微軟學者獎得主。2023年投身AI創業,目前是 PINE AI 首席科學家,致力於爲每個人和每個組織構建類似《Her》 裡面 Samantha 的通用智能助理。

彭康偉,曾在騰訊0-1打造過月活破億的C端產品,2023年離職創業,成立夢馬智能,正在做新一代的AI內容平臺。

作爲AI浪潮下的創業者,他們如何在巨浪中尋找方向?透過他們的視角,又能看到一個怎樣的Agent未來?本站科技整理了他們對十個關鍵問題的回答。

以下內容經《本站科技》不改變原意的編輯:

一、怎麼理解Agent?

李博傑:Agent 的概念其實非常早,早在上世紀60年代人工智能剛出現時,就已經有了 Agent 的概念。Agent 的本質其實很簡單,就是它是一箇中介或者說代理。Agent 能夠感知世界,並基於感知進行規劃,然後採取行動。

在如ChatGPT的傳統ChatBot 裡,用戶輸入一個問題,系統給出一個答案,問答結束。但 Agent 不一樣。你把一個任務交給Agent後,它不僅會回答,還會主動收集各種資料,利用周圍的各種資源,最終幫你把事情辦成。這就是ChatBot和Agent 的核心區別。

比爾·蓋茨其實很早就看重這個方向。我在微軟工作的時候,Office 2003裡就有一個小回形針助手(Clippy),它會彈出來問你需要幫助嗎?這其實就是早期探索 Agent 的嘗試。但當時 AI 技術不成熟,最終在 Office 2007裡就取消了。

後來像 Cortana、Siri 之類的助手,也可以看作是早期的 Agent,能幫用戶完成一些小任務。再往後發展,現在的 Agent(比如 Manus)真的可以幫助用戶完成長時間、複雜的任務,甚至長達半小時到一小時。

彭康偉:在我看來,之前的大語言模型(LLM)更像是一個諮詢專家,能解答疑難問題。但 Agent 更像是一個高智商的實習生,能幫助我們完成具體任務。

Agent 的神奇之處在於它具備“腦、手和交付”三種能力:LLM 提供認知和思考能力,相當於 Agent 的“腦”;Agent 的“行動”能力體現在它能調用瀏覽器、搜索信息、執行指令等,相當於它的“手”;而“交付”能力則體現在它最終能給出完整的成果,不管是文檔還是網頁展示。

在 Manus 的界面中,你可以清楚看到它的工作過程:左邊是它的瀏覽和操作記錄,右邊是它的思考過程。最終,它還能以文檔或網頁的形式完整地展示成果。對於實際業務來說,這種能力的價值非常高。

二、Manus爲什麼能夠出圈?

李博傑:我覺得 Manus 出圈主要有兩個原因。一方面,媒體的傳播確實給了他們特別大的影響力。

另一方面,我覺得 Manus 的設計也很巧妙。它通過展示電腦操作過程,讓普通用戶更容易理解 Agent 的工作原理。以前很多產品會隱藏中間的操作過程,直接呈現最終結果。但 Manus 不一樣,它直接用屏幕動畫一步步展示操作過程,比如如何瀏覽網頁、執行任務。

雖然這種“視覺操作”方式在效率上可能不如直接訪問網頁,但展示效果更直觀,讓用戶更容易理解 Agent 的實際能力。

彭康偉:補充一下,我覺得Manus 之所以能出圈,是因爲它是第一個提出“通用型 AI Agent”概念的產品。

以前有不少優秀的編程工具能幫助開發者寫代碼,但 Manus 將 Agent 的能力擴展到了更廣泛的領域,讓普通人也能使用它來完成各種任務。這是它的第一個亮點。

第二個亮點是 Manus 的工程能力提升明顯。以價格比對任務爲例:在電商場景下,要找到最優價格,需要檢索大量信息,涉及不同的供應鏈和成本結構。Manus 能夠整合這些複雜的信息,進行多層次的檢索和分析,最終給出最佳方案。

這種跨場景、跨領域的通用能力,正是 Manus 與早期 Agent 產品的最大區別。

三、Agent的壁壘是什麼?

彭康偉:我覺得從技術角度看,Agent 的本質其實可以用剛剛“手”和“腦”來比喻。大模型相當於“腦”,而“手”就是調用各個網頁和工具的能力。從技術上講,復現這種交互能力其實並不難。

但真正的壁壘在於實現每個具體場景下的工程部署和優化。比如,面試、電商、編程等具體場景中,前後端的聯調部署和代碼集成都需要大量的工程工作。這種在不同場景下的定製化實現,纔是建立壁壘的關鍵。

李博傑:我非常同意康偉的看法。Agent 的核心挑戰不在於調用大模型或開放接口,而是能否在專業領域中積累工程經驗。

對於通用任務,比如規劃一份日本7日遊行程單,Agent 可能表現很好。但在專業領域,比如醫療,Agent 需要具備專業知識和領域積累,而這些知識可能並不在公開語料中。因此,單靠通用模型的數據集,可能無法滿足專業需求,仍需進行特定的微調和後訓練。

此外,復刻別人已經完成的東西,其實是一個下限很低,上限很高的事情。比如我在用 Manus 做調研報告時,發現 OpenAI 的模型效果往往優於 Manus,因爲 OpenAI 可能使用了自己未公開的模型,經過專門針對調研場景的後訓練優化。Manus 團隊目前無法打造出這種規模的專有模型,因此只能在開源模型基礎上做調優。

即便有開源解決方案,比如 Owl 等的開源模型,但由於工程調優的能力不足,其實效果仍然與 Manus 有差距。

四、Manus未來如何盈利?發展方向?

彭康偉:從 Manus 團隊之前做 Monica 的經驗來看,他們在瀏覽器和插件領域積累了大量用戶和使用場景,具備對用戶需求的深刻理解。因此,打造一個“入口級”產品可能是一個合理的方向。

“入口級”意味着像抖音、微信這樣的平臺,吸引大量用戶並建立生態。比如,打造一個類似 GitHub Copilot 的 Agent 平臺,允許用戶上傳和共享專業領域的 Agent——比如電商、教育、法律等領域的細分 Agent。這不僅能夠滿足具體需求,還能通過用戶和開源社區的力量,形成良性循環,完善整個生態。

即便 Manus 無法成爲入口級產品,當前的市場熱度也會推動開源生態的發展,讓更多人將 Agent 技術應用到各行各業,創造真正的商業價值。

李博傑:我也認爲打造入口級產品是最大的機會。但對於我這種資歷更淺的創業者來說,直接挑戰大廠和成熟產品並不容易。因此,更現實的路徑可能是專注於客單比較高的垂直領域,打造高附加值的行業解決方案。

一些垂直領域客戶對 AI 賦能有強烈需求,但自身技術儲備不足。這就爲 Agent 在行業場景中的落地提供了空間。此外,垂直領域的用戶往往能承擔更高的使用成本。

比如,當前 Manus 的模型推理成本較高,一次執行可能需要2美元以上。如果是日常使用,每天用5次就要花10美元,個人用戶可能難以負擔。但對於法律、金融等高附加值行業,AI 賦能後的增值足以覆蓋這部分成本。因此,Manus 在商業化上可能更適合面向高附加值領域。

五、當前是不是Agent發展的機會點?

彭康偉:我認爲當前確實是 Agent 發展的重要時機。Agent 早就出現了,但由於模型能力有限,加上調用成本高,之前的發展受到了限制。

但隨着模型和推理技術的優化,以及調用成本的不斷下降,Agent 的應用場景也變得更爲廣泛了。

李博傑:我補充一下。除了成本降低,模型能力的提升也是關鍵因素。早期的模型在面對複雜任務時往往很“笨”,即使配備了工具(如搜索網頁、發郵件、計算器等),模型可能也不知道如何正確使用。

但今年的新模型,比如國內的 DeepSeek 等,已經解決了這一問題。模型在不確定時,能夠主動調用外部工具,做出更可靠的判斷。

此外,模型在解決複雜任務時的穩定性也在提升。假設某個任務需要10個步驟,每一步的準確率從90% 提升到99.9%,整體成功率就會從35% 提升到90%以上。這個穩定性提升,使得 Agent 在商業環境中的可用性大幅增強。

這正是爲什麼大家普遍認爲2025年是“Agent 元年”。之前的模型太慢、太笨,難以滿足實際需求。而今年的模型在推理速度、調用工具的能力和穩定性上都有了突破,才讓 Agent 真正具備了廣泛落地的條件。

目前,Agent 在編程領域的應用已經較爲成熟,我認爲今年這種能力會擴展到更多行業,真正實現跨領域應用。

六、模型能力提升會覆蓋掉Agent能力嘛?

李博傑:我自己的感覺是會的。我理解這個問題是說,一些Agent通過精細調參或策略優化形成的功能性提升,是否會被更強的模型能力取代。比如,Manus 其實現在就是一個典型的“多 Agent 系統”,其中不同的 Agent 負責搜索、寫代碼、操作電腦等。

在過去,我們通常會基於人類的工作流程來設計 Agent,比如讓它們先做 A,再做 B,這樣可能效果更好。但如果模型能力提升,很多這些基於工程優化的 Agent 可能就不再需要。

我自己就吃過這個虧。之前在某個項目上做了很多優化,結果新模型一出來,之前做的精細化工程全都被淘汰了。我猜康偉在創業過程中可能也有類似的經歷。

但從技術發展的角度看,功能性優化仍然有價值。因爲未來每個人都能獲得同樣強大的模型,誰能在模型的基礎上做出更好的工程優化,誰就能佔優勢。

彭康偉:我覺得這可能要分短期和長期來看。

長期看,很多技術團隊和算法團隊都認爲,最終模型能力會覆蓋掉 Agent 的能力。因爲從人的意志出發,我們自然希望模型能夠發展得足夠強大,最終實現這一目標是大概率事件。

短期看,工程化優化仍然是必要的。我們在創業中所交的“學費”或“代價”是必須的,因爲短期內模型不可能快速覆蓋所有具體的行業場景。因此,做好工程化優化,既能形成壁壘,也能讓產品更好地服務用戶。

舉個例子,這波大模型出來後,之前在 NLP 和 CV 領域積累豐富經驗的公司,會更容易快速應用大模型,結合行業壁壘和經驗,形成競爭力。

七、中小企業如何迎接Agent浪潮呢?

李博傑:如果是初級企業,對 AI 瞭解不多,可以先用低代碼(low-code)工具或 DFI 知識庫系統,搭建基礎的知識庫,然後在此基礎上構建一個簡單的 Agent。低代碼工具通過拖拽的方式,能快速搭建出 Agent 系統。

如果是有一定技術積累的公司,可以嘗試“後訓練”(fine-tuning)的方法,把行業知識和經驗融入模型中。

這種方式相當於把知識“內化”到模型中,而不是每次都依賴知識庫去查詢。內化讓模型知道大致的方向,但在面對具體問題時,仍需要藉助知識庫來確認細節。

企業在搭建知識庫時,檢索能力至關重要。比如,谷歌的搜索效果明顯好於必應,就是因爲谷歌基於用戶反饋和排序算法,能更好地保證搜索結果的相關性。企業在搭建知識庫時,也要注意優化檢索算法,提升相關性和用戶體驗。

八、Agent發展是大廠遊戲嗎?

彭康偉:我覺得這個問題對創業者來說其實沒那麼嚴峻。Agent 本質上是爲具體行業和產品服務的。

首先,Agent 不是終點,而是加速產品和服務的工具。其次,產品能否成功,更多取決於市場和用戶反饋,而不是 Agent 本身的技術水平。

大廠雖然有資源,但它們不會做所有事情。我想說,大家也不必覺得過於焦慮,其實我們能做的事情很多,大廠的射程也是有限的,不然也不會出現那麼多的上下游的公司,所以創業公司能做的事情還是有很多的。

李博傑:康偉說得很好。因爲我也在大廠待過,我能感受到大廠往往在創新性產品上比較謹慎,只有當成本降低、準確度提高,產品成熟到“用戶用了不會出錯”時,纔會推出。而創業公司沒有這些顧慮,可以更靈活地迭代和試錯。

比如,在 AI 輔助編程領域,微軟等大廠可能早有原型,但因爲擔心破壞現有商業模式或成本過高而未發佈。這就給創業公司留下了空間。

九、Agent元年的標誌性會是什麼?

李博傑:我自己感覺標誌性事件可能會是一個能夠綜合調用視覺、聽覺、語言等多種模態,能獨立使用電腦、手機,甚至打電話,幫助用戶完成日常任務的產品。如果這種能力在2025年實現,我覺得就可以稱爲 Agent 的元年。而且我也希望我能夠做出來這件事情。

彭康偉:我覺得這更像是垂直領域的大爆發,類似於2022年底 AI 能力爆發的那種感覺。那時候我們能真切地感受到,AI 在智能水平上的突破,與上一代 AI 相比有了質的飛躍。這也是“爲什麼稱之爲大模型”的原因——關鍵就在於“大”本身,代表着智能程度的顯著提升。

對於 AI Agent 而言,我認爲它涉及兩個核心層面:一個是多模態理解。就像剛纔提到的,Agent 能夠同時理解和處理視覺、聽覺、語言等不同模態的信息。

另一個是多任務協同。這涉及我們所談到的各種 Agent 場景,不論是在電商、製造、金融,還是在編程領域,Agent 都能高效完成任務並交付成果。

關鍵不只是完成任務的動作本身,而是在沒有人類干預的情況下,能夠高質量地完成任務交付。這與實習生完成任務不同,實習生在執行過程中可能會出錯,需要人來糾偏(無論是目標上的調整,還是行動上的修正)。但 AI Agent 的目標,是在無需人爲干預的情況下,自動調整並交付高質量的結果。

從這個角度看,我也很期待 AI 在任務交付和目標達成上的“智能涌現”時刻,這將標誌着 AI 在任務理解和執行效率上,真正達到新的高度。

十、Agent當前能替代實習生嗎?

李博傑:其實問題的關鍵還在於“記憶”。目前的 Agent 仍然停留在“事實性記憶”層面,比如“今天吃了什麼”這種簡單信息。但涉及“過程性記憶”(比如騎自行車的動作記憶),AI 仍然很難做到。

目前,基於知識庫、檢索和總結的方法,效果還是不如人類的記憶。AI 如果無法解決“記憶”問題,就無法真正替代人的長期學習能力,就相當於一個實習生在這個公司裡幹了一天和幹了一年沒有區別。

彭康偉:在特定領域(比如編程),Agent 已經可以替代部分實習生的工作。企業可以通過使用 Agent,或者讓每位正式員工“帶幾個編程 Agent”,來實現降本增效。

在重複性、流程化任務中,Agent 的確有助於提高生產力。