阿里雲副總裁徐棟:打造AI時代的生產力操作系統
【億邦原創】2025年7月31日,在杭州舉辦的浙江“平臺+產業”AI對接會上,阿里雲副總裁、通義大模型業務總經理徐棟發佈了主題爲“AI大模型時代下行業&產業發展新引擎”的專題演講。徐棟表示,當前大模型通過海量語料訓練(如通義模型學習36T tokens),實現“機器理解人類語言”的範式轉變,不再要求人類適配機器語言。同時,多模態融合加速,實現“三進兩出”:支持文本、語音、視覺(圖像/視頻)輸入,輸出文本與語音。阿里的視頻生成模型“通義萬相”進入落地階段,可生成營銷動圖、水墨風格視頻,超越Sora、逼近Veo3水平。
大模型正從“技術炫技”轉向“商業實用”,核心價值在於讓機器理解人類語言並調用工具解決實際問題。阿里雲通過通義系列模型的多模態進化與企業級落地實踐(導購/視覺管理/數據決策),推動AI成爲新生產力引擎。未來半年,模型精度躍升與視頻生成普及將開啓更廣闊的產業應用空間。
以下爲演講原文,經億邦動力編輯:
尊敬的各位領導、各位來賓大家上午好,今天跟大家簡單報告下阿里巴巴在大模型方面的想法和進展。
我負責通義大模型的業務落地,主要是跟很多企業探討怎麼樣讓大模型發揮商業價值。今天跟大家主要報告兩部分內容:第一,怎麼理解大模型,當下大模型的核心能力大是什麼。我們一直認爲一代模型有一代模型的能力,今年1月到現在,模型有了很大改變,讓我們看到很多新的可能性。第二,我們怎麼落地,以及在落地上的思考。
一、走進大模型
首先我們理解大模型。大模型是AI的一部分,它是AI子集。AI大家很熟悉,比如說之前經常會用到的人臉識別、語音轉文本、翻譯,已經融入我們的生活了。
整個AI技術也特別簡單,分兩部分:第一部分是訓練,給它一堆數據,讓它從數據裡找規律,這個規律最後可以被表達爲一個數學公式,簡單來說就是這樣一個過程,數據量越大它能表現的規律也就越好。
第二部分是推理階段,推理階段也可以理解爲用階段,如果這個模型對這個規律的復現越好,我們會認爲它的精度越高。像人臉識別這種相對垂直的算法已經用在非常多的地方,因爲如果一個模型精度超過95分以上,我們一般會認爲這個AI算法已經可以信賴了。
1、讓機器學會人的語言
這次AI的明顯改變是,它跟原來的AI不太一樣,它是一個有更強泛化性的模型,因爲這次大模型不是讓人去學機器語言,而是讓機器學會了人的語言。
這代大模型核心的訓練過程就是去學非常多的人類語料,像通義系列模型,上一代模型學了36T的tokens,也就是30萬億的詞源,而且是高度清洗過的數據,大概是10億本書。所以大家可以簡單理解爲,它看了10億本書,總結了人類所有的知識和規律,相對來說它就學會了人的語言。
過去AI只能解決一件事情,但這一代大模型有很強的泛化性,越來越像一個人。
當然比較有意思的是,這個模型目前在不同任務上精度表現不太一樣。比如說你去問一些歷史知識、常識,它回答得還不錯,讓它解析數學題目都不錯。但是一些複雜指令依然會出現小問題。比如我們問0.91和0.8誰大,過去這個模型也會出現一些問題,也就是說,有些常識類的問題不一定處理得最好,這跟它的指令遵循和訓練方法有關。
所以我們也是特別期待,如果整個大模型在所有下游任務裡都能表現非常好,都超過95分,這個時候大家對模型會產生非常深的依賴。
所以我們認爲這代技術底層的改變,不再是人去學機器的語言,而是讓機器學會了人的語言,很多工作內容由模型去實現。
這張圖更多是讓大家去感受下節奏,阿里巴巴在2023年成立通義實驗室,把阿里巴巴旗下的大模型、AI相關板塊做了一個聚合,我們在2023年初開始做模型發佈,越到後面越來越緊密。2023年是一年發幾個模型,2024年基本上一個月發一個模型,到2025年,本來我認爲每個月發兩三個模型就不錯了,後來發現還遠遠不止,我們上週就發了四個模型。所以基本上現在一個月會發多個模型,因爲模型有很多不同類別,有多模態模型、有推理模型、代碼模型以及各種各樣不同維度的模型,所以我們看到模型迭代節奏越來越快。
大家經常會看到一個現象,突然有一個模型出來了打榜很靠前,今天整個模型生態就是一個你追我趕的過程,一個模型出來之後,佔據榜單或者最領先的時間點差不多也就是1-2個月,所以我們看到模型的迭代節奏會非常快。
2、讓模型能力更靠近商業化
這裡也想跟大家分享下我們自己的模型工作內容,這跟我們未來的商業化產出會有比較緊密相關的連接。我們會在三個方面持續投入,讓模型能力靠近商業。
第一個事情是,我們會進一步去增加模型知識,提高效率。簡單來說就是多快好省。你用模型的成本越來越低,你的速度越來越快,而且越來越聰明,所以這是第一個軸。我們可以看到訓練數據量也會進一步增加,人類高質量的語料數據應該是在100-150T,目前大概的數據量是36T,所以未來依然會有越來越多的數據訓到模型,模型會掌握越來越多的知識。我相信模型會越來越懂得全世界所有的規律性的事情。
第二個事情是提高模型的性價比。性價比如何變高,就跟網絡算法有關。大家都聽說過DeepSeek在今年年初講到怎麼讓成本降低,這項工作依然有很多事情要做。所以今天全球範圍內能持續做事情的公司不會特別多,因爲在這個技術棧上要投入非常大,基本是100億人民幣到100億美金之間。
下一個維度跟產業落地更加緊密掛鉤,也就是我們希望這個模型變得很聰明,聰明意味着它能夠幫我去處理最終的任務,而不只是對話。
大家應該對慢思考比較瞭解了,但是我們今天想講的是慢思考還不夠,而是你在慢思考過程中,需要學會用工具,因爲人跟別的物種有很大的兩個區別:一是人有語言,二是人會用工具,而且是辯證地用工具,每次基於工具召回的結果來判斷我是用對了還是用錯了,我是不是應該換種用法。
所以我們今天特別希望模型能夠在有計劃地慢慢思考的過程中,去使用正確的工具,以及正確判斷工具的結果是對還是錯。
假設今天我們讓模型能持續思考兩個星期,這個思考不是很浪費的思考,而是讓它不斷跑兩個星期,在過程當中它會用仿真軟件、用專業材料學知識庫,也會調CRM、ERP,我們就會發現它能找到一些更加有用的材料假設方案。這些事情我們跟TCL有些合作探討,希望模型能夠不斷思考,但過程當中它要用到很多工具去不斷糾偏,最後產出一個不同的假設,這就是我們今天特別希望模型做到的。
第三方面,我們看到Z軸想講的是,模型可以很聰明,但是模型不應該是一個籠子、不應該是一個啞巴、不應該是一個盲人,我們希望它能夠把不同模態跟我們的語言模型做對齊,也就是跟我們的智力能對齊。
這裡面目前我們大概能夠做到三進兩出,也就是文本進、聲音進、視覺(圖片和視頻)進,文本出、聲音出。目前在這個基礎上還有很多工作正在展開,目前我們也希望把這樣一個全模態的模型,能夠放到不同的消費電子硬件裡,比如說汽車、眼鏡,最近很多消費電子都會對跟大模型去做結合,我們也是特別看好這個方向。
從長期來說,有可能這個模型就是一個模型,而不是分這麼多不同的維度,只不過今天在過程當中我們要去做很多探索,讓模型在每個領域的能力變得最強。這是簡單跟大家說下我們的工作內容。
大家可以期待下,今年1月到現在已經大半年過去了,再過半年可能模型又會躍升一些能力,它的精度會從85分提升到90分,甚至到95分,它就可以在很多任務上就可以幫助商業、幫助企業家做越來越多的商業創新。
3、典型應用
這裡簡單跟大家同步一下比較典型的應用。
大家可以看到在左邊是讓模型去看一個貪吃蛇的小遊戲,你只要跟他說請你幫我復刻下這個遊戲,基本上它就可以幫你寫100行左右的代碼,幫你復刻出來。這體現了模型首先具備理解能力,其次具備計劃能力,第三具備工具調用能力,這就是一個比較典型的案例。
半年前模型是很難做到的,現在可以比較輕鬆地實現一些簡單任務。
再比如做獨立站地時候,商品介紹都是一個H5頁面,模型通過指令就可以生成一個H5。因爲一個H5頁面既可以是獨立站頁面,也可以是一個APP,也可以是PPT的報告,所以今天看到的是一句話就可以生成一個H5頁面,這件事情也已經越來越普遍。
第二個不是光一個文本進、文本出的架構,而是我們可以輸入更多的視覺信號,這個模型除了剛纔說的看的10億本書之外,他同時學了50億對的圖文對,也就是說它看到很多圖片,比人類要看得多,所以它具備了幾個能力:
1)萬物識別。今天所有的花花草草、文物景點、汽車、日用品它基本都能認得。
2)目標檢測,視覺檢測領域。給它一張圖片可以精準地幫你找到內容,並且返回座標軸給你。我今天如果這張圖片問他這圖片裡哪個是勇敢的人,過去的AI算法就比較難去理解什麼叫做勇敢,因爲它只知道蘋果、香蕉,它不太知道勇敢這個詞是怎麼定義的。今天這代模型已經開始具備了識別什麼叫勇敢,能把語義做對齊。
同樣我們也看到今天這個模型替代了很多OCR的能力,也就是票據識別的能力。今天這個模型已經在很多金融機構去做票證、票據甚至是跨國的身份認證,比如今天我在越南怎麼樣去做身份認證,多語言能力怎麼去提升。這是這代模型在做的事情,也就是模型除了能夠處理文本能力,還能處理更多的視覺能力。
這是我們前天剛發的模型叫通義萬相,這個模型也很有意思,它不是去理解,它是直接生成。它比較有意思的是你可以通過指令讓它生成我需要的一段視頻,原來比較麻煩,指令遵循的效果不是特別好,但是目前可以遵循得非常好,而且相對比較穩定。我們可以看到不同風格,比如說水墨畫或者一個比較複雜的海報,基本上都能生成得比較好,這個模型目前在很多營銷素材、商品營銷的動圖上被使用。
這代模型跟語言模型比還處於早期階段,可以理解爲是跟去年的下半年差不多,但是這個模型進度很快,估計在過半年應該會在越來越多的視頻創作裡用起來。
我們也可以看下這個模型現在已經到了哪個顆粒度的內容——它可以有很多元素,不管是人的情緒還是動作表現都可以做,大家今天看到的所有視頻內容都是由這個模型生成的,並不是拍出來的內容。
比較難生成的是動作,模型不是學會了物理規律,知道人有五個手指,而是看了一堆數據之後掌握了這個規律,然後復刻這個規律。
今天我們看到一個轉身的動作、大幅運動的動作,都是需要大量數據去訓練才能得到的。
另外也可以看到它對環境各方面的能力,包括鏡頭的運動也可以產生更多的控制能力,所以這一代模型我們認爲已經進入到了GPT3.5到4的階段,也可以慢慢進入到產業落地當中。
簡單跟大家報告一下我們的模型能力。這三個模型有很多能力上的創新,並且能夠跟很多產業去做落地。
二、大模型應用落地方法論
接下來跟大家報告第二部分,我們怎麼去看待落地,怎麼應用大模型。
我們會把模型分成三層,最前面的是大腦,模型有很多類別,有多模態、理解類模型、生成類模型、文本類模型,未來應該會越來越統一,它有可能會分大中小,最貴、最便宜、最快。
中間這層相當於是把大腦分裝出來,我們要加知識庫、插件,我要對大腦增加控制,跟客戶的系統做打通。
最上面是兩個比較明顯的應用方向:一個是產品+大模型,最典型的是消費電子,今天所有的手機都叫AI phone,所有的PC都叫AI PC,所有的汽車原來講自動駕駛,現在講智能座艙,整個汽車就是一個超級大的智能體,裡面有很多麥克風、攝像頭和屏幕,可以通過大模型改變交互能力,創作很多新的商業體驗。
另一個方向是企業+大模型。每個企業都能用到大模型,這跟產品形態有關,因爲大模型改變的是生產力。每個企業都有自己的流程,怎麼樣讓流程效率變快,提升變得自動化,大模型可以做到很多。
所以我們可以看到有容錯率比較高的場景,像一些銷售場景、導購場景,大模型越做越多。我們也看到一個人就可以開一家公司,如果我們平臺工具足夠好,企業內部流程已經能夠有Agent來表現,這是生產力的提升。
接下來,我們簡單總結三個小場景,大家可以感受一下,這些場景一年之後還在跑,而且跑得非常不錯,所以我想通過這個場合來跟大家簡單報告下。
第一個是導購。導購主要就做三件事情,一是我想了解你的品牌,二是我想了解你的商品特點,三是我有些問題想問你,你有什麼推薦給我。就這三類問題。它的容錯率很高,而且很聚焦,相對閉環。
過去導購很難做到7×24小時,但是今天通過大模型導購,只要掛在公衆號裡,掛在APP裡,基本上能夠和很多消費者隨時隨地發生簡單的連接,也就是把剛纔說的三個問題回答得比較好。絕大部分的零售企業都在用大數據搭出這樣一個智能導購體系,去提供簡單服務,ROI比較明顯,因爲它的成本相對比較低。
第二個事情跟多模態有關。線下很多零售門店有很多攝像頭,這些攝像頭怎麼樣利用起來去做些管理動作,比如線下門店的品效怎麼去管理,怎麼樣讓管理規範做得更加好,甚至怎麼讓貨架擺放產出變得最高,也是一個很重要的事情。
過去我覺得很難實現,因爲過去的AI算法,每做一個任務要單獨訓一個模型,比如你要識別垃圾桶是否及時清理,要找三千張照片,我基於這三千張照片幫你訓一個垃圾沒有倒掉的算法識別。但今天不用,現在的模型有比較強的視覺理解能力,它可以比較好地基於攝像頭去做泛化理解,對店鋪做一個遠程管理,這個能力目前也是越來越普及的。
第三個是智能問數。一汽完全是基於公共雲上的服務來給他的管理者提供智能問數的能力。過去他們的董事長一層一層往下去挖掘數據,週期比較長,快的話要半天,慢的話要一個星期,因爲數據是一層層往下挖掘的。那天就很簡單,今天一汽董事長到了廣東,只要問釘釘,幫我把廣東所有的經銷商和不同車型做一個降序排序,銷量做一個降序排序,馬上就可以出來相關數據,準確率非常高。
大模型從實驗室慢慢變成一個產品,大概花了兩三年時間,今天大模型對於整個行業的改變是普遍而深刻的,雖然還處於相對早期的階段。
我在阿里雲有十年了,我能很明顯地感受到從雲到大模型的變化。過去我們講雲,其實跑的很多都是泛互聯網公司,講到IT大家覺得很遙遠(如果做業務)。所以過去我們更多聊的是技術部門,但今天大模型不一樣,大模型每次都去交流,基本上都是和業務部門探討,都是公司的決策者、董事長參與,因爲他們都希望探索業務新模式。
所以在這裡,我也很期待以後有機會可以和大家通過AI、通過1688平臺,拓展新的商業邊界,提高商業效率。
謝謝大家!