見談 | 商湯絕影王曉剛:越過山丘,我如何衝刺智駕高地?

21世紀經濟報道記者 焦文娟 上海、廣州報道

科技創新在於靈光乍現的一刻。在端到端領域,商湯絕影CEO王曉剛是最先發現機會的那批人。

《21汽車·一見Auto》發現,2017年,王曉剛在參與的一篇論文中*最先提到“端到端”。彼時,他想解決計算機視覺在處理不同語義層次任務中的孤立性問題,受人類視覺系統處理信息方式的啓發,他們便提出了一種端到端的多級場景描述網絡(MSDN)。

簡而言之,在計算機視覺處理時,王曉剛提出通過端到端架構去減少中間模塊傳遞時的誤差。

他們甚至試圖將端到端運用到實踐之中,這個時間點比特斯拉早了近6年。

2017年,本田找到商湯科技團隊,合作L4自動駕駛項目。“本田給出的要求就是純視覺、沒有高精度地圖,根據圖像直接去規劃行駛軌跡”,王曉剛說,“跟今天端到端自動駕駛的要求一樣。”但受限於當時的網絡結構、硬件算力、雲端算力等客觀條件,量產並未能落地。

技術落地需要天時、地利、人和。“我們第一個提出來端到端自動駕駛的方案,但是大家都不信,也不知道怎麼用,行業認知還沒有到達一定程度。”王曉剛回憶。

那幾年,自動駕駛行業也處於混沌期。車企和自動駕駛公司在純視覺和激光雷達路線間搖擺,關於未來智駕的進化路線,行業內並沒有統一認知。

因此,在商湯絕影一腳踏入汽車業後,最先做大最強的業務是智能座艙業務。2021年7月,商湯科技發佈智能汽車解決方案獨立新品牌SenseAuto絕影,正式踏入汽車業,王曉剛成爲商湯絕影負責人。

依託商湯科技積累的視覺感知技術,在智能座艙領域,商湯科技在2018年推出了自己的座艙產品:SenseDrive DMS駕駛員監控系統。2018年至2019年,除了落地合作的威馬外,商湯還拿下了與安波福、偉世通、蔚來、廣汽等國際Tier 1供應商和超過10家主機廠的智能座艙合作訂單,但同期智駕領域沒有公佈合作車企的數量。

早期在智駕領域,除了與本田合作L4自動駕駛以外, 2019年,商湯纔開始推出自己可量產的ADAS方案。

直到2021年上海車展上,商湯絕影推出了SenseAuto Pilot-P駕駛領航方案,能夠實現L2+級高級輔助駕駛功能。

2022年底,商湯在論文中提出了一段式端到端,但不管是從現實環境還是當時的技術量產能力來看,整個行業在當時並不具備將一段式端到端技術落地的能力。

圖爲 2022年商湯科技發表的論文《Planning-oriented Autonomous Driving》中提出的智駕系統模型,並於2023年獲得CVPR最佳論文獎

特斯拉的出現,改變了這一切。

《馬斯克傳》提到,2022年12月,受 ChatGPT 啓發後,馬斯克在特斯拉設立neural network planner項目,想要達到“特斯拉ChatGPT時刻”。次年11月,特斯拉就推送了FSD V12,成爲最早落地量產“端到端自動駕駛”大模型的車企,也掀起了車圈“端到端”上車風潮。

2024年,小鵬、理想等新勢力的端到端方案已經上車,智駕方案商Momenta已經實現一段式端到端,華爲也在攻入一段式端到端方案。

2024年北京車展,商湯絕影亮相了UniAD一段式端到端的實車部署;到11月,商湯絕影發佈了三套全場景智駕的量產方案AD Pro、AD Max、AD Ultra,其中AD Ultra就是絕影UniAD一段式端到端量產方案。今年年底,商湯絕影與東風汽車聯合開發的端到端自動駕駛系統將量產落地。

最先發現端到端機會的商湯絕影,似乎晚了一些。

“人工智能公司擅長從0到1,因爲聚集了一批非常優秀的工程師,但都很貴。而1到N的量產,對於商湯絕影是一大考驗”,王曉剛認爲,這需要把運營成本降低到和對手一樣的水平,或將效率提升到對方的三四倍。

爲了補上“量產課”,王曉剛開始從人才引進和產品平臺化兩方面發力。

“新招來的人才來自行業裡的主機廠或供應商,擁有成熟的經驗。”王曉剛說,“現在要規模化發展,每個環節便需要有擅長的人,需要大家協同作戰,就像特種部隊後面還有大部隊。”

平臺化方面,爲了應對不同硬件平臺與底層軟件的適配難題,實現跨項目的經驗共享,商湯絕影開發了一套工具鏈,包括中間件適配層和統一模型部署系統,前者可以屏蔽不同中間件和底層軟件的差異,後者支持多種芯片平臺的開發。

在此過程中,王曉剛一直在探索如何從高校教授轉型成爲管理者。

商湯科技的企業文化和後來的團隊領導實踐都給他帶來了很多影響。商湯內部倡導“黑羊文化”,這是創始人湯曉鷗提出來的企業理念,它與“狼性文化”迥異,主張企業應像“黑羊”一樣兼具特立獨行的創新精神和同理心,既追求突破性發展,又注重團隊協作與人性化管理。

進入汽車行業後,“黑羊文化”繼續進化,在與車企合作中,王曉剛追求黑白交融的“太極模式”,即成就客戶自研團隊的同時,將對方轉化爲生態夥伴。

以合作方式爲例,其他智駕供應商多選擇交付黑盒,這也被供應商們視爲保護自有底層代碼和軟件核心競爭力的方式之一,但商湯絕影卻採用的是更加開放的白盒交付模式。

在白盒交付的基礎上,商湯絕影還會把整套工具鏈、研發平臺、數據平臺,數據管線、數據格式、超算中心等都會與車企一起共用、共享。“我們要爲主機廠改造研發體系。”王曉剛說。

“這不是因爲我們無私。端到端自動駕駛是由模型驅動,車企得確保模型是安全的。而模型又是由數據產生,這需要車企能掌控數據源頭,對整條數據傳輸的鏈路能進行回溯、確保安全。”王曉剛說。

量產的重要性提升,他向《21汽車·一見Auto》描述了自己的蛻變:以前,論文投稿是他眼中的“春晚”,現在,客戶發佈會是他的“春晚”。

但在商湯,員工們還是喜歡喊他“王老師”,在他的管理風格中,還能識別出一些教師的烙印,比如低調內斂、親力親爲。王曉剛喜歡常駐一線,和工程師拿着白板一條條解決問題,這樣效率更高,有時候還會有靈感迸發。

在王曉剛看來,補上汽車行業的必修課後,商湯絕影還有機會。

他認爲,今年市場上更大的機會在於中低端市場。這也是商湯絕影智駕戰略重點落地的方向。2025年,商湯絕影進一步擴大交付範圍,新增合作車企包括廣汽埃安、一汽紅旗等,並計劃基於英偉達Thor平臺開發更高階的端到端方案。

同時,商湯絕影今年年底即將量產的智駕系統還疊加了多模態大模型DriveAGI,加入了與世界模型的交互。在世界模型的加持下,王曉剛認爲,商湯絕影的智駕技術方案“能夠超過人類的水平,且有更多安全的確定性”。

除了智艙、智駕業務外,商湯絕影還有更長遠的生意。他們更大的業務盤在於雲端服務,即利用自己的AI基因,給企業搭建數據迴流管道,進行AI基礎設施建設。

“就大趨勢而言,(軟件供應商們的)核心壁壘並不在算法本身,我們更多地要看重AI基礎設施建設,而且技術還在不停地演進。”王曉剛說。

與智能汽車解決方案供應商華爲、智駕供應商Momenta們的不同在於,王曉剛對商湯絕影的定位是一家汽車領域的AI平臺型公司。用王曉剛的話來講,只要AI不斷演進,絕影對主機廠就是有價值的。

從高校實驗室再到“全球AI領域最大IPO”,商湯科技開盤首日市值曾超過1400億港元,是AI四小龍之一的“雲從科技”的上市首日市值的七倍左右。

爲了攀上AI高峰,商湯科技花了七年。如今,商湯絕影想要翻越汽車產業這座高山,讓AI的價值再被驗證一次。

以下是《21汽車·一見Auto》與商湯絕影CEO王曉剛的對話,經摘編:

《21汽車·一見Auto》:你之前在香港中文大學當教授,後來在商湯科技當管理者,現在也是商湯絕影的CEO,從學者轉型到管理者的難度不小,你當時爲什麼做這個決定?

王曉剛:其實從學術研究到產業界、工業界,我主要受湯(曉鷗)老師的影響。

我是2001年到香港中文大學做他的學生,攻讀信息工程碩士,因爲那個時候湯老師也在微軟亞洲研究院工作了一段時間,他已經想去創業。

無論是在微軟還是香港中文大學,他都已經看到這些好的技術有潛力去造福人類社會,想把人工智能產業化。

《21汽車·一見Auto》:那時候你們在攻堅什麼技術?

王曉剛:2014年,我們和 Facebook 打了一個PK,當時Facebook想做一個突破性的技術進展,讓機器的識別率超過肉眼的識別率,最後我們的模型對人臉的識別率率先超過肉眼的識別。

當時,我們還與谷歌和微軟在視覺領域競爭,在 ImageNet 視覺挑戰賽中進行識別和檢測技術比拼,我們還拿到了冠軍。

《21汽車·一見Auto》:這在當時是怎樣的水平?

王曉剛:當時業內有一個知名學者還特地寫了一封信,那時我們還只是一個小型實驗室,這位學者打了個比方,他說,《聖經》裡有個故事,巨人名叫歌利亞,而小人大衛用投石器擊敗了他。當時他說,我們這麼小的實驗室,就像大衛一樣,與行業巨頭Facebook、谷歌等展開競爭,並且取得了勝利,這是一件了不起的事。

但回想起來,這一切實屬不易。因爲當時沒有人知道人工智能是否能夠超越人類。而當我們最終實現了這一點時,我們看到了巨大的產業價值。湯老師的信念實際上也徹底改變了包括我在內很多人的命運。

《21汽車·一見Auto》:2016年你加入商湯科技成爲聯合創始人,你是如何蛻變成管理者的?

王曉剛:當時七月底接到一通電話,我第二天就馬上到崗了,當時說我只需要在技術上給一些指導。但其實後來發現完全不是這麼回事,在這個過程中,就不存在單純的管理者,或者是單純的技術人員。後來其實是我自己發現怎麼去管理,我也是上了很多課。

《21汽車·一見Auto》:你補了什麼比較關鍵的“管理課”?

王曉剛:我摸索出來發現最大的就是信任,其實你的團隊和你之間,最本質的管理就是要建立起信任關係,你要幫他在最困難的時候去解決問題。我覺得管理者最本質的就是這兩個字。

《21汽車·一見Auto》:2022年你接棒汽車後,跟你之前做過的手機,智慧城市等業務相比,你覺得最大的區別是什麼?

王曉剛:進入汽車行業其實很難,因爲汽車生產週期長,對品質和安全的要求極高,這對公司團隊的信譽和質量把控是極大的考驗。跟其他行業不同,比如手機或互聯網行業,產品迭代可能以月爲單位,但汽車行業以年爲單位,售後也更復雜。而且自動駕駛涉及整個產業鏈,需要各方在軟件硬件上協同合作,建立信任。

《21汽車·一見Auto》:你們在汽車領域有智能座艙、智能駕駛和AI雲三大業務,最早量產的汽車業務是什麼?

王曉剛:最早是在座艙領域。

《21汽車·一見Auto》:你們的客戶列表中也有小米,你們是怎麼和小米開始合作的?

王曉剛:我們主要提供小愛同學背後的大模型。後來小米SU7上市後,座艙的小愛同學也是我們支持的。

《21汽車·一見Auto》:加入你們的大模型後,小愛同學有什麼提升?

王曉剛:最早在大模型出現之前,小愛同學的功能主要是執行指令型任務,用戶讓它幹什麼它就幹什麼。大模型誕生後,我們爲小愛同學賦予了更復雜問答的能力,包括與搜索功能相結合,這對智能化要求還是比較高的。

今天我們又不斷推出了更多的功能,比如多模態功能。早期的大模型主要側重於屬於被動響應,你問他什麼問題他來進行回答。一旦有了多模態,他就可以察言觀色,可以主動發起對話,這實際上是對人際交互的比較重要的改變。

《21汽車·一見Auto》:蔚來他們有自己的座艙團隊,爲什麼找你們合作?

王曉剛:在座艙領域,我們和蔚來的合作一直比較久,從最早的DMS(駕駛員監測系統)、OMS(車艙感知系統)開始。蔚來對產品的品質要求非常高,對產品的應用設計也有自己非常獨到的辦法,能夠把我們的技術優勢發揮出來。

我開始做DMS、OMS其實有很多Corner Case是解決不掉的,那現在也是在我們的客戶的要求下,封閉開發,不斷地去提升品質。

《21汽車·一見Auto》:當時李斌給了你什麼建議?

王曉剛:2020年時,他對視線跟蹤(Gaze Tracking)這些技術要求非常高,因爲這個技術能夠實現與Nomi的互動。現在已經不光能實現與機器人的互動,還有與你關注的大屏互動。他在這塊會提出非常高的要求。今年我們不斷迭代之後,就有了這種3d gaze。

《21汽車·一見Auto》:你們給蔚來的座艙開發了什麼功能?

王曉剛:我們給蔚來樂道的全座艙配備了人臉識別技術,看上去簡單,其實產品體驗還是有很大提升。原來每次都是用戶自己來呼喚Nomi的名字,現在Nomi可以叫你的名字,我們跟車的距離就拉近了。

《21汽車·一見Auto》:你們早期做過DMS業務,這對後來做智駕業務有沒有幫助?實際上差異有多大?

王曉剛:在智駕領域,技術要求更爲複雜。我們在爲客戶提供智駕交付服務的過程中發現,不僅技術更加全面,質量要求也要不斷提升。同時,還要配備一系列工具鏈,來提高研發迭代的效率。後臺數據的生產效率和質量同樣面臨高標準的要求。在這個過程中,我們不斷成長與進步。

《21汽車·一見Auto》:今年你們提出了做世界模型,但是主機廠們都還在追逐端到端,你怎麼看?

王曉剛:以前大家都認爲端到端可能是終極方案,但今天來看端到端路線也有它的問題,如今又有世界模型、強化學習等新技術出來。

《21汽車·一見Auto》:之前你曾提過,絕影是第一個先發現端到端大模型的,但爲什麼在行業內似乎並沒有很多知名度?

王曉剛:2017年開始,我們跟本田合作了自動駕駛項目。本田當時的要求就是純視覺、沒有高精度地圖,根據圖像直接去規劃行駛軌跡,跟今天端到端自動駕駛的要求一樣。但那時候,網絡結構、硬件算力、雲端算力都很弱,不具備這個量產條件。

到了2022年,條件具備了。我們第一個提出來端到端自動駕駛的方案,當時也在給車企推廣大模型,但是大家都不信,也不知道怎麼用。

2022年底的時候,ChatGPT出現了,大家纔開始相信大模型。

原來的聲量小,不是因爲我們做的宣傳不夠,是因爲整個市場還沒有相信這個東西能成,行業認知還沒有到達一定程度。

《21汽車·一見Auto》:當時這個合作有推進下去嗎?

王曉剛:我們做了五年。2022年才交付出去。但是本田一直沒有做量產的落地,項目只停留在了前端研發階段。

《21汽車·一見Auto》:過往的端到端路線存在什麼問題?

王曉剛:我舉個例子,當時我們最早在2022年就提到了端到端,像ChatGPT這種方案本質上也是端到端,輸入數據直接輸出結果。

但是到了2023、2024年,技術發展兩年後,大家發現了端到端的瓶頸。當時OpenAI提出的“Scaling law”(尺度定律),認爲不斷擴充模型規模和數據量就能提升性能,從而實現更強的能力,預期GPT-5會因更大參數規模而更強大。然而到了2024年,GPT-5卻遲遲未發佈。大家在疑慮可能是因爲互聯網數據價值被榨乾,遇到了數據瓶頸。

《21汽車·一見Auto》:爲什麼端到端路線會遇到數據瓶頸?

王曉剛:端到端學習屬於模仿學習,依賴現有數據模仿人的駕駛行爲,需要大量高質量數據作爲基礎。比如在某個場景中,十個人開車,一個高水平司機能順利通過,而其他九人都停滯不前。這也意味着數據中90%都是低質量數據,那麼端到端學習到底學到了什麼?可能只是學到了一般的行爲。

《21汽車·一見Auto》:後來你們是如何發現要轉向世界模型路線的?

王曉剛:到了年初的時候,DeepSeek的出現標誌着算法的突破,它主要依靠強化學習生成了大量前所未有的數據。

它核心點在於給出一道難題,有題目和答案,它能夠提出十種不同的解題思路,人類可能做出來的只是其中兩種,其中 80% 都是新的解題思路,這被稱爲 “思維鏈”。是人類歷史上未曾有過的新數據和思路。這就像數學家研究猜想時,在解題過程中產生許多新定理和定義一樣。

DeepSeek實際上突破了人類的天花板,爲自動駕駛等領域帶來了新的可能性。

《21汽車·一見Auto》:這種思維鏈如何與你們的大模型結合?

王曉剛:我們首先把長思維鏈、慢思考用到多模態。原來只能生成文字,現在還能生成圖像。比如解幾何題時,給你圖形,你一邊解題一邊添加輔助線,不斷演變圖形。多模態原來只是文字的生成,那現在還有圖像的生成。

《21汽車·一見Auto》:今年以來,世界模型非常熱門,但前段時間有新勢力延遲了他們的世界模型的發佈。爲什麼其他團隊也在做世界模型,卻不及預期?

王曉剛:因爲世界模型在量產過程中對數據積累要求非常高,如果11個攝像頭中有一個攝像頭的畫面與其他的沒有保持時空一致,這樣的數據拿去做訓練會讓我的模型變差。但我們的研發團隊對於世界模型的訓練的要求更高。

《21汽車·一見Auto》:你們如何獲得所需要的高質量數據呢?

王曉剛:世界模型能夠仿真出物理場景,這裡的高質量是指人的駕駛行爲很高,那麼我們是要通過強化學習,就是在端到端模型中不停地試,直到找到高質量數據,拋棄低質量數據。在真實的物理世界中,交通場景試驗成本高,風險大,我們沒法擁有很多試驗機會。

《21汽車·一見Auto》:所以世界模型能提高智能駕駛的上限,需要解決哪些關鍵問題?

王曉剛:它能夠超過人類的水平,而且還有更多安全的確定性。

做好世界模型需要解決兩個關鍵問題。首先,場景至關重要。我們需要爲模型提供有價值的難題場景,類似於DeepSeek 學習時需要高質量題目一樣。在自動駕駛中,我們需要給它找“奧數題”,找更難的這種場景,即使現實中很少有駕駛員能成功應對。只要知道起點條件,我們就可以在仿真環境中不斷嘗試。其次,在仿真環境中,通過強化學習和端到端模型,能夠模擬出優秀的駕駛行爲。

《21汽車·一見Auto》:你們現在在爲主機廠提供的智駕、智艙業務,車企內部也有自研團隊在做,你們如何平衡這種競爭與合作?

王曉剛:我們自己有一個形象的比喻,一類是“鴛鴦火鍋”模式,關鍵在於邊界劃分,大家更多的是一種取代關係。另一類是太極模式,黑白相融,白中有黑,黑中有白,這也意味着車企的自研團隊是我們的同類。我們的目標是,怎麼去成就我的客戶與他的自研團隊。

《21汽車·一見Auto》:無論是鴛鴦火鍋還是太極模式,都涉及車企和供應商兩大主體。但主機廠對待供應商更流行賽馬,而你們的團隊文化是黑羊文化,你如何看待這兩種文化的競爭?

王曉剛:其實正常,看待問題的出發點跟我們自身的定位有關。

主機廠一定需要AI能力,今天可能是智能駕駛,將來還有艙駕融合技術在不斷演進,有的東西它是暫時的,我們要給他乾的事,就是改造研發體系。

一個公司內部,這些AI基礎設施不太可能是兩套管線,而且這也是一個長期的建設過程。

《21汽車·一見Auto》:你們具體如何幫助別的公司內部自研團隊?

王曉剛:企業要發展自動駕駛技術,需要在內部建立相應的AI團隊,確保對技術有深入瞭解和掌控。因爲自動駕駛涉及安全問題,企業要對產品的安全性和可靠性負責。

但其實在各個公司,AI的團隊往往都是不大的。因爲在AI方面,你要投入的資源畢竟有限。而人工智能它又是一個投入要求非常高的行業。

但如果企業不瞭解所使用的算法和數據,出了問題就無法承擔責任,所以企業需要與AI公司合作,又需要能夠比較好地把人工智能跟他自身發展結合在一起。我們也做了很多,涉及到對於企業裡面整個系統的一些改造。

我們會把整套工具鏈、研發平臺、數據平臺,數據管線、數據格式,以及超算中心都會和車企一起共用、共享。比如有的時候我們還把我們的AI模型放到傳感器裡。

《21汽車·一見Auto》:你們在與客戶合作時爲什麼會選擇主動交付白盒?

王曉剛:自動駕駛領域最重要的就是數據。數據迴流管道實際上是跟算法是強相關的。主機廠也有數據迴流,但很多數據都回不到他這裡,是回到供應商那裡,而且數據就算給到他(主機廠),他都不知道數據該怎麼用。

我們要協助車企搭建數據管道。數據就像埋藏在地底下的石油,我們需要有條通道把石油提取出來,這就是管線。數據不斷變化,算法也在不斷變化。但數據管線可以搭建一個橋樑把數據提煉出來,然後再用提煉的數據去訓練自己的模型。

不管前端的算法怎麼變化,各種採集這麼分佈,數據管線都能夠對採到的數據進行傳輸,這是基礎設施。

今天我們願意跟車廠進行白盒交付,並不是因爲無私,而是我們能夠看清楚未來技術發展的路線和商業發展的趨勢一定是要跟車廠深度結合。

《21汽車·一見Auto》:爲企業提供AI基礎設施、改研發體系和鋪設數據管線,絕影如何確保自己的不可替代性?

王曉剛:我覺得這是一個戰略的選擇問題。

另外從商湯的角度來說,我們的發展,實際上是在AI的領域不斷地往前演進,所以說我們後面也會不斷地有新的武器出來。

AI目前每年都有新的技術路線,在向前發展。只要這個趨勢不變,那商湯在這個領域裡,我們作爲AI平臺公司,一直跟隨着或者引領行業裡面最前沿的東西,對主機廠就是有價值的。

《21汽車·一見Auto》:與其他方案商相比,商湯絕影的優勢是什麼?

王曉剛:我們還是一個人工智能公司,背靠商湯會給我們帶來源源不斷的彈藥。

*注:

該論文爲2017年9月王曉剛等人發表的《 Scene Graph Generation from Objects, Phrases and Region Captions》

(記者易思琳對本文亦有貢獻)