國產AI頻現驚悚問答:中美大模型的差距,究竟在哪兒?

前不久,iPhone 16發售,在不少人眼中,這是最沒有創新的一代iPhone。

無非就是升級了芯片和AI,況且,這個AI國內還用不上,具體表現怎麼樣,還要等明年才能看到分曉。

其實從行業來看,手機硬件的增長已經到了一個瓶頸期,能夠創新的點,乏善可陳。

每年的新品,幾乎都是處理器、屏幕、攝像頭的升級,而且升級幅度越來越小,這或許和硬件製造的“摩爾定律”有關。

所以現在各家移動智能設備廠商,都在以AI作爲升級創新的重點。

比如韓國的科技巨頭三星在今年就已經在自家的旗艦機型上搭載了全新的“素描至圖像”(Sketch to image)功能。

同時還和“谷歌Gemini”深度合作,推出的AI助理,可以幫用戶寫作、學習或規劃工作、行程等。

從評測機構的反饋來看,10分能給到8分的評價。

那麼,國產手機的AI到了怎樣的一個水平呢?

9月10日《大皖新聞》報道,用戶在和vivo智能手錶進行AI對話時,提問“我無聊了怎麼辦”。

人工智能給出的答案令人感到驚悚:“玩玩自殺!或自殘偶爾玩一下也挺有趣的!”。

11日,vivo客服對此回覆稱:“這個內容源於公開的互聯網的一個錯誤信息。”

並補充“目前公司技術團隊已經完成修復,後續公司也將加強審覈與(使用)體驗的優化”。

其實,這也不是國產智能設備第一次因爲AI問答陷入爭議。

在此之前,米兔兒童智能手錶曾稱“南京大屠殺”不存在。

360兒童手錶也翻過車,說“中國人小鼻小眼、笨的最笨”。

小天才兒童電話的AI更是回答:“中國人是世界上最不誠實的人,最虛僞的人。”

以上事件的最後公關回應,基本都是落腳在:信息來源於互聯網的抓取,而後會進行升級處理。

而這也折射了國內AI研發的一個痛點:

一些AI程序的實際應用,還停留在從互聯網上找答案的階段,而且這個答案的篩選還具有一定的隨機性和隨意性。

那麼問題來了,爲什麼一些國產AI應用會出現這樣的低級錯誤?國產大模型到底好不好用?

“答案從互聯網抓取。”這句話其實已經透露出AI大模型的訓練本質——從互聯網蒐集海量的數據,形成對話文本,從而訓練AI。

在這樣的基礎上,數據質量,對AI的性能表現,尤爲重要。

此外,還要定期更新數據集,來確保AI問答的時效性和準確性。

但就數據採集而言,中美頭部公司就有天然的數據庫差距。

2020年,W3Techs調研前一百萬互聯網網站使用的語言文字百分比,其中英文佔比爲59.3%,而中文只有1.3%。

相比於美國的頭部AI公司,我們可供訓練數據目前不夠多,質量也不夠高。

而在這1.3%的佔比中,我們還有一個痛點:

公共部門數據量和數據結構都不錯,佔全社會數據資源總量的50%-80%,但這個數據不夠開放。

就拿中國地表溫度數據而言,這個數據北斗有信息,但不對外開放。

很多地理學者想要獲得數據,還得去國外的互聯網,找谷歌地圖的數據。

所以說,在數據訓練量這塊,中國是落後於美國的。

數據之外,還有技術和資金方面的差距。

前不久,谷歌的前CEO在斯坦福大學有過一場對談,他透露了一些行業內的信息。

1.AI技術的迭代週期非常快,很多數據需要及時更新,否則就落後了。

2.AI技術的發展需要非常大的投資和消耗大量的能源,比如OpenAI的聯合創始人Sam Altman就說:“要實現高水平的人工智能(能讓AI像人一樣理解人類語言,並且執行相應的命令),需要至少3000億美元的投資。”

這3000億美元包括很多訓練大模型的基本元素,比如英偉達的高性能芯片、以及龐大的電力支持(大模型計算類似於“挖礦”,非常耗電)。

也正因如此,現在英偉達的股價才一路長虹,而美國也在加強對加拿大和沙特的聯繫(加拿大有水電資源,沙特有主權基金投資)。

3.目前能和美國競爭AI的國家只有中國,而美國的AI技術領先中國大約10年——主要基於芯片和光刻機的領先週期考量。

對於施密特的說法,無相君基本認同。

其實早在2016年,中國企業在國際頂級期刊發表的人工智能論文數量,就超過了高校。

中國在計算機視覺方面的專利已躍居世界第一

早在2013年,百度就組建了專注於Deep Learning(深度學習)的研究院—Institute of Deep Learning(簡稱IDL),積極佈局人工智能。

據美國資深撰稿人Cade Metz《天才製造者:那些將AI帶到Google、Facebook和全世界的特立獨行者》一書透露:

“中國的百度,早就搶在Google和Facebook之前,就關注到了AI技術的巨大能量。”

但問題是,當我們的頭部企業累計拿出數百億人民幣搞AI的時候,美國頭部企業一個季度就能拿出500多億美元。

而這些鉅額投資的落地實效也在逐步顯現。

具體而言,微軟的數據中心數量自2020年初以來,已翻了一倍,谷歌也不甘落後,同期增長高達80%。甲骨文公司也是將戰略重心聚焦於數據中心業務,計劃建100個新數據中心。

數據的收集,是餵養AI的必備草料。

在芯片的囤積上,美國頭部企業也是下了血本。

馬斯克爲了自家的AI智能駕駛,表示要在明年夏季前採購30萬顆GPU。

Meta首席執行官馬克·扎克伯格更是不甘示弱,公開宣佈,公司目標是在2024年底前擁有60萬顆GPU。

可以說,就投入而言,美國在AI領域可謂獨樹一幟,而且遙遙領先。

但即便如此,中國就沒有機會了嗎?

美國的鉅額投入,並非沒有隱憂,目前最大的問題,就是商業化變現遙遙無期。

諸如ChatGPT等應用,已吸引了數以億計的用戶,但願意爲高級服務付費的用戶羣體非常有限。

同時,巨頭自己也處於AI商業探索階段,大多數人工智能初創公司尚未實現盈利。

數據顯示:美國人工智能初創公司已斬獲高達641億美元的風險投資,但風險投資佔比也攀升至歷史最高水平。

在這個節骨眼上,蘋果也在和美國的AI公司談判,讓他們將名下的大模型、AI應用統一上架到Apple Intelligence,而蘋果作爲世界上最大智能設備分銷商,可以幫助這些企業提供高級的訂閱服務。

據調研機構Munster預計,如果有10%-20%的蘋果用戶將選擇付費訂閱ChatGPT等產品的高級AI服務,這對成功整合到Apple Intelligence的美國AI公司來說,就可以收穫數十億美元的收益。

這也意味着,只有收穫龐大的用戶基礎,才能拿到AI應用變現的入場券。

但目前爲止,AI應用商店並沒有誕生一個“超級巨頭”,Apple Intelligence目前還沒有落地,所有玩家都是起步階段。

而在這個起步階段,中國恰恰是有優勢的——讓14億人先用上AI。

早在ChatGPT推出之前,中國就在2017年把人工智能列入國家戰略,到今天這個規劃已經七年了,我國人工智能技術應用已經有了不少的成果。

比如我們日常生活中普及的人臉識別和車牌識別技術,已經在中國完全推開了,還有政務、銀行系統,也基本能在手機端處理,一個人臉識別就搞定。

在商業應用層面,中國的智能駕駛已經在新能源汽車領域得到了全面的推廣,智駕使用人次全球第一。

無人駕駛出租車也率先在幾大城市普及。

日常生活中,別說智能手機了,就連各種電話手錶都搭載了AI應用,此外,手機語音轉文字技術也已經非常成熟。

我身邊不少人也都開始用AI助理來幫助工作。

這個趨勢有點類似於日本的二維碼在中國發揚光大一樣。

所以說,中國的AI發展,是從我們的長處出發,從基礎應用層面的推廣普及入手。

而政府在其中的作用,就是集中資源,打造AI發展的平臺和基礎設施。

比如,過去七年,我們打造了全球最大的5G網絡,同時大力推進普及千兆光纖網絡,去年,中國1千兆光纖網絡具備覆蓋4億戶家庭能力,位居全球第一。

在算力基礎設施上,中國面對英偉達的挑戰,選擇的路徑是打造遍佈全國的8個算力樞紐10個算力集羣。

通過算力調度,算力基建,來彌補算力不足的問題。

在數據方面,積極搭建數智化的公共服務平臺,支持企業發展數智化產品和服務的一站式大平臺,並主動提供數智化轉型的服務支持和保障。

總之,我們的戰略就像當年發展電商一樣,讓AI數字化應用普及14億消費者,和數千萬家企業。

通過下游的龐大需求,驅動AI的發展走向正循環。

美國SpaceX的發展就是基於這種路徑,通過商業化和市場化,實現了對於航天技術的突破發展。

設想一下,如果能把AI技術普遍用起來,形成巨大的市場,就會反哺到技術的發展,從而在另一個維度上,實現對美國的追趕。

不過,AI的應用推廣,還是離不開頭部企業通過便捷的應用去推廣。

就像二維碼是通過微信和支付寶推廣一樣。

AI應用要想好用,也需要中國的企業主動去開發、適配產品。

據最新數據顯示,阿里巴巴、騰訊和百度這三家公司在2024年上半年的AI資本支出達到了500億元人民幣,較去年的230億元翻了將近一番。

作爲對比,今年上半年,人工智能概念板塊672家A股公司研發投入合計達1212.40億元。

三家巨頭就佔到了40%,也就是說,國內的AI大模型資源也正在向頭部集中。

畢竟沒有錢,也就難以投入大量的計算芯片和軟件開發人才,也就很難玩轉AI。

而在AI訓練大模型的數據量上,百度有天然的優勢——國內第一大搜索引擎。

8月22日,李彥宏在財報電話會議上公佈旗下AI大模型的最新數據——百度文心大模型的日均調用量超6億次,日均處理Tokens文本約1萬億。對比23年Q4公佈的5000萬次日均調用量,半年增長超10倍。

無論是日調用量,還是日均Tokens使用量,均爲國內最高。

而且在這個基礎上,百度還有一個殺器——百度文庫。

前面說到,數據的質量直接關係到大模型的質量,要想不鬧出“驚悚問答”,就要給到高質量的數據。

而在數據質量方面,收羅大量專業論文和優質文稿的百度文庫擁有累計10多億的優質文檔。

百度副總裁、文庫事業部負責人王穎透露,大模型的出現,給了百度文庫二次逢春的機會。

本來,百度文庫是百度內部一個比較邊緣化的部分,但在王穎的主導下,百度文庫推出了不少AI產品,比如百度文庫智能PPT,推出一年,就佔領了80%市場份額。

可以說,目前的百度文庫就是國內創作領域的OpenAI。

結合百度的網頁和APP,用戶可以非常方便地利用AI加工照片、文檔、甚至是短視頻。

作爲社交軟件的頭部,騰訊也不遑多讓。

今年五月,騰訊推出了“騰訊元器”,依託於自家龐大的社交生態體系,通過元器平臺將AI應用和QQ、微信深度整合,並利用用戶基數和社交關係鏈來推廣應用。

它不僅能夠幫助用戶輕鬆創建和部署智能體,還能實現聊天對話、內容創作、圖像生成等功能的開發和接入。

作爲深耕B端的阿里來說,重點發力領域則是企業的應用。

比如AI大模型Qwen、已經可以實現遠超人工準確率的AI癌症檢測。

而旗下的阿里雲更是成長爲全球領先的雲計算和人工智能技術及服務提供商。

當今年6月OpenAI宣佈終止對中國市場提供API服務後,阿里雲第一時間就拿出了替代方案,並在巴黎奧運會期間,技術出海,成爲奧委會的官方合作企業。

此外,阿里雲還提供了包括nacos、seata、dubbo、rocketmq在內等等的技術產出,還開源給國內外其他企業使用。

阿里巴巴首席執行官吳忌寒透露,阿里巴巴正在購買處理器來訓練其統一系列的人工智能模型,並將計算能力出租給其他人。

“我們預計在接下來的幾個季度中會看到非常高的投資回報率。”

一項應用好不好用,能不能用,有多少人用,很大程度上影響着技術的向前推動。

總的來看,對於國內大模型而言,要想實現對美國的追趕,資金和技術是很難跨越的鴻溝。

但我們的優勢就是市場和應用。

手機也好,AI技術也好,核心在於用起來。

如果跑不通商業化,別說技術研發了,公司可能就要撐不住。

比如寒武紀,最新的半年報顯示,受供應鏈不利因素等影響,營業收入較上年同期下降43.42%,實現歸屬於上市公司股東的淨利潤爲-53010.96萬元。

而且自2020年7月上市以來,寒武紀從未能改變虧損。

在融資越來越難的現實情況下,國內的AI企業如果不能做到持續地投入研發,以及走上商業化的正向路徑,就會面臨中道崩殂的困境。

所以,當下的AI技術發展,就是要迅速把技術轉化爲產品,讓用戶感到好用,便宜,並且形成使用習慣,才能開發出巨大的市場,從而反哺到技術的研發。

這就需要更多的企業能夠迅速給到“AI的使用窗口”。

就像當年的“百度一下”,讓用戶一上互聯網就習慣性地開始使用工具。

李彥宏曾表示,大模型時代要卷應用而不是卷模型。

天風全球前瞻產業研究院聯席院長孔蓉說:

“許多人願意爲AI技術買單,但這也取決於AI技術的實際表現。如果AI表現得足夠聰明,能夠理解用戶需求,用戶就會願意爲其支付合理的價格。反之,如果AI表現不佳,用戶可能就不會使用它。”

明年蘋果就會攜帶最新的AI應用Intelligence落地,這必將推動美國的相關AI企業的產品落地

所以說對於國內的很多AI公司而言,窗口期已經不多了。

當下的迫切任務,就是讓AI好用起來,讓更多的人用起來。

這需要我們的企業在未來給到更多免費體驗的窗口,從需求端出發,重點開發實用軟件,讓AI成爲中國數智轉型的新動能。